第5章 Word文書からウエブサイト原稿を作成する

5.1.1 HTMLでは自由なスタイル設定は困難
チラシは画像化する方が良い


このようなチラシは
画像化する

送られてきた記事原稿(word文書)には画像が貼付けてあり、原稿作成者の好みのスタイルでテキスト、色設定、フォント、画像配置されています。記事としてウエブにアップロードする場合、可能な限り原稿作成者の希望するスタイルを守りたいのが基本です。
しかし、HTMLにはWordほどのスタイル設定の自由さはありません。忠実に再現は不可能ではないですが、大きな労力を必要となります。
更に、印刷物と違い、閲覧者のデバイスやブラウザにより見え方が同一ではありません。
ウエブサイトには、A4、B5といったサイズの概念はありません。新聞に色々な記事を配置するのに似ています。
従って、記事にするときは、ウエブサイト全体のバランスや記事作成の手間を考慮すことになります。
デザイン優先の行事案内チラシは、ワード文書をPDF化して、<a href="URL"> 文書名称</a>でリンクさせます。

5.1.2 ワード原稿から画像を分離する方法

webページ(*.htm,*html)を選択し保存

原稿(docまたはdocxファイル)から貼付けられている画像の解像度を劣化させずに分離する方法は、以下の手順です。

  1. ファイル→名前を付けて保存
  2. ファイルの種類:webページ(*.htm,*html)を選択し保存
  3. 保存先に、次のホルダーとファイルが保存される。
    • 「元のWordファイル名.files」名のホルダー
    • 「元のWordファイル名.htm」名のファイル
  4. 「元のWordファイル名.files」名のホルダーを開くとWord文書の構成ファイルとともに画像ファイルがある。右クリック→表示→特大アイコンで、画像が表示されます。
  5. 圧縮された画像とオリジナルサイズの画像の2種類が分離されます。
    ひとつは作成者が用意したオリジナルで、もうひとつが貼付け時にword上でトリミング(整形)した画像ファイルです。
  6. オリジナル画像をウエブ用に圧縮します。普通は、幅で1024pxあれば印刷しても画質は十分です。パソコンでの閲覧の解像度は100kb程度でも十分ですすが、300kb程度で良いでしょう。1Mb以上の大きな画像を使用すると、スマホでは表示に時間がかかるので嫌がられます。
  7. 分離した画像をウエブで使用します。
  8. 2007以降の「docx」では、「doc」と根本的にファイル構成方法が違います。ファイル名の拡張子を「zip」に変更すると、画像ファイルが分離できます。説明は、こちら。

手順例

ファイル→名前を付けて保存
右の画像をクリックすると、Wordの文章が開きます。実際に手順を行ってみて下さい。
ファイルの種類:webページ(*.htm,*html)を選択し保存
保存先に、次のホルダーとファイルが保存されます。
  • 「元のWordファイル名.files」名のホルダー
  • 「元のWordファイル名.htm」名のファイル
「元のWordファイル名.files」名のホルダーを開くとWord文書の構成ファイルとともに画像ファイルがあります。右クリック→表示→特大アイコンで、画像が表示されます。圧縮された画像とオリジナルサイズの画像の2種類が分離されています。

5.1.3 拡張子 .docと.docx の違い

Word2007以降では拡張子が「.docx」で、それ以前では「.doc」です。Word2007以降ではファイル保存形式にXMLベースが採用されました。そのため「.doc」+「『x』ml」で「.docx」のようです。(出典:こちら。 )XML:マークアップ言語(タグで囲むことで構造を表現する言語)のひとつ。

ファイル保存方法が異なるので、2007以降では名前を付けて保存に「word97-2003文書(*.doc)」を選択するようになっています。上位互換【 upward compatible 】 で2007以降では2003文書を読めますが、逆はできません。

「.docx」では、構成するファイルがzipで圧縮されていますので、解凍して内容を分離できます。詳細は不明ですが、画像ファイルやテキストファイルが分離できる」とういう「ハウツー」だけを利用します。

  1. サンプル文書を開くサンプル文書(docx)(別窓で開く)
  2. そのdocxファイルをパソコン(例えばデスクトップ)に仮保存して下さい。ファイル名「sample (1).docx」となっています。
  3. 右クリックで「名前の変更」を選び、「.zip」を追加して、「sample (1).docx.zip」とします。
  4. ファイル名「sample (1).docx.zip」を右クリックします。
  5. 次の画像のようにデータ構成ホルダーが展開されます。
  6. 「word」ホルダー→「media」ホルダーをクリックすると画像ファイルがあります。
  7. pngファイルです。これを利用します。
  8. 「.docx」をWebページ(*.htm,*.html)で保存しても画像分離はできます。どちらの方法でもかまいません。
  9. これは原稿文書がエクセル(.xlsx)、パワーポイント(.pptx)でも同様です。

5.1.4  絶対URLと相対URL
外部リンクは絶対URL、内部は相対URL

HTML文書で、<a href="リンク先URL">で表わされる ハイパーリンクあるいは、画像を表示するする<img src="画像ファイルURL">等で指定するURLの記述には絶対URL表示と相対URLの2種類があります。
*絶対URLは、「日本国千葉県千葉市・・・・」
*相対URLは、「今居る場所の前の通り右に行き、2本目の道を左に入った3軒目」

URLとは「Uniform Resource Locator」の略称で、インターネット上に存在する情報資源(文書や画像など)の場所を指し示す技術方式です。 通常「プロトコル://ドメイン名/ディレクトリパス名/ファイル名」という形式で構成されるホームページページの住所(アドレス)のことです。絶対表示が建前です。

ところが、絶対表示ではリンク先や画像ファイルがインターネット上にないとリンクすることができません。HP管理で原稿作成している時には非常に不便です。
そこで、「ひとつ上のAAAAディレクトリ内のBBBBホルダーにあるgazou.jpgと指定するのが相対URLです。HP管理では頻繁に使用します。
<img src="../AAA/BBBB/gazou.ipg">


EC千葉のホームページでのホルダー関係で図示すると次のようになります。「../../../」は3つ先の大通りから、gakushu横町に入り、images建物の、2019号室にある「001.jpg」のファイルを表示との意味です。

5.1.5  ディレクトリ、ホルダ、ファイル名
日本語(全角文字)ではなく「nihongo」で

ウエブで使用するディレクトリ名、ホルダ名とファイル名を漢字を含む日本語にできると非常に便利ですが、当分は止めておきます。「jimukyoku」より「事務局」の方が遙かに管理が容易ですが・・・
「文字化け」との因果関係が不明だからです。さくらインターネットサーバでは、日本語のファイル名を読み取ることは確認しています。しかし、公式のガイドpでは次にようになっています。こちら。

日本語名のファイルをサーバに転送する場合は、いったん半角英数字に変更してから転送してください。
上記以外の文字を使用すると、次のような問題が発生することがありますのでご注意ください。
ホームページや画像が表示されない
CGIが動作しない,break ファイルが削除できない

現に、ECUのウエブページでは日本語を使用しています。そこでウエブ上で情報を得ようとしましたが、断片的な情報だけでしたので諦めました。EC千葉のホームページでは「半角英数字」を使用しています。

webページで保存する選択肢

ワードをwebページで保存する選択肢は、次の表のように種類があります。


名前を付けて保存
ファイルの種類 保存内容
Webページ
(*.htm,*.html)
そのページ内の画像等も含めて、完全に保存します。
保存後にあらためてWordで編集を行う場合はフィルタを行わずに保存します。
保存場所に「○○.htm」というファイルと「○○.files」というフォルダができます。
・「○○.htm」 : そのページのhtmlファイル
・「○○.files」 : 画像ファイルやスタイルシートファイル等が保存されています。ここにある画像ファイルを使用します。
IE以外のブラウザ(Netscape等)でも再表示可能です。
単一ファイルWebページ 「Webページ、完全」と違い、「○○○.mht」という1ファイルで保存されます。
但し、IE独自の保存形式のため、IE以外のブラウザでは正しく表示できません。
Webページ(フィルター後) htmlファイルのみ保存します。画像ファイルなどは保存されません。
画像などが不要で、テキストとレイアウトを保存したい場合に使います。
リッチテキスト形式(RTF) 画像もレイアウトも必要なく、テキスト情報だけが欲しいときに使います。
保存ファイルは「○○.txt」というテキストファイルになります。

画像ファイルの拡張子の違い
「.jpg」、「.png」、「.gif」

JPG(「.jpg」)は、(Joint Photographic Experts Group)がプロのカメラマンの標準となるべく開発したファイル形式です。ファイル内の冗長性を見つけて圧縮するZIP形式のように、JPGは画像データをピクセルと呼ばれるタイルに分割することでデータを圧縮します。この圧縮は非可逆圧縮です。つまり、一度圧縮してしまうと元には復元できないのです。しかしながら、大きな画像を驚くほど小さいデータにすることができます。また、JPEGは圧縮率を自由に設定(普通は2:1から100:1まで)することができます。

GIF (「.gif」)は、(Graphics Interchange Format)の略です。GIFはJPEGと同じように古くからあるファイル形式です。GIFは写真以外の画像をサポートするのに使われていました。GIFはTIFFファイルが用いるのと同じ、LZW圧縮を採用しています。この技術は一度、特許の問題で論争を起こしましたが、今では全ての特許の有効期限が切れているので問題なく使うことができます

PNG(「.png」)は、Portable Network Graphicsの略語です。
一番の特徴は、可逆圧縮であり、透明を色として持つことができると言う点です。テキストや線画など色の境界がはっきりしたイメージに適しています。なので、JPGのように保存をしても簡単に画像は劣化しないという特徴があります。
そして、JPGとおなじようにフルカラー対応ですが、ファイルサイズはJPGより大きくなりがちです。

非常に乱暴な分類ですが

  • 写真,グラデーションのある画像など、色数が多い場合 → jpg
  • PC画面キャプチャ,図表,線画など、色数が少ない画像の場合 → png
  • 画像ファイルサイズを気にせず、画質重視の場合 → png
  • gifは動画用。静止画にはpngかjpg

上の情報はかなり断片的です。詳しくは、ウエブ等で調査して下さい。EC千葉のホームページでは、画質にこだわる必然性は少ないようですが・・・

画像ファイルの拡張子の小文字化
JPG→jpg が必要

アルファベットの大文字と小文字の区別

デジカメ、スマホの写真をパソコンに取り込みインターネット上にアップロードするには、画像の拡張子を「JPG→jpg」に変換する必要があります。

マイクロソフトのMS-DOSとwindowsでは、大文字と小文字を区別しません。パソコン(windows)で内蔵の画像を見ている時には、拡張子「.JPG」と「.jpg」は混在していても、区別されされないので問題はありません。しかし、Apach やUNIX で動作するインターネットサーバでは大文字/小文字を区別します。EC千葉のホームページがあるさくらインターネットサーバのOSは、UNIX系ですので大文字/小文字を区別します。従って、サーバにアップロードする時に、拡張子をJPG→jpg に変換し統一しておくと混乱を避けることができます。

マイクロソフトの「IIS」ソフトのサーバは大文字と小文字を区別しません。「London.jpg」と「london.jpg」が区別できません。そのためか、英語圏等ではファイル名にも小文字を用いるようにしているようです。(ウエブページの引用:こちら。)EC千葉のホームページでは、「EMS」と「ems」を使い分けています。

Use Lower Case File Names
Some web servers (Apache, Unix) are case sensitive about file names: "london.jpg" cannot be accessed as "London.jpg".
Other web servers (Microsoft, IIS) are not case sensitive: "london.jpg" can be accessed as "London.jpg" or "london.jpg".
If you use a mix of upper and lower case, you have to be extremely consistent. If you move from a case insensitive to a case sensitive server, even small errors will break your web!
To avoid these problems, always use lower case file names.

拡張子の小文字化(JPG→jpg)する方法

windowsのパソコンでは大文字/小文字区別がないので、拡張子「.JPG」 ファイルの名前変更で「.jpg」としても反応せず変更できません。次の方法があります。

1.拡張子を(JPG→jpg)変換する命令文のバッチファイルを作成し、「.JPG」 を含むホルダーに保存して命令を実行すると変換されます。命令文は「ren *.JPG *.jpg」だけです。「ren」は、「rename]でもOKです。「*.JPG」を「*.jpg」に置き換える命令です。簡単なので試して下さい。
ウエブの一例は、こちら。


リネーム君ロゴ

2.もうひとつは、無料のソフトを導入して行う方法です。HP管理人は、そのフォルダー内ののファイル名を拡張子だけでなく、連番、名前自体、接頭語や接尾語も変更できる「リネーム君」を使っています。説明とDLは、こちらから。

画像編集ソフトPicture Manager のダウンロード

このソフトPicture Managerは多機能ではないが、操作がシンプルで使い勝手の良い優れたものでした。Picture Manager は Office 2013 以降のバージョンには含まれていませんが、スタンドアロンアプリとしてインストールできます。
一部の方から送られてくる原稿の画像ファイルが巨大なので、ここに紹介するものです。ダウンロードして活用ください。マイクロソフトサポート記事

文字化けと文字コード
EC千葉のホームページは「Unicode」と「UTF-8」を使用

ウエブページ閲覧時や受信メールで、時々判読不能な「文字化け」現象があります。HTML文書作成し、<head>部に<meta charset="UTF-8">のように使用している文字コードをブラウザーに指示する必要があります。ブラウザは指定された文字コード(対応表)に基づき表示をします。ところが指示と実際の使われている文字コードが違うと「文字化け」となります。これは、日本語に特に起こる現象で、「mojibake」で通用するとも言われているます。
コンピュータに使用する言葉はASCIIと呼ばれる英語のコード(記号を含め128個)でスタートしました。そこに、仏語や独語等の言語を含む「Latin-1」等のコードができました。ところが日本語、韓国語、中国語のような半角(1バイト)文字ではなく、数万の漢字がある全角文字(2バイト)を使用するのは非常に複雑です。そう言えば、最初のころのコンピュータは「半角のカタカナ」しか表示できなかったことを思い出してください。処理速度や記憶容量が理由だったようです。
そのような歴史的な背景から、日本語(特に漢字)を扱うコードには、JISで定めた漢字コード、Windowsで採用された「Shift_JIS」、主にUNIX系での「EUC_JP」があります。更に、最近主流になっている「Unicode」があります。これが、日本語特有と言われる原因になっているのではと想像しています。
情報通信技術が発達して国際的な活動が増えると,今度は,国や地域別に作られていた文字コードをまとめて国際的な統一文字コードを作ろうということになりました。開発された国際文字コードがISO/IEC 10646,一般には「Unicode」として知られるものです。しかし一方で国別の規格がすでにあるわけですから,そこと互換性をどう保つかが問題になります。さらに,Unicode自体も拡張を重ねており,またUTF-16やUTF-8といった各種の符号化方式が作られ,当初の思惑から離れて非常に複雑なものになっています。最近は日本初の絵文字も採用されているとのことです。
以上、ウエブのあちこちの記事を参考に記載しましたが今一つ分からないのが実感です。
結論をいうとEC千葉のホームページは、「Unicode」を使い「UTF-8」の文字符号化方式を使用しています。
ちなみに、現在日本語メールとして広く一般に利用されている文字コードはJISコードであり、ほとんどのメールではこれが利用されている。シフトJISやEUCは、Webページの制作などではまだ利用されているが、メール環境ではほとんど利用されていない。これらのコードは、ほかの言語との互換性や、多言語が同一メッセージ中に混在するようなメールではうまく利用できないからです。

5.2 原稿をHTML文書とした例と表示例

 サンプルのword文書にHTMLを追記します

上のEMS報告書にHTMLを追記したものをPDFで表示しています。追記したHTMLは赤字です。
3行<article>から67行<article>までが今回の記事です。

 左のHTMLのウエブでの表示例です

スマホで閲覧した一例を示しています。
画像表示幅はw=250Pxと固定しています。