● テキストファイルについて
一口に”テキストファイル”と言ってもその内部形式(コンピュータからみた構造)はさまざまである。特に日本人にとっては日本語を扱う必要があるので、英語圏の場合よりも複雑である。これまで日本語を含んだテキストファイル(主にパソコンの場合)の多くはSHIFT-JISコードと呼ばれる漢字コードで表現されてきた。以下に、日本でよく用いられる漢字コードについて表にまとめる。
漢字コード名 |
主な用途 |
|
SHIFT-JISコード |
パソコン一般 |
|
JISコード |
電子メール転送 |
|
EUC |
UNIXで使用 |
|
Unicode |
現在[2009年時点]、普及中 |
|
※ EUC : Extended Unix Code の略
この漢字コードが”表示されるテキストファイル”と”表示するテキスト閲覧ソフト”で一致しないときに起こるのが”文字化け”と呼ばれる現象である。
次に、テキストの改行を表す”改行コード”も取り扱うOSによって異なっていることがある。この場合も”処理するソフト”と”処理されるテキストファイル”との間に不具合を生じることがある。以下に、主な改行コードを表にまとめる。
改行コード |
主な使用OS |
|
<CR><LF> |
Windows |
|
<LF> |
UNIX |
|
<CR> |
MACintosh * |
|
※ <CR> : "Carriage
Return"の略。もともと”行頭に戻る”ことを意味する文字コード
<LF> : "Line Feed"の略。もともと”行を送る”ことを意味する文字コード
* : OS9まで。OS
X以後はUNIXと同様
なお、これら異なった種類の”テキストファイル”を取り扱うには状況に応じて”変換”という作業を行う必要があるが、さまざまなソフトで行うことが可能であるので、興味のある者は各自調べてほしい。
|