A.4 文字コード

この節は,概念編の「文字情報のデジタル表現」と対応しています.その部分がまだ済んでいないクラスは,この節を飛ばして,後でやって下さい.

文字集合

文書の情報は文字で表されています.紙に書かれた文書でも漢字,ひらがな,カ タカナ,アルファベット,数字,算術記号などの文字が使われています.紙に書 かれた文書では,文字の形を区別できる限りどんな文字でも使用できますが,コ ンピュータではあらかじめ使う可能性のある文字を定義しておく必要があります. その定義された文字の集まりを文字集合といいます.

● 練習問題

あなたが普段使う記号をできるだけたくさん挙げなさい。その中にキーボードにないもの、かな漢字変換で出てこないものはありますか?

アルファベットと数字,","や"."などの記号からなっている文字集合をASCII(American Standard Code for Information Interchange)といいます.英語の文章を書いている限りはそれでも足りるかも知れません.しかし日本語の文章を書くためには漢字などを含む日本語文字集合が必要です.

日本語文字集合には以下のようなものがあります.
JIS X0201
ASCII(ただし,2個所異なる)+半角カタカナからなる文字集合です.
JIS X0208
漢字,ひらがな,カタカナ,アルファベットを含みます.
JIS X0221
世界中の文字集合を統合しようとしているUnicodeに基づいて作成されました.

● 練習問題

中国語を表現するための文字コードにはどのようなものがあるか、ウェブで検索してみましょう.また、中国語で書かれたページを探してみましょう。

文字コードとは

概念編の授業で学んだようにコンピュータ上で文字は0と1の2進数で表現されます.そのためどの文字をどのような2進数に対応させるかの決まりが必要です.これを文字コードと呼び用途によって使い分けられています.
日本語の文字集合を表すのにはISO-2022-JP,Shift_JIS,EUC-JP,UTF8,UTF16などの文字コードがよく使われています. 例えば慶應の應という字はそれぞれの文字コードにおいて以下のようにあらわされています.

"文字コード""ISO-2022-JP""Shift_JIS""EUC-JP""UTF8""UTF16"
"應""應""應""應""應""應"
"16進数""5866""9CE4""D8E6""E68789""FEFF61C9"

それぞれの文字コードは以下のように使い分けられています.

ISO-2022-JP
普通JISコードと呼ばれているものです.インターネット上で標準的に使います.
Shift_JIS
主にWindowsやMacintoshで使われます
EUC-JP
主にUNIXで使われます
UTF8,UTF16
Unicodeを表現する文字コードの1種です.

ある文字コードで書いた文章はその文字コードで読み込まなければ見ることができません.

● 練習問題

  • UNIXのフォルダのテキストファイルをメモ帳で開いてみましょう.(κειο特別教室の時は宿題)
  • emacs で [Mule]→[Show Script Examples] C-h h とすると,各国語のサンプルが表示されますから,やってみましょう.まず必要なフォントを読み込むので少し時間がかかります.この中で自然言語ではないものが一つありますが,どれでしょう?(λ特別教室の時は宿題)

ファイルの文字コードの変換

こちらを見て下さい.

ウェブブラウザでの文字コード

ネットスケープナビゲータやインターネットイクスプローラなどのブラウザで日本語web pageを見ている時は,通常正しい文字コードが判別され,その文字コードで表示されます.しかし,何らかの事情により正しく表示できない場合もあります.その際は「表示」メニューから「文字コード」を選び正しい文字コードを指定する必要があります.