文字コード
此処では纏めの意味合で、書置きしておきます。*1
文字コードには規格と実装が在ります。規格の事を指して「文字集合」と云ひ、実装をの事を指して特に「文字コードセット」と呼びます。
今インターネットで使用される文字集合を一覧しておきます。
- ASCII
- 7bitの電子符号を用ゐて、ローマ字や記号を表す文字コード。全世界に普及してゐる。
- JISコード
- 日本のJIS規格で規定された文字集合の事。"JIS X0201"や"JIS X0208"等。漢字は「第1水準」と「第2水準」の2種類が在るが、「補助漢字」や「第3水準」や「第4水準」の漢字はインターネットでは使用できない。
- JIS X0201
- JISローマ字カナと云ふ。8bitで表現される文字集合だが、ローマ字部分はほぼASCIIに準拠してゐる。ローマ字部分のみインターネットで使用可。カタカナ部分はインターネットでは使用できない。
- JIS X0208
- JIS基本漢字や区点コードと云ふ。2byteの文字集合で、区と点を用ゐて漢字や記号等の座標位置を規定してゐる。
- Unicode
- ユニコードと云ふ。世界の文字を一つのコードで書表さうとする規格。当初16bitで各種文字を表すコードを規定してゐたが、後に32bitで表すコードに改変された。
次に文字コードの実装、文字コードセットについてです。上記の文字集合を実際にどのやうにして実装するかに依つて幾つかの種類に分けられてゐます。
- ISO-646
- ASCIIに準拠した文字コードセット。国に依り記号部分に若干の相違がみられる。
- ISO-2022-JP
- 一般には「JISコード」と云ひ、ASCIIとJISローマ字と区点コードをエスケープシーケンスで切替へ乍ら表現する7bitの文字コードセット。JISの第1水準と第2水準の漢字と半角ローマ字が表現できるが、半角カナは表現できない。主に電子メールで使用されるが、ウェブページの表示にも用ゐられる。
- Shift_JIS
- シフトJISと云ふ。JISローマ字カナを土臺にして、其の隙間にJIS基本漢字を埋め込んだ8bitの文字コードセット。マイクロソフトが開発したらしい。文字コードセットの性質上、半角カナの表現も出来る場合があるが、使用は薦められない。一般にウェブページの表示に用ゐられる。
- EUC-JP
- 主にUNIXで用ゐられる8bitの文字コードセット。ASCIIとJIS基本漢字(補助漢字)が表現できる。半角カナの規定は在るが、1文字当り2byte分使ふ事になる。一般にウェブページの表示に用ゐられる。
- UTF-8
- Unicodeを土臺に特殊な計算をして得られる8bitの文字コードセット。ASCIIは1文字当り1byteで其の侭表現できるが、CJK統合漢字は、1文字当り3byteになつてしまひ、全体的に冗長になつてしまふ。然し乍ら、半角カナも正当に表現できると云ふ利点はある。最近はウェブページの表示や電子メールに用ゐられる場合もある。
後は表に纏めておく事にします。
名称 | 基本bit数 | ローマ字表現 | 漢字表現 | 半角カナ | 電子メール | ウェブページ |
---|---|---|---|---|---|---|
ISO-646 | 7bit | 7bit | 不可 | 不可 | 可 | 可 |
ISO-2022-JP | 7bit | 7bit | 2byte | 不可 | 可 | 可 |
Shift_JIS | 8bit | 8bit | 2byte | 非推奨 | 不可 | 可 |
EUC-JP | 8bit | 8bit | 2byte | 非推奨 | 不可 | 可 |
UTF-8 | 8bit | 8bit | 3byte | 可 | 非推奨*2 | 可 |
一応、書置きです。間違つてゐたら御指摘下さい。