文字コード

此処では纏めの意味合で、書置きしておきます。*1
文字コードには規格と実装が在ります。規格の事を指して「文字集合」と云ひ、実装をの事を指して特に「文字コードセット」と呼びます。
今インターネットで使用される文字集合を一覧しておきます。

ASCII
7bitの電子符号を用ゐて、ローマ字や記号を表す文字コード。全世界に普及してゐる。
JISコード
日本のJIS規格で規定された文字集合の事。"JIS X0201"や"JIS X0208"等。漢字は「第1水準」と「第2水準」の2種類が在るが、「補助漢字」や「第3水準」や「第4水準」の漢字はインターネットでは使用できない。
JIS X0201
JISローマ字カナと云ふ。8bitで表現される文字集合だが、ローマ字部分はほぼASCIIに準拠してゐる。ローマ字部分のみインターネットで使用可。カタカナ部分はインターネットでは使用できない。
JIS X0208
JIS基本漢字や区点コードと云ふ。2byteの文字集合で、区と点を用ゐて漢字や記号等の座標位置を規定してゐる。
Unicode
ユニコードと云ふ。世界の文字を一つのコードで書表さうとする規格。当初16bitで各種文字を表すコードを規定してゐたが、後に32bitで表すコードに改変された。

次に文字コードの実装、文字コードセットについてです。上記の文字集合を実際にどのやうにして実装するかに依つて幾つかの種類に分けられてゐます。

ISO-646
ASCIIに準拠した文字コードセット。国に依り記号部分に若干の相違がみられる。
ISO-2022-JP
一般には「JISコード」と云ひ、ASCIIとJISローマ字と区点コードをエスケープシーケンスで切替へ乍ら表現する7bitの文字コードセット。JISの第1水準と第2水準の漢字と半角ローマ字が表現できるが、半角カナは表現できない。主に電子メールで使用されるが、ウェブページの表示にも用ゐられる。
Shift_JIS
シフトJISと云ふ。JISローマ字カナを土臺にして、其の隙間にJIS基本漢字を埋め込んだ8bitの文字コードセット。マイクロソフトが開発したらしい。文字コードセットの性質上、半角カナの表現も出来る場合があるが、使用は薦められない。一般にウェブページの表示に用ゐられる。
EUC-JP
主にUNIXで用ゐられる8bitの文字コードセット。ASCIIとJIS基本漢字(補助漢字)が表現できる。半角カナの規定は在るが、1文字当り2byte分使ふ事になる。一般にウェブページの表示に用ゐられる。
UTF-8
Unicodeを土臺に特殊な計算をして得られる8bitの文字コードセット。ASCIIは1文字当り1byteで其の侭表現できるが、CJK統合漢字は、1文字当り3byteになつてしまひ、全体的に冗長になつてしまふ。然し乍ら、半角カナも正当に表現できると云ふ利点はある。最近はウェブページの表示や電子メールに用ゐられる場合もある。

後は表に纏めておく事にします。

文字コードセット
名称 基本bit数 ローマ字表現 漢字表現 半角カナ 電子メール ウェブページ
ISO-646 7bit 7bit 不可 不可
ISO-2022-JP 7bit 7bit 2byte 不可
Shift_JIS 8bit 8bit 2byte 非推奨 不可
EUC-JP 8bit 8bit 2byte 非推奨 不可
UTF-8 8bit 8bit 3byte 非推奨*2

一応、書置きです。間違つてゐたら御指摘下さい。

*1:日本語に限つておきます。

*2:、可能ではあるが、まだ一般的ではない。