滴了庵日録

Unicode以外の文字コードの雑な説明

シフトJISコード

英数字は1バイト (0x00～0x7F、ASCIIコードと互換)
半角カナも1バイト (0xA1～0xDF)
全角文字は2バイト (1バイト目は0x81～0x9Fまたは0xE0～0xEF)
第一・第二水準漢字に対応
Windows界では事実上は CP932 のこと (独自拡張を含む)
Shift_JIS-2004なにそれ？ (第三・第四水準漢字を含むが、Microsoftは対応する気なし)
つまり事実上は、第三・第四水準漢字の多く(CP932の独自拡張に無い文字)は使えない
Windows界にいまだ根強く残る。

EUC-JP

英数字は1バイト (0x00～0x7F、ASCIIコードと互換)
日本語文字は 2バイト (2バイトとも0xA1～0xFE)
半角カタカナも 2バイト (ただし1バイト目が0x8E)
第一・第二水準漢字に対応
EUC-JIS-2004 では第三・第四水準漢字を含むらしいが、世間の対応状況はよく分からない
かつてUNIX/Linux界でよく使われていた。

中国語の文字コード

Big5

台湾の繁体字中国語文字コード
漢字を2バイトで表す
シフトJISに似たエンコード (1バイト目が0xA1〜0xC6または0xC9〜0xF9)
公的規格であるEUC-TWよりも普及している

GB2312

中国の簡体字中国語文字コード
EUCでエンコードしたのがEUC-CN　(GB2312といえばほぼEUC-CN)
漢字を2バイトで表す

GB18030

GB2312を拡張したGBKのさらに後継 (互換性を維持)
Unicodeにも対応
英数字は1バイト (ASCIIコード互換)
GBK互換漢字は2バイト
Unicode互換文字は4バイト

欧州の文字コード

ISO 8859-1 (Latin-1)

ドイツ語、フランス語など西欧と北欧のほとんどの言語に対応する
1文字1バイト
0x00～0x7FはASCIIコード互換
0x80～0xFFはラテン文字拡張

CP1252

Windows界で用いられるISO 8859-1の独自拡張
ISO 8859-1では文字割り当てのない0x80～0x9Fに文字を追加
シフトJISに対するCP932のようなもの (そのため、ISO 8859-1と混同されがち)

参考記事