2023-11-20 Unicode以外の文字コードの雑な説明 シフトJISコード 英数字は1バイト (0x00~0x7F、ASCIIコードと互換) 半角カナも1バイト (0xA1~0xDF) 全角文字は2バイト (1バイト目は0x81~0x9Fまたは0xE0~0xEF) 第一・第二水準漢字に対応 Windows界では事実上は CP932 のこと (独自拡張を含む) Shift_JIS-2004なにそれ? (第三・第四水準漢字を含むが、Microsoftは対応する気なし) つまり事実上は、第三・第四水準漢字の多く(CP932の独自拡張に無い文字)は使えない Windows界にいまだ根強く残る。 EUC-JP 英数字は1バイト (0x00~0x7F、ASCIIコードと互換) 日本語文字は 2バイト (2バイトとも0xA1~0xFE) 半角カタカナも 2バイト (ただし1バイト目が0x8E) 第一・第二水準漢字に対応 EUC-JIS-2004 では第三・第四水準漢字を含むらしいが、世間の対応状況はよく分からない かつてUNIX/Linux界でよく使われていた。 中国語の文字コード Big5 台湾の繁体字中国語文字コード 漢字を2バイトで表す シフトJISに似たエンコード (1バイト目が0xA1〜0xC6または0xC9〜0xF9) 公的規格であるEUC-TWよりも普及している GB2312 中国の簡体字中国語文字コード EUCでエンコードしたのがEUC-CN (GB2312といえばほぼEUC-CN) 漢字を2バイトで表す GB18030 GB2312を拡張したGBKのさらに後継 (互換性を維持) Unicodeにも対応 英数字は1バイト (ASCIIコード互換) GBK互換漢字は2バイト Unicode互換文字は4バイト 欧州の文字コード ISO 8859-1 (Latin-1) ドイツ語、フランス語など西欧と北欧のほとんどの言語に対応する 1文字1バイト 0x00~0x7FはASCIIコード互換 0x80~0xFFはラテン文字拡張 CP1252 Windows界で用いられるISO 8859-1の独自拡張 ISO 8859-1では文字割り当てのない0x80~0x9Fに文字を追加 シフトJISに対するCP932のようなもの (そのため、ISO 8859-1と混同されがち) 参考記事