Unicode以外の文字コードの雑な説明

シフトJISコード

  • 英数字は1バイト (0x00~0x7F、ASCIIコードと互換)
  • 半角カナも1バイト (0xA1~0xDF)
  • 全角文字は2バイト (1バイト目は0x81~0x9Fまたは0xE0~0xEF)
  • 第一・第二水準漢字に対応
  • Windows界では事実上は CP932 のこと (独自拡張を含む)
  • Shift_JIS-2004なにそれ? (第三・第四水準漢字を含むが、Microsoftは対応する気なし)
  • つまり事実上は、第三・第四水準漢字の多く(CP932の独自拡張に無い文字)は使えない
  • Windows界にいまだ根強く残る。

EUC-JP

  • 英数字は1バイト (0x00~0x7F、ASCIIコードと互換)
  • 日本語文字は 2バイト (2バイトとも0xA1~0xFE)
  • 半角カタカナも 2バイト (ただし1バイト目が0x8E)
  • 第一・第二水準漢字に対応
  • EUC-JIS-2004 では第三・第四水準漢字を含むらしいが、世間の対応状況はよく分からない
  • かつてUNIX/Linux界でよく使われていた。

中国語の文字コード

Big5
GB2312
GB18030
  • GB2312を拡張したGBKのさらに後継 (互換性を維持)
  • Unicodeにも対応
  • 英数字は1バイト (ASCIIコード互換)
  • GBK互換漢字は2バイト
  • Unicode互換文字は4バイト

欧州の文字コード

ISO 8859-1 (Latin-1)
  • ドイツ語、フランス語など西欧と北欧のほとんどの言語に対応する
  • 1文字1バイト
  • 0x00~0x7FはASCIIコード互換
  • 0x80~0xFFはラテン文字拡張
CP1252
  • Windows界で用いられるISO 8859-1の独自拡張
  • ISO 8859-1では文字割り当てのない0x80~0x9Fに文字を追加
  • シフトJISに対するCP932のようなもの (そのため、ISO 8859-1と混同されがち)

参考記事