滴了庵日録

文字化けのパターン

もうWeb上で見かけることは少なくなったけど。

UTF-8→シフトJIS (縺繧繝が頻出)

UTF-8では平仮名と片仮名は E381xx, E382xx, E383xx のいずれかになる。シフトJISでは E381, E382, E383 は縺, 繧, 繝になる。そのためこの3文字が頻出する。

譁?ｭ怜喧縺托ｼ医ｂ縺倥?縺托ｼ峨→縺ｯ縲√さ繝ｳ繝斐Η繝ｼ繧ｿ縺ｧ譁?ｭ励ｒ陦ｨ遉ｺ縺吶ｋ髫帙↓縲∵ｭ｣縺励￥陦ｨ遉ｺ縺輔ｌ縺ｪ縺上↑縺｣縺ｦ縺励∪縺?樟雎｡縺ｮ縺薙→縲

シフトJIS→UTF-8 (???だらけ)

シフトJISでは主要な日本語文字(仮名と第一水準漢字)は 8xxx か 9xxx になるが、UTF-8では 8x や 9x から文字がはじまることはない。

?????????i?????΂??j?Ƃ́A?R???s???[?^?ŕ?????\??????ۂɁA???????\??????Ȃ??Ȃ??Ă??܂????ۂ̂??ƁB

EUC-JP→シフトJIS (半角カタカナだらけ)

EUC-JPでは全角文字は2バイトとも A1～FE の範囲になる。シフトJISではこの範囲のうち A1～に半角カタカナがある。

ﾊｸｻ?ｽ､ｱ｡ﾊ､筅ｸ､ﾐ､ｱ｡ﾋ､ﾈ､ﾏ｡｢･ｳ･?ﾔ･蝪ｼ･ｿ､ﾇﾊｸｻ??ｽｼｨ､ｹ､?ﾝ､ﾋ｡｢ﾀｵ､ｷ､ｯﾉｽｼｨ､ｵ､?ﾊ､ｯ､ﾊ､ﾃ､ﾆ､ｷ､ﾞ､ｦｸｽｾﾝ､ﾎ､ｳ､ﾈ｡｣

シフトJIS→EUC-JP (???だらけ、まれに半角カタカナ)

シフトJISでは主要な日本語文字(仮名と第一水準漢字)は 8xxx か 9xxx になる。EUC-JPでは全角文字は2バイトとも A1～FE だが、半角カタカナは 8E から始まるので出現する可能性がある。

??????i?????j???A?R???s???[?^??????\ｦ?????A????\ｦ????????????????B

EUC-JP→UTF-8 (???だらけ)

EUC-JPでは仮名は Axxx になり、第一水準漢字の半分は Bxxx になる。いっぽう、UTF-8では Ax や Bx から文字がはじまることはない。

ʸ???????ʤ⤸?Ф??ˤȤϡ?????ԥ塼????ʸ????ɽ??????ݤˡ???????ɽ??????ʤ??ʤäƤ??ޤ????ݤΤ??ȡ?

UTF-8→EUC-JP (たまに漢字)

UTF-8では日本語文字は3バイトでいずれも 80 以上となり、EUC-JPでは別の日本語文字に化ける可能性がある。

??絖?????鐚??????違??鐚????????潟?潟???ャ?若?帥?ф??絖???茵?ず??????????罩ｃ???頫?ず??????????ｃ?????障???乗院????????

ちなみに上記の文字化けの原文

文字化け（もじばけ）とは、コンピュータで文字を表示する際に、正しく表示されなくなってしまう現象のこと。

参考