文字化けのパターン

もうWeb上で見かけることは少なくなったけど。

UTF-8シフトJIS (縺繧繝が頻出)

UTF-8では平仮名と片仮名は E381xx, E382xx, E383xx のいずれかになる。シフトJISでは E381, E382, E383 は 縺, 繧, 繝 になる。そのためこの3文字が頻出する。

譁?ュ怜喧縺托シ医b縺倥?縺托シ峨→縺ッ縲√さ繝ウ繝斐Η繝シ繧ソ縺ァ譁?ュ励r陦ィ遉コ縺吶k髫帙↓縲∵ュ」縺励¥陦ィ遉コ縺輔l縺ェ縺上↑縺」縺ヲ縺励∪縺?樟雎。縺ョ縺薙→縲

シフトJISUTF-8 (???だらけ)

シフトJISでは主要な日本語文字(仮名と第一水準漢字)は 8xxx か 9xxx になるが、UTF-8では 8x や 9x から文字がはじまることはない。

?????????i?????΂??j?Ƃ́A?R???s???[?^?ŕ?????\??????ۂɁA???????\??????Ȃ??Ȃ??Ă??܂????ۂ̂??ƁB

EUC-JP→シフトJIS (半角カタカナだらけ)

EUC-JPでは全角文字は2バイトとも A1~FE の範囲になる。シフトJISではこの範囲のうち A1~に半角カタカナがある。

ハクサ?ス、ア。ハ、筅ク、ミ、ア。ヒ、ネ、マ。「・ウ・?ヤ・蝪シ・ソ、ヌハクサ??スシィ、ケ、?ン、ヒ。「タオ、キ、ッノスシィ、オ、?ハ、ッ、ハ、テ、ニ、キ、゙、ヲクスセン、ホ、ウ、ネ。」

シフトJISEUC-JP (???だらけ、まれに半角カタカナ)

シフトJISでは主要な日本語文字(仮名と第一水準漢字)は 8xxx か 9xxx になる。EUC-JPでは全角文字は2バイトとも A1~FE だが、半角カタカナは 8E から始まるので出現する可能性がある。

??????i?????j???A?R???s???[?^??????\ヲ?????A????\ヲ????????????????B

EUC-JP→UTF-8 (???だらけ)

EUC-JPでは仮名は Axxx になり、第一水準漢字の半分は Bxxx になる。いっぽう、UTF-8では Ax や Bx から文字がはじまることはない。

ʸ???????ʤ⤸?Ф??ˤȤϡ?????ԥ塼????ʸ????ɽ??????ݤˡ???????ɽ??????ʤ??ʤäƤ??ޤ????ݤΤ??ȡ?

UTF-8EUC-JP (たまに漢字)

UTF-8では日本語文字は3バイトでいずれも 80 以上となり、EUC-JPでは別の日本語文字に化ける可能性がある。

??絖?????鐚??????違??鐚????????潟?潟???ャ?若?帥?ф??絖???茵?ず??????????罩c???頫?ず??????????c?????障???乗院????????

ちなみに上記の文字化けの原文

文字化け(もじばけ)とは、コンピュータで文字を表示する際に、正しく表示されなくなってしまう現象のこと。

参考