■EUC-JPとは
EUC-JP(Extended UNIX Code Packed Format for Japanese、日本語EUC)は UNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コード(符号化方式)のひとつである。 UNIX以外のOS上で使われることもある。 1980年代前半、日本語UNIXシステム諮問委員会がUNIXで日本語を扱うための文字コードについて議論を行い、 議論の結果をもとに1985年4月に同委員会から報告書がAT&Tに出され、AT&Tにより定められたのがEUC-JPの起こりである。 AT&Tから、EUC(Extended UNIX Codeの略)として日本語に限らず多言語に対応できるように定められ、 EUCのうち日本語を扱うものを特にEUC-JPなどと呼ぶ。他に、EUC-KR(韓国語)、EUC-CN(簡体中国語)等がある。 EUCのエンコード方式上にASCIIとJIS X 0208文字集合を配置したもので、半角カナ (JIS X 0201) と JIS補助漢字 (JIS X 0212) も含むことができる。半角カナと補助漢字を使用しない場合は、JIS X 0208で規定されている 符号化方式「国際基準版・漢字用8ビット符号」と同一となる。ISO/IEC 2022に適合する。 日本語文字はJIS X 0208をGR領域に表現したものを基本としており、2バイトで表現され、 1バイト目、2バイト目ともに0x80 - 0xFFの範囲内にある。このため英数字と日本語文字の区別がしやすく、 プログラム上での扱いが楽である。ただし、半角カナはISO-2022-JPやShift_JISと異なり制御文字SS2(シングルシフトツー、0x8E)に 続けて現れるので都合2バイト、補助漢字は制御文字SS3(シングルシフトスリー、0x8F)に続けて現れるので都合3バイトを要する。 JIS X 0213:2004に対応するEUCコードはEUC-JIS-2004(2000年初版時はEUC-JISX0213)。 UNIX系OSの標準的な文字エンコードとして広く使用されてきたが、近年[いつ?]ではUTF-8を使用したシステムも普及している。 Unix系でよく使われていたEUC(Extended UNIX Code)系文字コード。 ASCII、JIS X 0208に対応し、半角カタカナ、JIS X 0212の補助漢字なども使えるが、補助漢字をサポートしていないものもある。 Windows系の文字に対応した「eucJP-ms」などと呼ばれる系統もある。 Windows上ではMicrosoft Windows Codepage : 51932などと呼ばれる類似のコード系があるが、EUC-JPともeucJP-msとも異なる。 EUC-JP マルチバイト文字は2バイトの固定長で表されます。 接頭符号ではありません。マルチバイト文字の1バイト目と2バイト目の範囲が重複します。 マルチバイト文字はASCII文字とは重複しません。生成過程で両コードポイントにA0を足しているためです。ASCII文字は7Fで終わっているため、確実にこれより大きな値になります。 文字種 表現 ASCII文字 [00-7F] ひらがな・カタカナ・漢字など [A0-FE][A0-FE] 半角カタカナ [8E][A0-DF]