マルチバイト文字列
マルチバイト文字(マルチバイトもじ)とは、 ・1文字を複数バイトで表す体系 ・1文字のバイト数が可変であるような体系 符号化方式におけるマルチバイト文字 符号化方式において、1文字が常に1バイトとなる符号化方式に対して、 1文字が2バイト以上になることのある符号化方式、およびそれによって符号化された文字(列)のことを、マルチバイト文字(列)という。 ASCII あるいは ISO 646 をベースとし、バイト値 80~FF16進法(あるいはそのサブセット)で始まるバイト列によりそれ以外の文字集合を表現する。 1文字のバイト数が可変のため、プログラムでの操作に留意を要する。 IBMやマイクロソフトの用語として、single-byte character set(単バイト文字集合)、double-byte character set(二バイト文字集合)、multibyte character set(多バイト文字集合)と呼ぶことが多い。 以下のようなものがある。 ・Shift_JIS(コードページ932/942) ・EUC-JP ・ISO-2022-JP ・EUC-CN(コードページ936) ・EUC-KR(コードページ949) ・Big5(コードページ950) ・UTF-8(多バイト符号化方式) マルチバイト文字とは、2バイト以上のデータで表現される文字。ひらがなや漢字などの全角文字はすべての 文字セットで多バイト文字となる。半角文字もUnicodeでは2バイトで表現されるため、 Unicodeの場合に限っては厳密にはすべての文字が多バイト文字となるが、 半角文字は1バイトで表現されることが多いため、多バイト文字として扱われることは少ない。