環境依存文字


マルチバイト文字列

マルチバイト文字(マルチバイトもじ)とは、 ・1文字を複数バイトで表す体系 ・1文字のバイト数が可変であるような体系 符号化方式におけるマルチバイト文字 符号化方式において、1文字が常に1バイトとなる符号化方式に対して、 1文字が2バイト以上になることのある符号化方式、およびそれによって符号化された文字(列)のことを、マルチバイト文字(列)という。 ASCII あるいは ISO 646 をベースとし、バイト値 80~FF16進法(あるいはそのサブセット)で始まるバイト列によりそれ以外の文字集合を表現する。 1文字のバイト数が可変のため、プログラムでの操作に留意を要する。 IBMやマイクロソフトの用語として、single-byte character set(単バイト文字集合)、double-byte character set(二バイト文字集合)、multibyte character set(多バイト文字集合)と呼ぶことが多い。 以下のようなものがある。 ・Shift_JIS(コードページ932/942) ・EUC-JP ・ISO-2022-JP ・EUC-CN(コードページ936) ・EUC-KR(コードページ949) ・Big5(コードページ950) ・UTF-8(多バイト符号化方式) マルチバイト文字とは、2バイト以上のデータで表現される文字。ひらがなや漢字などの全角文字はすべての 文字セットで多バイト文字となる。半角文字もUnicodeでは2バイトで表現されるため、 Unicodeの場合に限っては厳密にはすべての文字が多バイト文字となるが、 半角文字は1バイトで表現されることが多いため、多バイト文字として扱われることは少ない。


機種依存文字とは   外字   機種依存文字と呼ばれる由来   機種依存文字のサンプル   IBMと文字   制御文字   ASCIIコード   unicode   unicodeその他   誤表示   数値参照文字   BOMとは   文字コード表とは   SJIS   EUCJP   NEC特殊文字とは   CP932とは   符号化文字集合とは   メールと文字化け   base64とは   mime形式とは   urlencodeとは   SJISとJISコードの違い   改行とは   空白文字   Base64   ASCII文字←→URLエンコードの対応表   phpでのダブルクォート(シングルクォート) の違い   URLエンコードの気を付けるポイント   デコードの重複の注意ポイント   マルチバイト文字列   htmlエンコーディング   python文字列扱い   php SJIS-WIN   正規表現   正規表現とエスケープ文字   よくつかう正規表現例   メタ文字   波ダッシュ   JWTとは   pythonの文字コード   リモートからsudoを実行   pythonをバージョンを指定して実行   タイムスタンプとは   jsonとは   csvとは   webmとは   円マークとバックスラッシュ問題   ajax cache問題   ajax 非同期・同期通信設定   javaScriptでURLエンコード方法   拡張子一覧