環境依存文字



■Unicodeで使用できる漢字

Unicodeでは、多くの漢字が使用可能です。 但し、Unicodeに収録される元の文字コード(原規格)との関係や、Unicode自体の拡張に伴う収録場所の追加によって、漢字は複数の場所(BMP, 拡張第2面)に収録されています。また、漢字以外にも漢字文献特有の文字符号も収録されています

■Unicodeの文字表

元々Unicodeは一文字16ビット(=65,536字)に全ての文字を収めてしまおうと企図していました しかし、Unicodeへの追加収録文字を検討する過程で、この範囲に収録しきれないことが明確になったため、現在では21ビットに拡張されています。 Unicodeの文字表は、16ビット時代のUnicodeで規定された文字表と、後のバージョンで拡張された部分とに分けられます。 UCSの区分けに従うと、文字表は群(group)・面(plane)・区(row)・点(cell)の四段階の構造を持っています。面が1つの表の単位で、各面はそれぞれ256区×256点=65,536字分のコードポイントが設定されています(UCSでは、更にこの上に0面~255面を単位とする群が128個定義されていますが、Unicodeが使用しな群や面については、永遠に使用しないことになりました)。 このうち、もっとも基本となる0群0面は、基本多言語面(BMP:Basic Multilingual Plane)と定義されます。 また、BMP以外の追加収録文字は、別途表を作成し、第0群第1面~第16面までの範囲で文字が定義されています。

■Unicodeの歴史

多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みの文字コードも、国の数だけあり複雑であるため IBM、Microsoft、Apple等が加盟するNGOであるUnicodeコンソーシアムと、国際標準化機構(ISO)が 全ての文字を16ビット(65536文字)に収録してして世界中の主要な文字を一括して扱う多重言語文字セット規格を開発しました。 (Universal multi-octet coded Character Set)が1993年に制定されました。

■BMP

基本多言語面(BMP:Basic Multilingual Plane) Unicodeの文字表としては、もっとも基本となるものです。


機種依存文字とは   外字   機種依存文字と呼ばれる由来   機種依存文字のサンプル   IBMと文字   制御文字   ASCIIコード   unicode   unicodeその他   誤表示   数値参照文字   BOMとは   文字コード表とは   SJIS   EUCJP   NEC特殊文字とは   CP932とは   符号化文字集合とは   メールと文字化け   base64とは   mime形式とは   urlencodeとは   SJISとJISコードの違い   改行とは   空白文字   Base64   ASCII文字←→URLエンコードの対応表   phpでのダブルクォート(シングルクォート) の違い   URLエンコードの気を付けるポイント   デコードの重複の注意ポイント   マルチバイト文字列   htmlエンコーディング   python文字列扱い   php SJIS-WIN   正規表現   正規表現とエスケープ文字   よくつかう正規表現例   メタ文字   波ダッシュ   JWTとは   pythonの文字コード   リモートからsudoを実行   pythonをバージョンを指定して実行   タイムスタンプとは   jsonとは   csvとは   webmとは   円マークとバックスラッシュ問題   ajax cache問題   ajax 非同期・同期通信設定   javaScriptでURLエンコード方法   拡張子一覧