unicodeその他


■Unicodeで使用できる漢字
Unicodeでは、多くの漢字が使用可能です。
但し、Unicodeに収録される元の文字コード（原規格）との関係や、Unicode自体の拡張に伴う収録場所の追加によって、漢字は複数の場所（BMP, 拡張第2面）に収録されています。また、漢字以外にも漢字文献特有の文字符号も収録されています

■Unicodeの文字表
元々Unicodeは一文字16ビット（＝65,536字）に全ての文字を収めてしまおうと企図していました
しかし、Unicodeへの追加収録文字を検討する過程で、この範囲に収録しきれないことが明確になったため、現在では21ビットに拡張されています。
Unicodeの文字表は、16ビット時代のUnicodeで規定された文字表と、後のバージョンで拡張された部分とに分けられます。
UCSの区分けに従うと、文字表は群（group）・面（plane）・区（row）・点（cell）の四段階の構造を持っています。面が1つの表の単位で、各面はそれぞれ256区×256点=65,536字分のコードポイントが設定されています（UCSでは、更にこの上に0面～255面を単位とする群が128個定義されていますが、Unicodeが使用しな群や面については、永遠に使用しないことになりました）。
このうち、もっとも基本となる0群0面は、基本多言語面（BMP：Basic Multilingual Plane）と定義されます。
また、BMP以外の追加収録文字は、別途表を作成し、第0群第1面～第16面までの範囲で文字が定義されています。

■Unicodeの歴史
多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みの文字コードも、国の数だけあり複雑であるため
IBM、Microsoft、Apple等が加盟するNGOであるUnicodeコンソーシアムと、国際標準化機構（ISO）が
全ての文字を16ビット（65536文字）に収録してして世界中の主要な文字を一括して扱う多重言語文字セット規格を開発しました。
(Universal multi-octet coded Character Set)が1993年に制定されました。

■BMP
基本多言語面（BMP：Basic Multilingual Plane）
Unicodeの文字表としては、もっとも基本となるものです。