.NET Framework での Unicode

[アーティクル]
08/14/2007

.NET Framework は、Unicode UTF-16 (Unicode Transformation Format、16 ビットエンコーディング形式) を使用して文字を表します。場合によっては、.NET Framework は UTF-8 を内部的に使用します。

Unicode 規格は、文字とテキストの汎用文字エンコーディングスキームです。Unicode 規格では、世界各国の表記言語で使用される各文字に対し、コードポイントと呼ばれる一意の数値と名前が割り当てられています。たとえば、文字 "A" は "U+0041"というコードポイントと、"LATIN CAPITAL LETTER A" という名前で表されます。Unicode 規格の値は 65,000 以上の文字に対応しており、さらに 100 万の文字をサポートできます。詳細については、www.unicode.org の『Unicode Standard』を参照してください。

これまでは、複数のカルチャのさまざまな言語要件があるために、アプリケーションでデータを内部表現するにはさまざまなエンコーディングを使用する必要がありました。このようなさまざまなエンコーディングスキームを使用するには、開発者がオペレーティングシステムとアプリケーションに対して断片化コードベース (ヨーロッパ言語向け 1 バイトエディション、アジア言語向け 2 バイトエディション、中近東言語向け双方向エディションなど) を作成する必要があります。このような断片化により、複数のカルチャ間でのデータ共有が困難であるため、複数言語ユーザーインターフェイスをサポートする国際対応アプリケーションの開発がさらに困難になります。

Unicode データエンコーディングスキームを使用すると、各種言語の文字を 1 つのエンコーディング方式で表現できるため、国際対応アプリケーションの開発が簡素化されます。アプリケーション開発者が、特定の言語の文字を表すために使用されるエンコーディングスキームを追跡する必要がなくなります。また、データを破損することなく、各国のシステム間でデータを共有できます。

.NET Framework での Unicode

参照

関連項目

概念

その他の技術情報

その他のリソース