Unicode in .NET Framework
Aktualisiert: November 2007
Das .NET Framework verwendet zum Darstellen von Zeichen Unicode UTF-16 (Unicode Transformation Format, 16-Bit-Codierungsformular). In einigen Fällen verwendet das .NET Framework intern auch UTF-8.
Der Unicode-Standard ist ein universelles Zeichencodierungsschema für Zeichen und Text. Er weist jedem Zeichen, das in den Schriftsprachen der Welt verwendet wird, einen eindeutigen numerischen Wert (Codepunkt) und einen Namen zu. Das Zeichen "A" wird beispielsweise durch den Codepunkt "U+0041" und den Namen "LATIN CAPITAL LETTER A" dargestellt. Es stehen Werte für über 65.000 Zeichen zur Verfügung und es können bis zu einer Million weitere Zeichen unterstützt werden. Weitere Informationen finden Sie unter "The Unicode Standard" auf der Unicode-Homepage (nur auf Englisch verfügbar).
In der Vergangenheit mussten in den Anwendungen wegen der unterschiedlichen Sprachanforderungen der Kulturen verschiedene Codierungen angewendet werden, um Daten intern zu repräsentieren. Diese unterschiedlichen Codierungen brachten die Entwickler dazu, fragmentierte CodeBases für Betriebssysteme und Anwendungen zu erstellen (z. B. Einbyteversionen für europäische Sprachen, Doppelbyteversionen für asiatische Sprachen und bidirektionale Versionen für Sprachen des Nahen Ostens). Durch diese Fragmentierung wurde es schwierig, Daten kulturübergreifend gemeinsam zu nutzen, und noch schwieriger, weltweit einsetzbare Anwendungen zu entwickeln, die eine mehrsprachige Benutzeroberfläche unterstützen.
Das Unicode-Datencodierungsschema vereinfacht die Entwicklung weltweit einsetzbarer Anwendungen, da es die Darstellung aller internationalen Zeichen in einer Codierung ermöglicht. Anwendungsentwickler müssen nicht mehr das Codierungsschema verfolgen, das für die Erstellung von Zeichen für eine bestimmte Sprache verwendet wurde, und die Daten können länderübergreifend auf allen Systemen verwendet werden, ohne beschädigt zu werden.