Unicode dans le .NET Framework
Le .NET Framework utilise l'encodage Unicode UTF-16 pour représenter les caractères.Dans certains cas, le .NET Framework utilise l'encodage UTF-8 en interne.
La norme Unicode est le schéma d'encodage universel pour les caractères et le texte.Cette norme assigne une valeur numérique unique, appelée point de code, et un nom à chaque caractère utilisé dans les langues écrites du monde.Par exemple, le caractère « A » est représenté par le point de code « U+0041 » et le nom « LATIN CAPITAL LETTER A ».Il existe déjà des valeurs Unicode pour plus de 65 000 caractères, et ce système de codage est en mesure d'en prendre en charge jusqu'à un million de plus.Pour plus d'informations, consultez la norme Unicode sur la page d'accueil Unicode
Dans le passé, la diversité des contraintes linguistiques des différentes cultures obligeait les applications à utiliser plusieurs systèmes d'encodage pour représenter les données en interne.Ces divers systèmes d'encodage forçaient les développeurs à créer des bases de code fragmentées pour les systèmes d'exploitation et les applications, par exemple les éditions encodées sur un octet pour les langues européennes, les éditions encodées sur deux octets pour les langues asiatiques et les éditions bidirectionnelles pour les langues du Moyen-Orient.Cette fragmentation a rendu difficile le partage des données entre les cultures et encore plus difficile le développement d'applications mondialisables prenant en charge une interface utilisateur multilingue.
Le schéma d'encodage de données Unicode simplifie le développement d'applications mondialisables dans la mesure où il permet de représenter tous les caractères internationaux dans un seul système de codage.Il n'est plus nécessaire que les développeurs d'applications conservent une trace du schéma d'encodage utilisé pour produire des caractères pour une langue spécifique, et les données peuvent être partagées entre les systèmes à une échelle internationale sans risque d'endommagement.