Unicode in .NET Framework
Aggiornamento: novembre 2007
In .NET Framework viene utilizzato il formato Unicode UTF-16 (Unicode Transformation Format), un formato di codifica a 16 bit, per la rappresentazione dei caratteri. In alcuni casi, in .NET Framework viene utilizzato internamente il formato UTF-8.
Lo standard Unicode è lo schema di codifica universale per caratteri e testo. In base a questo standard, a ciascun carattere utilizzato nelle lingue scritte di tutto il mondo vengono assegnati un valore numerico, denominato punto di codice, e un nome univoci. Il carattere "A", ad esempio, è rappresentato dal punto di codice "U+0041" e dal nome "LATIN CAPITAL LETTER A". Sono disponibili valori per oltre 65.000 caratteri ed è possibile supportarne fino a un altro milione. Per ulteriori informazioni sullo standard Unicode, vedere la home page dello standard Unicode (informazioni in lingua inglese).
In passato i requisiti di lingue differenti per le diverse culture hanno imposto l'uso di codifiche differenti nelle applicazioni per la rappresentazione interna dei dati. A causa di questi diversi schemi di codifica, gli sviluppatori hanno dovuto creare basi di codice frammentate per i sistemi operativi e le applicazioni, come le edizioni a byte singolo per le lingue europee, le edizioni a byte doppio per le lingue asiatiche e le edizioni bidirezionali per le lingue mediorientali. Questa frammentazione ha reso difficile la condivisione dei dati tra le lingue e, ancor più, lo sviluppo di applicazioni internazionali in grado di supportare un'interfaccia utente multilingue.
Lo schema di codifica dei dati Unicode semplifica lo sviluppo di applicazioni internazionali in quanto consente la rappresentazione di tutti i caratteri internazionali in una singola codifica. Gli sviluppatori di applicazioni non devono più tenere traccia dello schema di codifica che era stato utilizzato per produrre i caratteri per una lingua specifica e i dati possono essere condivisi tra i sistemi a livello internazionale senza che vengano danneggiati.