Von Schriftarten verwendete Zeichensätze
Alle Schriftarten verwenden einen Zeichensatz. Ein Zeichensatz enthält Satzzeichen, Ziffern, Groß- und Kleinbuchstaben sowie alle anderen druckbaren Zeichen. Jedes Element eines Zeichensatzes wird durch eine Zahl identifiziert.
Die meisten verwendeten Zeichensätze sind Übersätze des US-ASCII-Zeichensatzes, der Zeichen für die 96 numerischen Werte von 32 bis 127 definiert. Es gibt fünf Hauptgruppen von Zeichensätzen:
- Windows
- Unicode
- OEM (Originalgerätehersteller)
- Symbol
- Anbieterspezifisch
Windows-Zeichensatz
Der Windows-Zeichensatz ist der am häufigsten verwendete Zeichensatz. Sie entspricht im Wesentlichen dem ANSI-Zeichensatz. Das leere Zeichen ist das erste Zeichen im Windows-Zeichensatz. Sie hat den Hexadezimalwert 0x20 (Dezimalwert 32). Das letzte Zeichen im Windows-Zeichensatz weist den Hexadezimalwert 0xFF (Dezimalzeichen 255) auf.
Viele Schriftarten geben ein Standardzeichen an. Jedes Mal, wenn eine Anforderung für ein Zeichen gestellt wird, das sich nicht in der Schriftart befindet, stellt das System dieses Standardzeichen bereit. Viele Schriftarten, die den Windows-Zeichensatz verwenden, geben den Punkt (.) als Standardzeichen an. TrueType- und OpenType-Schriftarten verwenden in der Regel ein geöffnetes Feld als Standardzeichen.
Schriftarten verwenden ein Umbruchzeichen namens Quader, um Wörter zu trennen und Text zu rechtfertigen. Die meisten Schriftarten, die den Windows-Zeichensatz verwenden, geben an, dass das leere Zeichen als Unterbrechungszeichen dient.
Unicode-Zeichensatz
Der Windows-Zeichensatz verwendet 8 Bits, um jedes Zeichen darzustellen. Daher beträgt die maximale Anzahl von Zeichen, die mit 8 Bits ausgedrückt werden können, 256 (2^8). Dies ist in der Regel für westliche Sprachen ausreichend, einschließlich der diakritischen Zeichen, die in Französisch, Deutsch, Spanisch und anderen Sprachen verwendet werden. In östlichen Sprachen werden jedoch Tausende von separaten Zeichen verwendet, die nicht mithilfe eines Einbyte-Codierungsschemas codiert werden können. Mit der Verbreitung des Computerhandels wurden Doppelbytecodierungsschemas entwickelt, damit Zeichen in 8-Bit-, 16-Bit-, 24-Bit- oder 32-Bit-Sequenzen dargestellt werden konnten. Dies erfordert komplizierte Passalgorithmen; Die Verwendung verschiedener Codesätze kann jedoch auf zwei unterschiedlichen Computern zu völlig unterschiedlichen Ergebnissen führen.
Um das Problem mehrerer Codierungsschemas zu beheben, wurde der Unicode-Standard für die Datendarstellung entwickelt. Unicode ist ein 16-Bit-Zeichencodierungsschema, das 65.536 (2^16) Zeichen darstellen kann, was ausreicht, um alle Sprachen im heutigen Computerhandel sowie Satzzeichen, mathematische Symbole und Raum für Erweiterung einzuschließen. Unicode erstellt einen eindeutigen Code für jedes Zeichen, um sicherzustellen, dass die Zeichenübersetzung immer korrekt ist.
OEM-Zeichensatz
Der OEM-Zeichensatz wird in der Regel in MS-DOS-Vollbildsitzungen für die Bildschirmanzeige verwendet. Die Zeichen 32 bis 127 sind in den OEM-, US-ASCII- und Windows-Zeichensätzen in der Regel identisch. Die anderen Zeichen im OEM-Zeichensatz (0 bis 31 und 128 bis 255) entsprechen den Zeichen, die in einer VOLLbild-MS-DOS-Sitzung angezeigt werden können. Diese Zeichen unterscheiden sich im Allgemeinen von den Windows-Zeichen.
Symbolzeichensatz
Der Zeichensatz Symbol enthält Sonderzeichen, die normalerweise zur Darstellung mathematischer und wissenschaftlicher Formeln verwendet werden.
Herstellerspezifische Zeichensätze
Viele Drucker und andere Ausgabegeräte stellen Schriftarten bereit, die auf Zeichensätzen basieren, die sich von den Windows- und OEM-Sätzen unterscheiden, z. B. den EBCDIC-Zeichensatz (Extended Binary Coded Decimal Interchange Code). Um einen dieser Zeichensätze zu verwenden, übersetzt der Druckertreiber vom Windows-Zeichensatz in den herstellerspezifischen Zeichensatz.