Surface Form Normalization

Artikel
03/12/2025

Obwohl Wörter und linguistische Regeln dramatisch unterschiedlich sind, gibt es einige Überlegungen, wie Zahlen, Datumsangaben und Uhrzeiten, die für alle Worttrennungen einheitlich behandelt werden. In diesem Thema werden Überlegungen zur Normalisierung dokumentiert, die sich auf die Implementierung von Wörtertrennungen auswirken können.

Dieses Thema ist wie folgt organisiert:

Silbentrennung
Possessives
diakritischen
Clitics

Silbentrennung

Bindestriche (-) werden zwischen den Teilen eines zusammengesetzten Worts oder Namens verwendet. Sie werden auch zwischen den Silben eines Worts verwendet, wenn das Wort am Ende einer Textzeile geteilt wird. In Englisch werden Wörter mit Bindestrichen verknüpft, um eine spezielle Beziehung im Kontext anzugeben, aber diese Wörter dürfen in anderen Kontexten normalerweise nicht bindestriche sein; Beispiel: "Schritt-für-Schritt". Während der Indexerstellung sollte der Worttrennzeichen den Bindestrich als Worttrennzeichen behandeln. Beispielsweise würde "Data-base" als "Data" plus "base" gespeichert werden. Zur Abfragezeit sollte ein Bindestrich durch zwei Alternativen ersetzt werden: die Zweiwortvariante und die echte Verbindung. Beispielsweise würde "Data-base" durch "data" plus "base" und "database" ersetzt werden. Dieser Unterschied zwischen Index- und Abfragezeit erhöht die Kombinationen von Darstellungen für Silbentrennungswörter und erleichtert die Übereinstimmung der Wörter in einer Abfrage.

In der folgenden Tabelle wird gezeigt, wie die Behandlung von Bindestrichen als Worttrennzeichen in der englischen Sprache die Anzahl der übereinstimmenden Abfragebegriffe für jeden im Index enthaltenen Ausdruck erhöht.

Im Index enthaltene Ausdrücke	Abfragezeit-Übereinstimmungen
Datenbank	Datenbank, Datenbasis
Datenbasis	Datenbank, Datenbasis
Datenbank	Datenbasis, Datenbank

Possessive

Possessive sind Variationen in einem Substantiv, das den Besitz angibt. Englische Possessive werden durch Anfügen eines Apostrophs (') oder eines Apostrophs und eines (s) an ein Wort dargestellt. Um beispielsweise den Besitz anzugeben, wird das Wort "Mary" als "Marias" dargestellt. Der Worttrennung generiert sowohl das Apostroph als auch die Apostroph-Formulare zur Abfragezeit. Abfragen für "Mary" sollten sowohl "Mary" als auch "Mary's" entsprechen.

Diakritika

Diakritische Zeichen werden einem Buchstaben oder Phoneme hinzugefügt, um einen speziellen phonetischen Wert für die Aussprache anzugeben. Diakritische Zeichen können Wörter unterscheiden, die ansonsten grafisch identisch sind; Beispiel: "resume" und "resumé" in Englisch. Das Speichern diakritischer Zeichen im Index erhöht jedoch die Anzahl eindeutiger Wortschlüssel im Index, wodurch die Abfrageleistung verlangsamt wird. Wenn diakritische Zeichen nur minimal in einer Sprache verwendet werden, sollte die Worttrennung für diese Sprache sowohl bei der Indexerstellung als auch bei der Abfrage entfernt werden. Beispielsweise generiert der englische Worttrennung beim Verarbeiten von "resumé" "resume", was nur minimale Auswirkungen auf die Relevanz der Abfrageergebnisse verursacht.

Klitik

Ein Clitic ist ein ungelastetes Wort, das allein stehen kann und an ein gestresstes Wort anfügt, um eine einzelne Einheit zu bilden. Klitik kann nicht einfach als phonologische, syntaktische oder morphologische Klassifiziert werden. Klitik kommt in zwei Arten: Proklitik und Enklitik. Proklitik heften sich am Anfang eines Worts an. Enclitics fügen sich am Ende eines Worts an.

Klitik ist schwieriger zu analysieren in Sprachen wie Spanisch. Ein spanisches Verb kann abhängig von der Spannung viele Oberflächenformen erzeugen. Überlegungen müssen zwischen dem Entfernen der Clitic während der Indexerstellung und dem Generieren der Oberflächenformulare durch Wortstammerkennung zur Abfragezeit getroffen werden. Das Entfernen von Klitik in Fällen, in denen die Morphologie der clitischen Zusammensetzung mehrdeutig ist, kann zu unvorhersehbaren Ergebnissen führen. Das Generieren einer großen Anzahl von Oberflächenformularen für ein Wort erhöht die Größe des Volltextindexes und kann die Abfrageleistung verlangsamen. Es wird empfohlen, nur eine kleine Anzahl von Oberflächenformen zu generieren.

Freigeben über

Surface Form Normalization

Silbentrennung

Possessive

Diakritika

Klitik

Feedback

Zusätzliche Ressourcen