Normalisierung von Surface-Formularen
Obwohl Wörter und linguistische Regeln sich erheblich unterscheiden, gibt es einige Überlegungen wie Zahlen, Datumsangaben und Uhrzeiten, die konsistent in allen Worttrennungen behandelt werden. In diesem Thema werden Überlegungen zur Normalisierung dokumentiert, die sich auf die Implementierung von Wörtertrennungen auswirken können.
Dieses Thema ist wie folgt organisiert:
Hyphenation
Bindestriche (-) werden zwischen den Teilen eines zusammengesetzten Worts oder Namens verwendet. Sie werden auch zwischen den Silben eines Worts verwendet, wenn das Wort am Ende einer Textzeile geteilt wird. Im Englischen werden Wörter mit Bindestrichen verknüpft, um eine besondere Beziehung im Kontext anzuzeigen, aber diese Wörter werden normalerweise nicht in anderen Kontexten bindestrichen; z. B. "Schritt für Schritt". Während der Indexerstellung sollte die Worttrennung den Bindestrich als Worttrennzeichen behandeln. Beispielsweise wird "data-base" als "data" plus "base" gespeichert. Zur Abfragezeit sollte ein Bindestrich durch zwei Alternativen ersetzt werden: die Variante mit zwei Wörtern und die true-Verbindung. Beispielsweise würde "data-base" durch "data" plus "base" und "database" ersetzt. Dieser Unterschied zwischen Index- und Abfragezeit erhöht die Kombinationen von Darstellungen für Bindestriche und erleichtert die Zuordnung der Wörter in einer Abfrage.
Die folgende Tabelle zeigt, wie die Behandlung von Bindestrichen als Worttrennzeichen in der englischen Sprache die Anzahl der übereinstimmenden Abfragebegriffe für jeden im Index enthaltenen Begriff erhöht.
Im Index enthaltene Begriffe | Abfragezeit-Übereinstimmungen |
---|---|
Datenbank | -Datenbank, -Datenbank |
Datenbank | -Datenbank, -Datenbank |
Datenbank | Datenbank, Datenbank |
Possessive
Possessive sind Variationen in einem Substantiv, die auf Besitz hinweisen. Englische Possessive werden durch Anfügen eines Apostrophs (') oder eines Apostrophs und eines s(n) an ein Wort dargestellt. Um beispielsweise auf den Besitz hinzuweisen, wird das Wort "Mary" als "Marias" dargestellt. Die Worttrennung generiert zur Abfragezeit sowohl das Apostroph als auch die Apostroph-s-Formulare. Abfragen für "Mary" sollten sowohl mit "Mary" als auch mit "Marys" übereinstimmen.
Diakritische Zeichen
Diakritische Zeichen sind Markierungen, die einem Buchstaben oder Phonem hinzugefügt werden, um einen speziellen phonetischen Wert für die Aussprache anzugeben. Diakritische Zeichen können Wörter unterscheiden, die ansonsten grafisch identisch sind; z. B. "resume" und "resumé" in Englisch. Das Speichern von diakritischen Zeichen im Index erhöht jedoch die Anzahl eindeutiger Wortschlüssel im Index, was die Abfrageleistung verlangsamt. Wenn diakritische Zeichen in einer Sprache nur minimal verwendet werden, sollte die Worttrennung für diese Sprache sie sowohl während der Indexerstellung als auch bei abfragen entfernen. Beispielsweise generiert die englische Worttrennung bei der Verarbeitung von "resumé" "resume", was nur minimale Auswirkungen auf die Relevanz der Abfrageergebnisse hat.
Clitics
Ein Klischee ist ein unbelastetes Wort, das nicht in der Lage ist, für sich allein zu stehen und an ein gestresstes Wort anheftet, um eine einzelne Einheit zu bilden. Clitics kann nicht einfach als phonologische, syntaktische oder morphologische klassifiziert werden. Clitics gibt es in zwei Arten: Proklitika und Enklitika. Proklitik heften sich an den Anfang eines Wortes. Enklitik heften sich am Ende eines Worts an.
Klikaten sind in Sprachen wie Spanisch schwieriger zu analysieren. Ein spanisches Verb kann abhängig von der Zeit viele Oberflächenformen generieren. Es müssen Überlegungen zwischen dem Entfernen der Clitic während der Indexerstellung und dem Generieren der Oberflächenformulare durch Stemming zur Abfragezeit getroffen werden. Das Entfernen von Clitics in Fällen, in denen die Morphologie der clitischen Zusammensetzung mehrdeutig ist, kann zu unvorhersehbaren Ergebnissen führen. Das Generieren einer großen Anzahl von Oberflächenformularen für ein Wort erhöht die Größe des Volltextindexes und kann die Abfrageleistung verlangsamen. Es wird empfohlen, dass der Stemmer nur eine kleine Anzahl von Oberflächenformen generiert.