sys.dm_fts_parser (Transact-SQL)
Gilt für: SQL Server
Gibt das endgültige Tokenisierungsergebnis zurück, nachdem ein bestimmter Worttrennungs-, Thesaurus- und Stopplistenkombination auf eine Abfragezeichenfolgeneingabe angewendet wurde. Das Tokenisierungsergebnis entspricht der Ausgabe der Volltext-Engine für die angegebene Abfragezeichenfolge.
sys.dm_fts_parser
ist eine dynamische Verwaltungsfunktion.
Syntax
sys.dm_fts_parser ( 'query_string' , lcid , stoplist_id , accent_sensitivity )
Argumente
query_string
Die zu analysierende Abfrage. query_string kann eine Zeichenfolgenkette sein, die die Syntax unterstützt. Sie können z. B. Flexionsformen, einen Thesaurus und logische Operatoren einschließen.
lcid
Gebietsschema-ID (LCID) des Worttrennzeichens , der für die Analyse query_string verwendet werden soll.
stoplist_id
ID der Stoppliste( falls vorhanden), die von der durch lcid identifizierten Worttrennung verwendet werden soll. stoplist_id ist int. Wenn Sie "NULL" angeben, wird keine Stoppliste verwendet. Wenn Sie 0 angeben, wird die Systemstoppliste STOPLIST verwendet.
Eine Stopplisten-ID ist innerhalb der Datenbank eindeutig. Um die Stopplisten-ID für einen Volltextindex für eine bestimmte Tabelle abzurufen, verwenden Sie die sys.fulltext_indexes Katalogansicht.
accent_sensitivity
Boolescher Wert, mit dem gesteuert wird, ob diakritische Zeichen bei der Volltextsuche berücksichtigt werden. accent_sensitivity ist Bit mit einem der folgenden Werte:
Wert | Akzentempfindlichkeit ist... |
---|---|
0 | Keine Beachtung von Groß-/Kleinschreibung Wörter wie "Café" und "Café" werden identisch behandelt. |
1 | Sensitiv Wörter wie "Café" und "Café" werden anders behandelt. |
Hinweis
Führen Sie die folgende Transact-SQL-Anweisung aus, um die aktuelle Einstellung dieses Werts für einen Volltextkatalog anzuzeigen: SELECT fulltextcatalogproperty('<catalog_name>', 'AccentSensitivity');
Zurückgegebene Tabelle
Spaltenname | Datentyp | Beschreibung |
---|---|---|
Schlüsselwort (keyword) | varbinary(128) | Die hexadezimale Darstellung eines gegebenen Schlüsselworts, das von einer Wörtertrennung zurückgegeben wurde. Diese Darstellung wird zum Speichern des Schlüsselworts im Volltextindex verwendet. Dieser Wert ist nicht lesbar, aber es ist nützlich, ein bestimmtes Schlüsselwort auf eine Ausgabe zu beziehen, die von anderen dynamischen Verwaltungsansichten zurückgegeben wird, die den Inhalt eines Volltextindexes zurückgeben, z . B. sys.dm_fts_index_keywords und sys.dm_fts_index_keywords_by_document. Hinweis: 0xFF stellt das Sonderzeichen dar, das das Ende einer Datei oder eines Datasets angibt. |
group_id | int | Enthält einen ganzzahligen Wert, mit dem die logische Gruppe unterschieden werden kann, aus der ein gegebener Begriff generiert wurde. Beispiel: Mit 'Server AND DB OR FORMSOF(THESAURUS, DB)" ' werden die folgenden group_id-Werte auf Englisch ausgegeben:1: Server 2: DB 3: DB |
phrase_id | int | Enthält einen ganzzahligen Wert, der zur Unterscheidung der Fälle dient, in denen alternative Formen für zusammengesetzte Wörter (z. B. "full-text") von der Wörtertrennung ausgegeben werden. Wenn zusammengesetzte Wörter vorhanden sind (z. B. 'multi-millon'), gibt die Wörtertrennung u. U. alternative Formen aus. Diese alternativen Formen (Ausdrücke) müssen in einigen Fällen unterschieden werden. Beispiel: Mit ' multi-million ' werden die folgenden phrase_id-Werte auf Englisch ausgegeben:1 für multi 1 für million 2 für multimillion |
occurrence | int | Gibt die Reihenfolge der einzelnen Begriffe im Analyseergebnis an. Beispiel: Für den Ausdruck "SQL Server query processor " enthält die Spalte occurrence die folgenden Vorkommenwerte auf Englisch:1 für SQL 2 für Server 3 für query 4 für processor |
special_term | nvarchar(4000) | Enthält Informationen über die Eigenschaften des Begriffs, der von der Wörtertrennung ausgegeben wird. Hierbei gibt es folgende Möglichkeiten: - Genaue Übereinstimmung - Rauschwort - Satzende - Absatzende - Ende des Kapitels |
display_term | nvarchar(4000) | Enthält die Klartextform des Schlüsselworts. Wie bei den Funktionen für den Zugriff auf den Inhalt des Volltextindexes stimmt der angezeigte Begriff aufgrund der Denormalisierungsgrenze u. U. nicht mit dem ursprünglichen Begriff überein. In der Regel ist er jedoch so genau, dass Sie ihn anhand der ursprünglichen Eingabe identifizieren können. |
expansion_type | int | Enthält Informationen über die Beschaffenheit der Erweiterung eines gegebenen Begriffs. Hierbei gibt es folgende Möglichkeiten: 0 = Groß-/Kleinschreibung mit einem Wort 2 = Inflectionalerweiterung 4 = Thesauruserweiterung/Ersatz Nehmen Sie beispielsweise an, dass der Thesaurus "run" als Erweiterung von jog definiert:<expansion> <sub>run</sub> <sub>jog</sub> </expansion> Der Begriff FORMSOF (FREETEXT, run) generiert die folgende Ausgabe:run mit expansion_type = 0runs mit expansion_type = 2running mit expansion_type = 2ran mit expansion_type = 2jog mit expansion_type = 4 |
source_term | nvarchar(4000) | Der Begriff bzw. der Ausdruck, auf dessen Basis ein gegebener Begriff generiert wurde. Beispielsweise erzeugt eine Abfrage für die '"word breakers" AND stemmers' folgenden source_term Werte in Englisch:word breakers für die display_term word word breakers für die display_term breakers stemmers für die display_term stemmers |
Hinweise
sys.dm_fts_parser
unterstützt die Syntax und Features von Volltext-Prädikaten wie CONTAINS und FREETEXT sowie Funktionen wie CONTAINSTABLE und FREETEXTTABLE.
Verwenden von Unicode zum Analysieren von Sonderzeichen
Wenn Sie eine Abfragezeichenfolge analysieren, wird die Sortierung der Datenbank verwendet, mit der Sie verbunden sind, es sei denn, sys.dm_fts_parser
Sie geben die Abfragezeichenfolge als Unicode an. Daher kann die Ausgabe für eine Nicht-Unicode-Zeichenfolge, die Sonderzeichen wie z. B. ü oder ç enthält, je nach Sortierung der Datenbank unerwartet sein. Um eine Abfragezeichenfolge unabhängig von der Datenbanksortierung zu verarbeiten, stellen Sie der Zeichenfolge das Präfix " N
, d. h N'
. query_string'
" voran.
Weitere Informationen finden Sie unter C. Anzeigen der Ausgabe einer Zeichenfolge, die Sonderzeichen weiter unten in diesem Artikel enthält.
Wann sys.dm_fts_parser verwendet werden soll
sys.dm_fts_parser
kann für Debuggingzwecke leistungsfähig sein. Die wichtigsten Verwendungsszenarios sind:
Verdeutlichung der Funktionsweise der Wörtertrennung bei einer gegebenen Eingabe
Wenn bei einer Abfrage unerwartete Ergebnisse zurückgegeben werden, kann dies an der Analyse und Trennung der Daten durch die Wörtertrennung liegen. Mithilfe von
sys.dm_fts_parser
ermitteln Sie das Ergebnis, das ein Worttrennzeichen an den Volltextindex übergibt. Darüber hinaus können Sie sehen, welche Begriffe Stoppwörter sind, die nicht im Volltextindex durchsucht werden. Ob ein Ausdruck ein Stoppwort für eine bestimmte Sprache ist, hängt davon ab, ob er sich in der Stoppliste befindet, die durch den in der Funktion deklarierten wert stoplist_id angegeben ist.Mit der Akzentempfindlichkeitskennzeichnung können Sie sehen, wie der Worttrennung die Eingabe analysiert, wobei die Vertraulichkeitsinformationen für Akzente beachtet werden.
Verdeutlichung der Funktionsweise der Wortstammerkennung bei einer gegebenen Eingabe
Sie können ermitteln, wie ein Abfrageausdruck und seine Stammformen von der Wörtertrennung und der Wortstammerkennung analysiert werden, indem Sie eine CONTAINS- oder eine CONTAINSTABLE-Abfrage mit der folgenden FORMSOF-Klausel angeben:
FORMSOF( INFLECTIONAL, query_term )
Anhand der Ergebnisse können Sie sehen, welche Begriffe an den Volltextindex übergeben werden.
Verdeutlichung der Erweiterung bzw. Ersetzung der gesamten oder eines Teils der Eingabe durch den Thesaurus
Du kannst auch Folgendes angeben:
FORMSOF( THESAURUS, query_term )
Die Ergebnisse dieser Abfrage veranschaulichen die Interaktion der Wörtertrennung und des Thesaurus für den Abfrageausdruck. Sie können den Ausdruck oder die Ersetzungen im Thesaurus anzeigen und die resultierende Abfrage identifizieren, die tatsächlich für den Volltextindex verwendet wird.
Wenn der Benutzer Probleme hat:
FORMSOF( FREETEXT, query_term )
Die Funktionen "Inflectional" und "Thesaurus" erfolgen automatisch.
Zusätzlich zu den vorherigen Verwendungsszenarien kann es hilfreich sein, sys.dm_fts_parser
viele andere Probleme mit Volltextabfragen zu verstehen und zu beheben.
Berechtigungen
Erfordert CREATE FULLTEXT CATALOG-Berechtigung und Zugriffsrechte für die angegebene Stoppliste.
Beispiele
A. Anzeigen der Ausgabe eines bestimmten Worttrennungs für ein Schlüsselwort oder einen Ausdruck
Für die Ausgabe des folgenden Beispiels wurden die Wörtertrennung für Englisch mit der LCID 1033 und keine Stoppliste auf die folgende Abfragezeichenfolge angewendet:
The Microsoft business analysis
Die Unterscheidung nach Akzent ist deaktiviert.
SELECT * FROM sys.dm_fts_parser (' "The Microsoft business analysis" ', 1033, 0, 0);
B. Anzeigen der Ausgabe eines bestimmten Worttrennungs im Kontext der Stopplistenfilterung
Für die Ausgabe des folgenden Beispiels wurden die Wörtertrennung für Englisch mit der LCID 1033 und eine Stoppliste für Englisch mit der ID 77 auf die folgende Abfragezeichenfolge angewendet:
"The Microsoft business analysis" OR "MS revenue"
Die Unterscheidung nach Akzent ist deaktiviert.
SELECT * FROM sys.dm_fts_parser (' "The Microsoft business analysis" OR " MS revenue" ', 1033, 77, 0);
C. Anzeigen der Ausgabe einer Zeichenfolge, die Sonderzeichen enthält
Im folgenden Beispiel wird Unicode verwendet, um die folgende französische Zeichenfolge zu analysieren:
français
Das Beispiel gibt die LCID für die französische Sprache, 1036
, und die ID einer benutzerdefinierten Stoppliste, 5
an. Die Unterscheidung nach Akzent ist aktiviert.
SELECT * FROM sys.dm_fts_parser(N'français', 1036, 5, 1);
Siehe auch
- Volltextsuche und dynamische Suchansichten und -funktionen für die semantische Suche (Transact-SQL)
- Volltextsuche
- Sicherungsfähige Elemente