Indexes - Analyze
Zeigt, wie ein Analysetool Text in Token unterbricht.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-10-01-Preview
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
index
|
path | True |
string |
Der Name des Indexes, auf den ein Analysetool getestet werden soll. |
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Die Verfolgungs-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen. |
Anforderungstext
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
text | True |
string |
Der Text, der in Token unterteilt werden soll. |
analyzer |
Der Name des Analysetools, das verwendet werden soll, um den angegebenen Text zu unterbrechen. |
||
charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. |
||
normalizer |
Der Name des Normalisierers, der zum Normalisieren des angegebenen Texts verwendet werden soll. |
||
tokenFilters |
Eine optionale Liste von Tokenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. |
||
tokenizer |
Der Name des Tokenizers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK | ||
Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceIndexAnalyze
Beispielanforderung
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-10-01-Preview
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Beispiel für eine Antwort
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definitionen
Name | Beschreibung |
---|---|
Analyzed |
Informationen zu einem Token, das von einem Analysetool zurückgegeben wird. |
Analyze |
Gibt einige Text- und Analysekomponenten an, die verwendet werden, um diesen Text in Token zu unterteilen. |
Analyze |
Das Ergebnis des Testens eines Analysetools für Text. |
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller tokenisierer, die von der Suchmaschine unterstützt werden. |
Search |
Beschreibt eine Fehlerbedingung für die API. |
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
AnalyzedTokenInfo
Informationen zu einem Token, das von einem Analysetool zurückgegeben wird.
Name | Typ | Beschreibung |
---|---|---|
endOffset |
integer |
Der Index des letzten Zeichens des Tokens im Eingabetext. |
position |
integer |
Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat position 0, das nächste hat Position 1 usw. Abhängig vom verwendeten Analysetool können einige Token die gleiche Position aufweisen, z. B. wenn sie Synonyme füreinander sind. |
startOffset |
integer |
Der Index des ersten Zeichens des Tokens im Eingabetext. |
token |
string |
Das vom Analysetool zurückgegebene Token. |
AnalyzeRequest
Gibt einige Text- und Analysekomponenten an, die verwendet werden, um diesen Text in Token zu unterteilen.
Name | Typ | Beschreibung |
---|---|---|
analyzer |
Der Name des Analysetools, mit dem der angegebene Text unterbrochen werden soll. |
|
charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Brechen des angegebenen Texts verwendet werden sollen. |
|
normalizer |
Der Name des Normalisierers, der zum Normalisieren des angegebenen Texts verwendet werden soll. |
|
text |
string |
Der Text, der in Token unterteilt werden soll. |
tokenFilters |
Eine optionale Liste von Tokenfiltern, die beim Brechen des angegebenen Texts verwendet werden sollen. |
|
tokenizer |
Der Name des Tokenizers, mit dem der angegebene Text unterbrochen werden soll. |
AnalyzeResult
Das Ergebnis des Testens eines Analysetools für Text.
Name | Typ | Beschreibung |
---|---|---|
tokens |
Die Liste der vom Analysetool zurückgegebenen Token, die in der Anforderung angegeben sind. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
html_strip |
string |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
LexicalAnalyzerName
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
ar.lucene |
string |
Lucene Analyzer für Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer für Arabisch. |
bg.lucene |
string |
Lucene Analyzer für Bulgarisch. |
bg.microsoft |
string |
Microsoft Analyzer für Bulgarisch. |
bn.microsoft |
string |
Microsoft Analyzer für Bangla. |
ca.lucene |
string |
Lucene Analyzer für Katalanisch. |
ca.microsoft |
string |
Microsoft Analyzer für Catalan. |
cs.lucene |
string |
Lucene Analyzer für Tschechisch. |
cs.microsoft |
string |
Microsoft Analyzer für Tschechisch. |
da.lucene |
string |
Lucene Analyzer für Dänisch. |
da.microsoft |
string |
Microsoft Analyzer für Dänisch. |
de.lucene |
string |
Lucene Analyzer für Deutsch. |
de.microsoft |
string |
Microsoft Analyzer für Deutsch. |
el.lucene |
string |
Lucene Analyzer für Griechisch. |
el.microsoft |
string |
Microsoft Analyzer für Griechisch. |
en.lucene |
string |
Lucene Analyzer für Englisch. |
en.microsoft |
string |
Microsoft Analyzer für Englisch. |
es.lucene |
string |
Lucene Analyzer für Spanisch. |
es.microsoft |
string |
Microsoft Analyzer für Spanisch. |
et.microsoft |
string |
Microsoft Analyzer für Estnisch. |
eu.lucene |
string |
Lucene Analyzer für Basque. |
fa.lucene |
string |
Lucene Analyzer für Persisch. |
fi.lucene |
string |
Lucene Analyzer für Finnisch. |
fi.microsoft |
string |
Microsoft Analyzer für Finnisch. |
fr.lucene |
string |
Lucene Analyzer für Französisch. |
fr.microsoft |
string |
Microsoft Analyzer für Französisch. |
ga.lucene |
string |
Lucene Analyzer für Irland. |
gl.lucene |
string |
Lucene Analyzer für Galizisch. |
gu.microsoft |
string |
Microsoft Analyzer für Gujarati. |
he.microsoft |
string |
Microsoft Analyzer für Hebräisch. |
hi.lucene |
string |
Lucene Analyzer für Hindi. |
hi.microsoft |
string |
Microsoft Analyzer für Hindi. |
hr.microsoft |
string |
Microsoft Analyzer für Kroatisch. |
hu.lucene |
string |
Lucene Analyzer für Ungarisch. |
hu.microsoft |
string |
Microsoft Analyzer für Ungarisch. |
hy.lucene |
string |
Lucene Analyzer für Armenisch. |
id.lucene |
string |
Lucene Analyzer für Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer für Indonesisch (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer für Island. |
it.lucene |
string |
Lucene Analyzer für Italienisch. |
it.microsoft |
string |
Microsoft Analyzer für Italienisch. |
ja.lucene |
string |
Lucene Analyzer für Japanisch. |
ja.microsoft |
string |
Microsoft Analyzer für Japanisch. |
keyword |
string |
Behandelt den gesamten Inhalt eines Felds als ein einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
kn.microsoft |
string |
Microsoft Analyzer für Kannada. |
ko.lucene |
string |
Lucene Analyzer für Koreanisch. |
ko.microsoft |
string |
Microsoft Analyzer für Koreanisch. |
lt.microsoft |
string |
Microsoft Analyzer für Litauisch. |
lv.lucene |
string |
Lucene Analyzer für Lettisch. |
lv.microsoft |
string |
Microsoft Analyzer für Lettisch. |
ml.microsoft |
string |
Microsoft Analyzer für Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer für Marathi. |
ms.microsoft |
string |
Microsoft Analyzer für Malaiisch (Lateinisch). |
nb.microsoft |
string |
Microsoft Analyzer für Norwegisch (Bokmål). |
nl.lucene |
string |
Lucene Analyzer für Niederländisch. |
nl.microsoft |
string |
Microsoft Analyzer für Niederländisch. |
no.lucene |
string |
Lucene Analyzer für Norwegisch. |
pa.microsoft |
string |
Microsoft Analyzer für Punjabi. |
pattern |
string |
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
pl.lucene |
string |
Lucene Analyzer für Polnisch. |
pl.microsoft |
string |
Microsoft Analyzer für Polnisch. |
pt-BR.lucene |
string |
Lucene Analyzer für Portugiesisch (Brasilien). |
pt-BR.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Brasilien). |
pt-PT.lucene |
string |
Lucene Analyzer für Portugiesisch (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Portugal). |
ro.lucene |
string |
Lucene Analyzer für Rumänisch. |
ro.microsoft |
string |
Microsoft Analyzer für Rumänisch. |
ru.lucene |
string |
Lucene Analyzer für Russisch. |
ru.microsoft |
string |
Microsoft Analyzer für Russisch. |
simple |
string |
Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
sk.microsoft |
string |
Microsoft Analyzer für Slowakisch. |
sl.microsoft |
string |
Microsoft Analyzer für Slowenisch. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer für Serbisch (Kyrillisch). |
sr-latin.microsoft |
string |
Microsoft Analyzer für Serbisch (Lateinisch). |
standard.lucene |
string |
Standard-Lucene-Analysegerät. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene Analyzer. Siehe https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
stop |
string |
Unterteilt Text in Nicht-Buchstaben; Wendet die Kleinbuchstaben- und Stoppworttokenfilter an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
sv.lucene |
string |
Lucene Analyzer für Schwedisch. |
sv.microsoft |
string |
Microsoft Analyzer für Schwedisch. |
ta.microsoft |
string |
Microsoft Analyzer für Tamil. |
te.microsoft |
string |
Microsoft Analyzer für Telugu. |
th.lucene |
string |
Lucene Analyzer für Thai. |
th.microsoft |
string |
Microsoft Analyzer für Thai. |
tr.lucene |
string |
Lucene Analyzer für Türkisch. |
tr.microsoft |
string |
Microsoft Analyzer für Türkisch. |
uk.microsoft |
string |
Microsoft Analyzer für Ukrainisch. |
ur.microsoft |
string |
Microsoft Analyzer für Urdu. |
vi.microsoft |
string |
Microsoft Analyzer für Vietnamesisch. |
whitespace |
string |
Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
zh-Hans.lucene |
string |
Lucene Analyzer für Chinesisch (vereinfacht). |
zh-Hans.microsoft |
string |
Microsoft Analyzer für Chinesisch (vereinfacht). |
zh-Hant.lucene |
string |
Lucene Analyzer für Chinesisch (traditionell). |
zh-Hant.microsoft |
string |
Microsoft Analyzer für Chinesisch (traditionell). |
LexicalNormalizerName
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
asciifolding |
string |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
elision |
string |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
lowercase |
string |
Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
standard |
string |
Standardnormalisierungsprogramm, das aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
uppercase |
string |
Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
LexicalTokenizerName
Definiert die Namen aller tokenisierer, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
classic |
string |
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente in europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html. |
edgeNGram |
string |
Tokenisiert die Eingabe von einer Kante in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html. |
keyword_v2 |
string |
Gibt die gesamte Eingabe als ein einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html. |
letter |
string |
Teilt Text in nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html. |
lowercase |
string |
Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html. |
microsoft_language_stemming_tokenizer |
string |
Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen. |
microsoft_language_tokenizer |
string |
Teilt Text mit sprachspezifische Regeln auf. |
nGram |
string |
Tokenisiert die Eingabe in N-Gramme einer festgelegten Größe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html. |
path_hierarchy_v2 |
string |
Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html. |
pattern |
string |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html. |
standard_v2 |
string |
Standard-Lucene-Analysetool; Besteht aus dem Standardtokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html. |
uax_url_email |
string |
Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html. |
whitespace |
string |
Teilt Text an den Leerzeichen auf. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html. |
SearchError
Beschreibt eine Fehlerbedingung für die API.
Name | Typ | Beschreibung |
---|---|---|
code |
string |
Einer der vom Server definierten Fehlercodes. |
details |
Ein Array von Details zu bestimmten Fehlern, die zu diesem gemeldeten Fehler geführt haben. |
|
message |
string |
Eine für Menschen lesbare Darstellung des Fehlers. |
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
apostrophe |
string |
Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html. |
arabic_normalization |
string |
Ein Tokenfilter, der den Normalisierer für arabische Sprachen anwendet, um die Orthographie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html. |
asciifolding |
string |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
cjk_bigram |
string |
Bildet Bigrams von CJK-Begriffen, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html. |
cjk_width |
string |
Normalisiert CJK-Breitenabweichungen. Faltet vollwidth ASCII-Varianten in die äquivalenten basislateinischen und halbbreiten Katakana-Varianten in die äquivalente Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html. |
classic |
string |
Entfernt englische Possessive und Punkte aus Akronymen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html. |
common_grams |
string |
Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html. |
edgeNGram_v2 |
string |
Generiert n Gramm der angegebenen Größe(en) ausgehend von der Vorder- oder Rückseite eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html. |
elision |
string |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
german_normalization |
string |
Normalisiert deutsche Zeichen gemäß der Heuristik des German2-Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html. |
hindi_normalization |
string |
Normalisiert Text in Hindi, um einige Unterschiede in der Schreibweise zu beseitigen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html. |
indic_normalization |
string |
Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html. |
keyword_repeat |
string |
Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort (keyword) und einmal als nicht Schlüsselwort (keyword). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html. |
kstem |
string |
Ein Hochleistungs-Kstem-Filter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html. |
length |
string |
Entfernt die Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html. |
limit |
string |
Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html. |
lowercase |
string |
Normalisiert den Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
nGram_v2 |
string |
Generiert N-Gramme einer festgelegten Größe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html. |
persian_normalization |
string |
Wendet die Normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html. |
phonetic |
string |
Erstellt Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html. |
porter_stem |
string |
Verwendet den Porter-Stammalgorithmus, um den Tokenstream zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer. |
reverse |
string |
Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
scandinavian_folding |
string |
Faltet skandinavische Zeichen åÅäæÄÆ->a und öÖøØ->o. Es unterscheidet auch die Verwendung von doppelten Vokalen aa, ae, ae, ao, ao, oe und oo, wobei nur der erste übrig bleibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html. |
scandinavian_normalization |
string |
Normalisiert die Verwendung der austauschbar skandinavische Zeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html. |
shingle |
string |
Kombiniert Token zu einem einzelnen Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html. |
snowball |
string |
Ein Filter, der Wörter mithilfe eines von Snowball generierten Stemmers vorgibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html. |
sorani_normalization |
string |
Normalisiert die Unicode-Darstellung von Text in Sorani. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html. |
stemmer |
string |
Sprachspezifischer Stammfilter. Siehe https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters. |
stopwords |
string |
Entfernt Stoppwörter aus einem Tokenstream. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html. |
trim |
string |
Entfernt führende und nachfolgende Leerzeichen aus Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html. |
truncate |
string |
Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html. |
unique |
string |
Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html. |
uppercase |
string |
Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
word_delimiter |
string |
Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch. |