Freigeben über


Indexes - Analyze

Zeigt, wie ein Analysetool Text in Token unterbricht.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-10-01-Preview

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string

Die Endpunkt-URL des Suchdiensts.

indexName
path True

string

Der Name des Indexes, auf den ein Analysetool getestet werden soll.

api-version
query True

string

Client-API-Version.

Anforderungsheader

Name Erforderlich Typ Beschreibung
x-ms-client-request-id

string

uuid

Die Verfolgungs-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen.

Anforderungstext

Name Erforderlich Typ Beschreibung
text True

string

Der Text, der in Token unterteilt werden soll.

analyzer

LexicalAnalyzerName

Der Name des Analysetools, das verwendet werden soll, um den angegebenen Text zu unterbrechen.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Texts verwendet werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste von Tokenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der verwendet werden soll, um den angegebenen Text zu unterbrechen.

Antworten

Name Typ Beschreibung
200 OK

AnalyzeResult

Other Status Codes

SearchError

Fehlerantwort.

Beispiele

SearchServiceIndexAnalyze

Beispielanforderung

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-10-01-Preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Beispiel für eine Antwort

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitionen

Name Beschreibung
AnalyzedTokenInfo

Informationen zu einem Token, das von einem Analysetool zurückgegeben wird.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die verwendet werden, um diesen Text in Token zu unterteilen.

AnalyzeResult

Das Ergebnis des Testens eines Analysetools für Text.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

LexicalTokenizerName

Definiert die Namen aller tokenisierer, die von der Suchmaschine unterstützt werden.

SearchError

Beschreibt eine Fehlerbedingung für die API.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

AnalyzedTokenInfo

Informationen zu einem Token, das von einem Analysetool zurückgegeben wird.

Name Typ Beschreibung
endOffset

integer

Der Index des letzten Zeichens des Tokens im Eingabetext.

position

integer

Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat position 0, das nächste hat Position 1 usw. Abhängig vom verwendeten Analysetool können einige Token die gleiche Position aufweisen, z. B. wenn sie Synonyme füreinander sind.

startOffset

integer

Der Index des ersten Zeichens des Tokens im Eingabetext.

token

string

Das vom Analysetool zurückgegebene Token.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die verwendet werden, um diesen Text in Token zu unterteilen.

Name Typ Beschreibung
analyzer

LexicalAnalyzerName

Der Name des Analysetools, mit dem der angegebene Text unterbrochen werden soll.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Brechen des angegebenen Texts verwendet werden sollen.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Texts verwendet werden soll.

text

string

Der Text, der in Token unterteilt werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste von Tokenfiltern, die beim Brechen des angegebenen Texts verwendet werden sollen.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, mit dem der angegebene Text unterbrochen werden soll.

AnalyzeResult

Das Ergebnis des Testens eines Analysetools für Text.

Name Typ Beschreibung
tokens

AnalyzedTokenInfo[]

Die Liste der vom Analysetool zurückgegebenen Token, die in der Anforderung angegeben sind.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
html_strip

string

Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
ar.lucene

string

Lucene Analyzer für Arabisch.

ar.microsoft

string

Microsoft Analyzer für Arabisch.

bg.lucene

string

Lucene Analyzer für Bulgarisch.

bg.microsoft

string

Microsoft Analyzer für Bulgarisch.

bn.microsoft

string

Microsoft Analyzer für Bangla.

ca.lucene

string

Lucene Analyzer für Katalanisch.

ca.microsoft

string

Microsoft Analyzer für Catalan.

cs.lucene

string

Lucene Analyzer für Tschechisch.

cs.microsoft

string

Microsoft Analyzer für Tschechisch.

da.lucene

string

Lucene Analyzer für Dänisch.

da.microsoft

string

Microsoft Analyzer für Dänisch.

de.lucene

string

Lucene Analyzer für Deutsch.

de.microsoft

string

Microsoft Analyzer für Deutsch.

el.lucene

string

Lucene Analyzer für Griechisch.

el.microsoft

string

Microsoft Analyzer für Griechisch.

en.lucene

string

Lucene Analyzer für Englisch.

en.microsoft

string

Microsoft Analyzer für Englisch.

es.lucene

string

Lucene Analyzer für Spanisch.

es.microsoft

string

Microsoft Analyzer für Spanisch.

et.microsoft

string

Microsoft Analyzer für Estnisch.

eu.lucene

string

Lucene Analyzer für Basque.

fa.lucene

string

Lucene Analyzer für Persisch.

fi.lucene

string

Lucene Analyzer für Finnisch.

fi.microsoft

string

Microsoft Analyzer für Finnisch.

fr.lucene

string

Lucene Analyzer für Französisch.

fr.microsoft

string

Microsoft Analyzer für Französisch.

ga.lucene

string

Lucene Analyzer für Irland.

gl.lucene

string

Lucene Analyzer für Galizisch.

gu.microsoft

string

Microsoft Analyzer für Gujarati.

he.microsoft

string

Microsoft Analyzer für Hebräisch.

hi.lucene

string

Lucene Analyzer für Hindi.

hi.microsoft

string

Microsoft Analyzer für Hindi.

hr.microsoft

string

Microsoft Analyzer für Kroatisch.

hu.lucene

string

Lucene Analyzer für Ungarisch.

hu.microsoft

string

Microsoft Analyzer für Ungarisch.

hy.lucene

string

Lucene Analyzer für Armenisch.

id.lucene

string

Lucene Analyzer für Indonesisch.

id.microsoft

string

Microsoft Analyzer für Indonesisch (Bahasa).

is.microsoft

string

Microsoft Analyzer für Island.

it.lucene

string

Lucene Analyzer für Italienisch.

it.microsoft

string

Microsoft Analyzer für Italienisch.

ja.lucene

string

Lucene Analyzer für Japanisch.

ja.microsoft

string

Microsoft Analyzer für Japanisch.

keyword

string

Behandelt den gesamten Inhalt eines Felds als ein einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

kn.microsoft

string

Microsoft Analyzer für Kannada.

ko.lucene

string

Lucene Analyzer für Koreanisch.

ko.microsoft

string

Microsoft Analyzer für Koreanisch.

lt.microsoft

string

Microsoft Analyzer für Litauisch.

lv.lucene

string

Lucene Analyzer für Lettisch.

lv.microsoft

string

Microsoft Analyzer für Lettisch.

ml.microsoft

string

Microsoft Analyzer für Malayalam.

mr.microsoft

string

Microsoft Analyzer für Marathi.

ms.microsoft

string

Microsoft Analyzer für Malaiisch (Lateinisch).

nb.microsoft

string

Microsoft Analyzer für Norwegisch (Bokmål).

nl.lucene

string

Lucene Analyzer für Niederländisch.

nl.microsoft

string

Microsoft Analyzer für Niederländisch.

no.lucene

string

Lucene Analyzer für Norwegisch.

pa.microsoft

string

Microsoft Analyzer für Punjabi.

pattern

string

Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

pl.lucene

string

Lucene Analyzer für Polnisch.

pl.microsoft

string

Microsoft Analyzer für Polnisch.

pt-BR.lucene

string

Lucene Analyzer für Portugiesisch (Brasilien).

pt-BR.microsoft

string

Microsoft Analyzer für Portugiesisch (Brasilien).

pt-PT.lucene

string

Lucene Analyzer für Portugiesisch (Portugal).

pt-PT.microsoft

string

Microsoft Analyzer für Portugiesisch (Portugal).

ro.lucene

string

Lucene Analyzer für Rumänisch.

ro.microsoft

string

Microsoft Analyzer für Rumänisch.

ru.lucene

string

Lucene Analyzer für Russisch.

ru.microsoft

string

Microsoft Analyzer für Russisch.

simple

string

Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

sk.microsoft

string

Microsoft Analyzer für Slowakisch.

sl.microsoft

string

Microsoft Analyzer für Slowenisch.

sr-cyrillic.microsoft

string

Microsoft Analyzer für Serbisch (Kyrillisch).

sr-latin.microsoft

string

Microsoft Analyzer für Serbisch (Lateinisch).

standard.lucene

string

Standard-Lucene-Analysegerät.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene Analyzer. Siehe https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

stop

string

Unterteilt Text in Nicht-Buchstaben; Wendet die Kleinbuchstaben- und Stoppworttokenfilter an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

sv.lucene

string

Lucene Analyzer für Schwedisch.

sv.microsoft

string

Microsoft Analyzer für Schwedisch.

ta.microsoft

string

Microsoft Analyzer für Tamil.

te.microsoft

string

Microsoft Analyzer für Telugu.

th.lucene

string

Lucene Analyzer für Thai.

th.microsoft

string

Microsoft Analyzer für Thai.

tr.lucene

string

Lucene Analyzer für Türkisch.

tr.microsoft

string

Microsoft Analyzer für Türkisch.

uk.microsoft

string

Microsoft Analyzer für Ukrainisch.

ur.microsoft

string

Microsoft Analyzer für Urdu.

vi.microsoft

string

Microsoft Analyzer für Vietnamesisch.

whitespace

string

Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

zh-Hans.lucene

string

Lucene Analyzer für Chinesisch (vereinfacht).

zh-Hans.microsoft

string

Microsoft Analyzer für Chinesisch (vereinfacht).

zh-Hant.lucene

string

Lucene Analyzer für Chinesisch (traditionell).

zh-Hant.microsoft

string

Microsoft Analyzer für Chinesisch (traditionell).

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
asciifolding

string

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

elision

string

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

lowercase

string

Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

standard

string

Standardnormalisierungsprogramm, das aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

uppercase

string

Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

LexicalTokenizerName

Definiert die Namen aller tokenisierer, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
classic

string

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente in europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

string

Tokenisiert die Eingabe von einer Kante in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

string

Gibt die gesamte Eingabe als ein einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

string

Teilt Text in nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

string

Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_stemming_tokenizer

string

Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen.

microsoft_language_tokenizer

string

Teilt Text mit sprachspezifische Regeln auf.

nGram

string

Tokenisiert die Eingabe in N-Gramme einer festgelegten Größe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

string

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

string

Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

string

Standard-Lucene-Analysetool; Besteht aus dem Standardtokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

string

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

string

Teilt Text an den Leerzeichen auf. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

SearchError

Beschreibt eine Fehlerbedingung für die API.

Name Typ Beschreibung
code

string

Einer der vom Server definierten Fehlercodes.

details

SearchError[]

Ein Array von Details zu bestimmten Fehlern, die zu diesem gemeldeten Fehler geführt haben.

message

string

Eine für Menschen lesbare Darstellung des Fehlers.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
apostrophe

string

Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

arabic_normalization

string

Ein Tokenfilter, der den Normalisierer für arabische Sprachen anwendet, um die Orthographie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

asciifolding

string

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

string

Bildet Bigrams von CJK-Begriffen, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

string

Normalisiert CJK-Breitenabweichungen. Faltet vollwidth ASCII-Varianten in die äquivalenten basislateinischen und halbbreiten Katakana-Varianten in die äquivalente Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

string

Entfernt englische Possessive und Punkte aus Akronymen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

string

Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

string

Generiert n Gramm der angegebenen Größe(en) ausgehend von der Vorder- oder Rückseite eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

string

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

string

Normalisiert deutsche Zeichen gemäß der Heuristik des German2-Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

string

Normalisiert Text in Hindi, um einige Unterschiede in der Schreibweise zu beseitigen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

string

Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

string

Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort (keyword) und einmal als nicht Schlüsselwort (keyword). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

string

Ein Hochleistungs-Kstem-Filter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

string

Entfernt die Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

string

Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

string

Normalisiert den Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

nGram_v2

string

Generiert N-Gramme einer festgelegten Größe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

string

Wendet die Normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

string

Erstellt Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

string

Verwendet den Porter-Stammalgorithmus, um den Tokenstream zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer.

reverse

string

Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_folding

string

Faltet skandinavische Zeichen åÅäæÄÆ->a und öÖøØ->o. Es unterscheidet auch die Verwendung von doppelten Vokalen aa, ae, ae, ao, ao, oe und oo, wobei nur der erste übrig bleibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

scandinavian_normalization

string

Normalisiert die Verwendung der austauschbar skandinavische Zeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

shingle

string

Kombiniert Token zu einem einzelnen Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

string

Ein Filter, der Wörter mithilfe eines von Snowball generierten Stemmers vorgibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

string

Normalisiert die Unicode-Darstellung von Text in Sorani. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

string

Sprachspezifischer Stammfilter. Siehe https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

string

Entfernt Stoppwörter aus einem Tokenstream. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

string

Entfernt führende und nachfolgende Leerzeichen aus Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

string

Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

string

Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

string

Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

string

Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch.