Freigeben über


Indexes - Analyze

Zeigt, wie ein Analyzer Text in Token umbricht.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-11-01-preview

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string

Die Endpunkt-URL des Suchdiensts.

indexName
path True

string

Der Name des Indexes, für den ein Analyzer getestet werden soll.

api-version
query True

string

Client-API-Version.

Anforderungsheader

Name Erforderlich Typ Beschreibung
x-ms-client-request-id

string

uuid

Die Tracking-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen.

Anforderungstext

Name Erforderlich Typ Beschreibung
text True

string

Der Text, der in Token unterteilt werden soll.

analyzer

LexicalAnalyzerName

Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Texts verwendet werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

Antworten

Name Typ Beschreibung
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Fehlerantwort.

Beispiele

SearchServiceIndexAnalyze

Beispielanforderung

POST https://previewexampleservice.search.windows.net/indexes('preview-test')/search.analyze?api-version=2024-11-01-preview


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Beispiel für eine Antwort

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitionen

Name Beschreibung
AnalyzedTokenInfo

Informationen zu einem token, das von einem Analyzer zurückgegeben wird.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.

AnalyzeResult

Das Ergebnis des Tests eines Analyzers auf Text.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

ErrorDetail

Das Fehlerdetails.

ErrorResponse

Fehlerantwort

LexicalAnalyzerName

Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.

LexicalNormalizerName

Definiert die Namen aller textnormalisierer, die von der Suchmaschine unterstützt werden.

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

AnalyzedTokenInfo

Informationen zu einem token, das von einem Analyzer zurückgegeben wird.

Name Typ Beschreibung
endOffset

integer

Der Index des letzten Zeichens des Tokens im Eingabetext.

position

integer

Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat Position 0, die nächste hat Position 1 usw. Abhängig von der verwendeten Analyse haben einige Token möglicherweise dieselbe Position, z. B. wenn sie Synonyme voneinander sind.

startOffset

integer

Der Index des ersten Zeichens des Tokens im Eingabetext.

token

string

Das vom Analyzer zurückgegebene Token.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.

Name Typ Beschreibung
analyzer

LexicalAnalyzerName

Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Texts verwendet werden soll.

text

string

Der Text, der in Token unterteilt werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

AnalyzeResult

Das Ergebnis des Tests eines Analyzers auf Text.

Name Typ Beschreibung
tokens

AnalyzedTokenInfo[]

Die Liste der Token, die von der in der Anforderung angegebenen Analyse zurückgegeben werden.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
html_strip

string

Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

Name Typ Beschreibung
info

object

Die zusätzlichen Informationen.

type

string

Der zusätzliche Informationstyp.

ErrorDetail

Das Fehlerdetails.

Name Typ Beschreibung
additionalInfo

ErrorAdditionalInfo[]

Die zusätzlichen Informationen des Fehlers.

code

string

Der Fehlercode.

details

ErrorDetail[]

Die Fehlerdetails.

message

string

Die Fehlermeldung.

target

string

Das Fehlerziel.

ErrorResponse

Fehlerantwort

Name Typ Beschreibung
error

ErrorDetail

Das Fehlerobjekt.

LexicalAnalyzerName

Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
ar.lucene

string

Lucene Analyzer für Arabisch.

ar.microsoft

string

Microsoft Analyzer für Arabisch.

bg.lucene

string

Lucene Analyzer für Bulgarisch.

bg.microsoft

string

Microsoft Analyzer für Bulgarisch.

bn.microsoft

string

Microsoft Analyzer für Bangla.

ca.lucene

string

Lucene Analyzer für Katalanisch.

ca.microsoft

string

Microsoft Analyzer für Katalanisch.

cs.lucene

string

Lucene Analyzer für Tschechisch.

cs.microsoft

string

Microsoft Analyzer für Tschechisch.

da.lucene

string

Lucene Analyzer für Dänisch.

da.microsoft

string

Microsoft Analyzer für Dänisch.

de.lucene

string

Lucene Analyzer für Deutsch.

de.microsoft

string

Microsoft Analyzer für Deutsch.

el.lucene

string

Lucene Analyzer für Griechisch.

el.microsoft

string

Microsoft Analyzer für Griechisch.

en.lucene

string

Lucene Analyzer für Englisch.

en.microsoft

string

Microsoft Analyzer für Englisch.

es.lucene

string

Lucene Analyzer für Spanisch.

es.microsoft

string

Microsoft Analyzer für Spanisch.

et.microsoft

string

Microsoft Analyzer für Estland.

eu.lucene

string

Lucene Analyzer für Baskisch.

fa.lucene

string

Lucene Analyzer für Persisch.

fi.lucene

string

Lucene Analyzer für Finnisch.

fi.microsoft

string

Microsoft Analyzer für Finnisch.

fr.lucene

string

Lucene Analyzer für Französisch.

fr.microsoft

string

Microsoft Analyzer für Französisch.

ga.lucene

string

Lucene Analyzer für Irisch.

gl.lucene

string

Lucene Analyzer für Galizien.

gu.microsoft

string

Microsoft Analyzer für Gujarati.

he.microsoft

string

Microsoft Analyzer für Hebräisch.

hi.lucene

string

Lucene Analyzer für Hindi.

hi.microsoft

string

Microsoft Analyzer für Hindi.

hr.microsoft

string

Microsoft Analyzer für Kroatisch.

hu.lucene

string

Lucene Analyzer für Ungarisch.

hu.microsoft

string

Microsoft Analyzer für Ungarisch.

hy.lucene

string

Lucene Analyzer für Armenier.

id.lucene

string

Lucene Analyzer für Indonesisch.

id.microsoft

string

Microsoft Analyzer für Indonesien (Bahasa).

is.microsoft

string

Microsoft Analyzer für Island.

it.lucene

string

Lucene Analyzer für Italienisch.

it.microsoft

string

Microsoft Analyzer für Italienisch.

ja.lucene

string

Lucene Analyzer für Japanisch.

ja.microsoft

string

Microsoft Analyzer für Japanisch.

keyword

string

Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft Analyzer für Kannada.

ko.lucene

string

Lucene Analyzer für Koreanisch.

ko.microsoft

string

Microsoft Analyzer für Koreanisch.

lt.microsoft

string

Microsoft Analyzer für Litauisch.

lv.lucene

string

Lucene Analyzer für Lettisch.

lv.microsoft

string

Microsoft Analyzer für Lettisch.

ml.microsoft

string

Microsoft Analyzer für Malayalam.

mr.microsoft

string

Microsoft Analyzer für Marathi.

ms.microsoft

string

Microsoft Analyzer für Malaiisch (Lateinisch).

nb.microsoft

string

Microsoft Analyzer für Norwegisch (Bokmål).

nl.lucene

string

Lucene Analyzer für Niederländisch.

nl.microsoft

string

Microsoft Analyzer für Niederländisch.

no.lucene

string

Lucene Analyzer für Norwegisch.

pa.microsoft

string

Microsoft Analyzer für Punjabi.

pattern

string

Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene Analyzer für Polnisch.

pl.microsoft

string

Microsoft Analyzer für Polnisch.

pt-BR.lucene

string

Lucene Analyzer für Portugiesisch (Brasilien).

pt-BR.microsoft

string

Microsoft Analyzer für Portugiesisch (Brasilien).

pt-PT.lucene

string

Lucene Analyzer für Portugiesisch (Portugal).

pt-PT.microsoft

string

Microsoft Analyzer für Portugiesisch (Portugal).

ro.lucene

string

Lucene Analyzer für Rumänisch.

ro.microsoft

string

Microsoft Analyzer für Rumänisch.

ru.lucene

string

Lucene Analyzer für Russisch.

ru.microsoft

string

Microsoft Analyzer für Russisch.

simple

string

Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer für Slowakisch.

sl.microsoft

string

Microsoft Analyzer für Slowenisch.

sr-cyrillic.microsoft

string

Microsoft Analyzer für Serbisch (Kyrillisch).

sr-latin.microsoft

string

Microsoft Analyzer für Serbisch (Lateinisch).

standard.lucene

string

Standard Lucene Analyzer.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene Analyzer. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene Analyzer für Schwedisch.

sv.microsoft

string

Microsoft Analyzer für Schwedisch.

ta.microsoft

string

Microsoft Analyzer für Tamil.

te.microsoft

string

Microsoft Analyzer für Telugu.

th.lucene

string

Lucene Analyzer für Thai.

th.microsoft

string

Microsoft Analyzer für Thailändisch.

tr.lucene

string

Lucene Analyzer für Türkisch.

tr.microsoft

string

Microsoft Analyzer für Türkisch.

uk.microsoft

string

Microsoft Analyzer für Ukrainisch.

ur.microsoft

string

Microsoft Analyzer für Urdu.

vi.microsoft

string

Microsoft Analyzer für Vietnamesisch.

whitespace

string

Ein Analyzer, der den Leerraumtokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Lucene Analyzer für Chinesisch (vereinfacht).

zh-Hans.microsoft

string

Microsoft Analyzer für Chinesisch (vereinfacht).

zh-Hant.lucene

string

Lucene Analyzer für Chinesisch (traditionell).

zh-Hant.microsoft

string

Microsoft Analyzer für Chinesisch (traditionell).

LexicalNormalizerName

Definiert die Namen aller textnormalisierer, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
asciifolding

string

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

Standardnormalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
classic

string

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Dividiert Text in Nichtbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare.

microsoft_language_tokenizer

string

Dividiert Text mithilfe sprachspezifischer Regeln.

nGram

string

Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Dividiert Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Name Typ Beschreibung
apostrophe

string

Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs selbst). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Ein Tokenfilter, der den arabischen Normalisierer anwendet, um die Orthografie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalisiert Unterschiede bei der CJK-Breite. Gefaltet ASCII-Varianten mit voller Breite in die entsprechenden grundlegenden lateinischen und halbbreiten Katakana-Varianten in die entsprechende Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Entfernt englische Possessive und Punkte von Akronyme. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Erstellen Sie Bigrams für häufig vorkommende Ausdrücke während der Indizierung. Einzelne Begriffe sind auch weiterhin indiziert, wobei Bigrams überlagert sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalisiert deutsche Charaktere nach den Heuristiken des deutschen Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalisiert Text in Hindi, um einige Unterschiede bei rechtschreibvarianten zu entfernen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Ein hochleistungsbasierter Kstemfilter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Entfernt Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Generiert n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Wendet normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Erstellen Sie Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Verwendet den Porterstammalgorithmus, um den Tokendatenstrom zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer

reverse

string

Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Faltet skandinavische Charaktere åÅäæÄÆ->a und öÖøØ->o. Es diskriminiert auch gegen die Verwendung von doppelten Vokalen aa, ae, ao, oe und oo, wobei nur der erste weggelassen wird. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalisiert die Verwendung der austauschbaren skandinavischen Charaktere. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Erstellt Kombinationen von Token als einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Sprachspezifischer Wortstammfilter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Entfernt Stoppwörter aus einem Tokendatenstrom. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Kürzet führende und nachfolgende Leerzeichen von Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtert Token mit demselben Text wie das vorherige Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen aus.