Freigeben über


Indexes - Analyze

Zeigt, wie ein Analyzer Text in Token umbricht.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string

Die Endpunkt-URL des Suchdiensts.

indexName
path True

string

Der Name des Indexes, für den ein Analyzer getestet werden soll.

api-version
query True

string

Client-API-Version.

Anforderungsheader

Name Erforderlich Typ Beschreibung
x-ms-client-request-id

string (uuid)

Die Tracking-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen.

Anforderungstext

Name Erforderlich Typ Beschreibung
text True

string

Der Text, der in Token unterteilt werden soll.

analyzer

LexicalAnalyzerName

Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenFilters

TokenFilterName[]

Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

Antworten

Name Typ Beschreibung
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Fehlerantwort.

Beispiele

SearchServiceIndexAnalyze

Beispielanforderung

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Beispiel für eine Antwort

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitionen

Name Beschreibung
AnalyzedTokenInfo

Informationen zu einem token, das von einem Analyzer zurückgegeben wird.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.

AnalyzeResult

Das Ergebnis des Tests eines Analyzers auf Text.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

ErrorDetail

Das Fehlerdetails.

ErrorResponse

Fehlerantwort

LexicalAnalyzerName

Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

AnalyzedTokenInfo

Informationen zu einem token, das von einem Analyzer zurückgegeben wird.

Name Typ Beschreibung
endOffset

integer (int32)

Der Index des letzten Zeichens des Tokens im Eingabetext.

position

integer (int32)

Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat Position 0, die nächste hat Position 1 usw. Abhängig von der verwendeten Analyse haben einige Token möglicherweise dieselbe Position, z. B. wenn sie Synonyme voneinander sind.

startOffset

integer (int32)

Der Index des ersten Zeichens des Tokens im Eingabetext.

token

string

Das vom Analyzer zurückgegebene Token.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.

Name Typ Beschreibung
analyzer

LexicalAnalyzerName

Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

text

string

Der Text, der in Token unterteilt werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

AnalyzeResult

Das Ergebnis des Tests eines Analyzers auf Text.

Name Typ Beschreibung
tokens

AnalyzedTokenInfo[]

Die Liste der Token, die von der in der Anforderung angegebenen Analyse zurückgegeben werden.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
html_strip

Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

Name Typ Beschreibung
info

object

Die zusätzlichen Informationen.

type

string

Der zusätzliche Informationstyp.

ErrorDetail

Das Fehlerdetails.

Name Typ Beschreibung
additionalInfo

ErrorAdditionalInfo[]

Die zusätzlichen Informationen des Fehlers.

code

string

Der Fehlercode.

details

ErrorDetail[]

Die Fehlerdetails.

message

string

Die Fehlermeldung.

target

string

Das Fehlerziel.

ErrorResponse

Fehlerantwort

Name Typ Beschreibung
error

ErrorDetail

Das Fehlerobjekt.

LexicalAnalyzerName

Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
ar.lucene

Lucene Analyzer für Arabisch.

ar.microsoft

Microsoft Analyzer für Arabisch.

bg.lucene

Lucene Analyzer für Bulgarisch.

bg.microsoft

Microsoft Analyzer für Bulgarisch.

bn.microsoft

Microsoft Analyzer für Bangla.

ca.lucene

Lucene Analyzer für Katalanisch.

ca.microsoft

Microsoft Analyzer für Katalanisch.

cs.lucene

Lucene Analyzer für Tschechisch.

cs.microsoft

Microsoft Analyzer für Tschechisch.

da.lucene

Lucene Analyzer für Dänisch.

da.microsoft

Microsoft Analyzer für Dänisch.

de.lucene

Lucene Analyzer für Deutsch.

de.microsoft

Microsoft Analyzer für Deutsch.

el.lucene

Lucene Analyzer für Griechisch.

el.microsoft

Microsoft Analyzer für Griechisch.

en.lucene

Lucene Analyzer für Englisch.

en.microsoft

Microsoft Analyzer für Englisch.

es.lucene

Lucene Analyzer für Spanisch.

es.microsoft

Microsoft Analyzer für Spanisch.

et.microsoft

Microsoft Analyzer für Estland.

eu.lucene

Lucene Analyzer für Baskisch.

fa.lucene

Lucene Analyzer für Persisch.

fi.lucene

Lucene Analyzer für Finnisch.

fi.microsoft

Microsoft Analyzer für Finnisch.

fr.lucene

Lucene Analyzer für Französisch.

fr.microsoft

Microsoft Analyzer für Französisch.

ga.lucene

Lucene Analyzer für Irisch.

gl.lucene

Lucene Analyzer für Galizien.

gu.microsoft

Microsoft Analyzer für Gujarati.

he.microsoft

Microsoft Analyzer für Hebräisch.

hi.lucene

Lucene Analyzer für Hindi.

hi.microsoft

Microsoft Analyzer für Hindi.

hr.microsoft

Microsoft Analyzer für Kroatisch.

hu.lucene

Lucene Analyzer für Ungarisch.

hu.microsoft

Microsoft Analyzer für Ungarisch.

hy.lucene

Lucene Analyzer für Armenier.

id.lucene

Lucene Analyzer für Indonesisch.

id.microsoft

Microsoft Analyzer für Indonesien (Bahasa).

is.microsoft

Microsoft Analyzer für Island.

it.lucene

Lucene Analyzer für Italienisch.

it.microsoft

Microsoft Analyzer für Italienisch.

ja.lucene

Lucene Analyzer für Japanisch.

ja.microsoft

Microsoft Analyzer für Japanisch.

keyword

Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

Microsoft Analyzer für Kannada.

ko.lucene

Lucene Analyzer für Koreanisch.

ko.microsoft

Microsoft Analyzer für Koreanisch.

lt.microsoft

Microsoft Analyzer für Litauisch.

lv.lucene

Lucene Analyzer für Lettisch.

lv.microsoft

Microsoft Analyzer für Lettisch.

ml.microsoft

Microsoft Analyzer für Malayalam.

mr.microsoft

Microsoft Analyzer für Marathi.

ms.microsoft

Microsoft Analyzer für Malaiisch (Lateinisch).

nb.microsoft

Microsoft Analyzer für Norwegisch (Bokmål).

nl.lucene

Lucene Analyzer für Niederländisch.

nl.microsoft

Microsoft Analyzer für Niederländisch.

no.lucene

Lucene Analyzer für Norwegisch.

pa.microsoft

Microsoft Analyzer für Punjabi.

pattern

Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

Lucene Analyzer für Polnisch.

pl.microsoft

Microsoft Analyzer für Polnisch.

pt-BR.lucene

Lucene Analyzer für Portugiesisch (Brasilien).

pt-BR.microsoft

Microsoft Analyzer für Portugiesisch (Brasilien).

pt-PT.lucene

Lucene Analyzer für Portugiesisch (Portugal).

pt-PT.microsoft

Microsoft Analyzer für Portugiesisch (Portugal).

ro.lucene

Lucene Analyzer für Rumänisch.

ro.microsoft

Microsoft Analyzer für Rumänisch.

ru.lucene

Lucene Analyzer für Russisch.

ru.microsoft

Microsoft Analyzer für Russisch.

simple

Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

Microsoft Analyzer für Slowakisch.

sl.microsoft

Microsoft Analyzer für Slowenisch.

sr-cyrillic.microsoft

Microsoft Analyzer für Serbisch (Kyrillisch).

sr-latin.microsoft

Microsoft Analyzer für Serbisch (Lateinisch).

standard.lucene

Standard Lucene Analyzer.

standardasciifolding.lucene

Standard ASCII Folding Lucene Analyzer. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

Lucene Analyzer für Schwedisch.

sv.microsoft

Microsoft Analyzer für Schwedisch.

ta.microsoft

Microsoft Analyzer für Tamil.

te.microsoft

Microsoft Analyzer für Telugu.

th.lucene

Lucene Analyzer für Thai.

th.microsoft

Microsoft Analyzer für Thailändisch.

tr.lucene

Lucene Analyzer für Türkisch.

tr.microsoft

Microsoft Analyzer für Türkisch.

uk.microsoft

Microsoft Analyzer für Ukrainisch.

ur.microsoft

Microsoft Analyzer für Urdu.

vi.microsoft

Microsoft Analyzer für Vietnamesisch.

whitespace

Ein Analyzer, der den Leerraumtokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

Lucene Analyzer für Chinesisch (vereinfacht).

zh-Hans.microsoft

Microsoft Analyzer für Chinesisch (vereinfacht).

zh-Hant.lucene

Lucene Analyzer für Chinesisch (traditionell).

zh-Hant.microsoft

Microsoft Analyzer für Chinesisch (traditionell).

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
classic

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Dividiert Text in Nichtbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare.

microsoft_language_tokenizer

Dividiert Text mithilfe sprachspezifischer Regeln.

nGram

Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Dividiert Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
apostrophe

Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs selbst). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

Ein Tokenfilter, der den arabischen Normalisierer anwendet, um die Orthografie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalisiert Unterschiede bei der CJK-Breite. Faltet Fullwidth ASCII-Varianten in die entsprechenden grundlegenden lateinischen und halbbreiten Katakana-Varianten in die entsprechende Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Entfernt englische Possessive und Punkte von Akronyme. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Erstellen Sie Bigrams für häufig vorkommende Ausdrücke während der Indizierung. Einzelne Begriffe sind auch weiterhin indiziert, wobei Bigrams überlagert sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalisiert deutsche Charaktere nach den Heuristiken des deutschen Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalisiert Text in Hindi, um einige Unterschiede bei rechtschreibvarianten zu entfernen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Ein hochleistungsbasierter Kstemfilter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Entfernt Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Generiert n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Wendet normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Erstellen Sie Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Verwendet den Porterstammalgorithmus, um den Tokendatenstrom zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer

reverse

Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

Faltet skandinavische Charaktere åÅäæÄÆ->a und öÖøØ->o. Es diskriminiert auch gegen die Verwendung von doppelten Vokalen aa, ae, ao, oe und oo, wobei nur der erste weggelassen wird. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

Normalisiert die Verwendung der austauschbaren skandinavischen Charaktere. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

Erstellt Kombinationen von Token als einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Sprachspezifischer Wortstammfilter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Entfernt Stoppwörter aus einem Tokendatenstrom. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Kürzet führende und nachfolgende Leerzeichen von Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtert Token mit demselben Text wie das vorherige Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen aus.