Freigeben über


KnownTokenizerNames enum

Bekannte Werte von LexicalTokenizerName, die der Dienst akzeptiert.

Felder

Classic

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

EdgeNGram

Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

Keyword

Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

Letter

Dividiert Text in Nichtbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

Lowercase

Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

MicrosoftLanguageStemmingTokenizer

Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare.

MicrosoftLanguageTokenizer

Dividiert Text mithilfe sprachspezifischer Regeln.

NGram

Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

PathHierarchy

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

Pattern

Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

Standard

Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

UaxUrlEmail

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

Whitespace

Dividiert Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html