Classic
|
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
|
EdgeNGram
|
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
|
Keyword
|
Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
|
Letter
|
Dividiert Text in Nichtbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
|
Lowercase
|
Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
|
MicrosoftLanguageStemmingTokenizer
|
Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare.
|
MicrosoftLanguageTokenizer
|
Dividiert Text mithilfe sprachspezifischer Regeln.
|
NGram
|
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
|
PathHierarchy
|
Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
|
Pattern
|
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
|
Standard
|
Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
|
UaxUrlEmail
|
Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
|
Whitespace
|
Dividiert Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html
|