Classic
|
Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
|
EdgeNGram
|
Tokenizuje vstup z hrany na n-gramů dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
|
Keyword
|
Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
|
Letter
|
Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
|
Lowercase
|
Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
|
MicrosoftLanguageStemmingTokenizer
|
Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.
|
MicrosoftLanguageTokenizer
|
Rozdělí text pomocí pravidel specifických pro jazyk.
|
NGram
|
Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
|
PathHierarchy
|
Tokenizátor pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
|
Pattern
|
Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
|
Standard
|
Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
|
UaxUrlEmail
|
Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
|
Whitespace
|
Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.
|