Classic
|
Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
|
EdgeNGram
|
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
|
Keyword
|
Hiermee wordt de volledige invoer als één token verzonden. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
|
Letter
|
Verdeelt tekst bij niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
|
Lowercase
|
Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
|
MicrosoftLanguageStemmingTokenizer
|
Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren.
|
MicrosoftLanguageTokenizer
|
Verdeelt tekst met taalspecifieke regels.
|
NGram
|
Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
|
PathHierarchy
|
Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
|
Pattern
|
Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
|
Standard
|
Standaard Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
|
UaxUrlEmail
|
Hiermee worden URL's en e-mailberichten als één token gewijzigd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
|
Whitespace
|
Verdeelt tekst op witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html
|