Classic
|
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
|
EdgeNGram
|
Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
|
Keyword
|
Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
|
Letter
|
Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
|
Lowercase
|
Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
|
MicrosoftLanguageStemmingTokenizer
|
Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.
|
MicrosoftLanguageTokenizer
|
Divide el texto mediante reglas específicas del idioma.
|
NGram
|
Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
|
PathHierarchy
|
Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
|
Pattern
|
Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
|
Standard
|
Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
|
UaxUrlEmail
|
Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
|
Whitespace
|
Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.
|