Indexes - Analyze

Reference

Služba:: Search Service

Verze rozhraní API:: 2024-05-01-preview

Ukazuje, jak analyzátor rozděluje text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Parametry identifikátoru URI

Name	V	Vyžadováno	Typ	Description
endpoint	path	True	string	Adresa URL koncového bodu vyhledávací služby.
indexName	path	True	string	Název indexu, pro který chcete testovat analyzátor.
api-version	query	True	string	Verze rozhraní API klienta.

Hlavička požadavku

Name	Vyžadováno	Typ	Description
x-ms-client-request-id		string uuid	ID sledování odeslané spolu s požadavkem na pomoc s laděním.

Text požadavku

Name	Vyžadováno	Typ	Description
text	True	string	Text, který se má rozdělit na tokeny.
analyzer		LexicalAnalyzerName	Název analyzátoru, který se má použít k přerušení daného textu.
charFilters		CharFilterName[]	Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu.
normalizer		LexicalNormalizerName	Název normalizátoru, který se má použít k normalizaci daného textu.
tokenFilters		TokenFilterName[]	Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu.
tokenizer		LexicalTokenizerName	Název tokenizátoru, který se má použít k přerušení daného textu.

Odpovědi

Name	Typ	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

Stavový kód:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name	Description
AnalyzedTokenInfo	Informace o tokenu vráceného analyzátorem
AnalyzeRequest	Určuje některé komponenty textu a analýzy, které slouží k rozdělení textu na tokeny.
AnalyzeResult	Výsledek testování analyzátoru na textu.
CharFilterName	Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.
ErrorAdditionalInfo	Další informace o chybě správy prostředků
ErrorDetail	Podrobnosti o chybě.
ErrorResponse	Odpověď na chybu
LexicalAnalyzerName	Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.
LexicalNormalizerName	Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.
LexicalTokenizerName	Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.
TokenFilterName	Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name	Typ	Description
endOffset	integer	Index posledního znaku tokenu ve vstupním textu.
position	integer	Umístění tokenu ve vstupním textu vzhledem k jiným tokenům. První token ve vstupním textu má pozici 0, další pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud jsou vzájemně synonymy.
startOffset	integer	Index prvního znaku tokenu ve vstupním textu.
token	string	Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé komponenty textu a analýzy, které slouží k rozdělení textu na tokeny.

Name	Typ	Description
analyzer	LexicalAnalyzerName	Název analyzátoru, který se má použít k přerušení daného textu.
charFilters	CharFilterName[]	Volitelný seznam filtrů znaků, které se mají použít při dělení daného textu.
normalizer	LexicalNormalizerName	Název normalizátoru, který se má použít k normalizaci daného textu.
text	string	Text, který se má rozdělit na tokeny.
tokenFilters	TokenFilterName[]	Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu.
tokenizer	LexicalTokenizerName	Název tokenizátoru, který se má použít k přerušení daného textu.

AnalyzeResult

Výsledek testování analyzátoru na textu.

Name	Typ	Description
tokens	AnalyzedTokenInfo[]	Seznam tokenů vrácených analyzátorem zadaným v požadavku

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name	Typ	Description
html_strip	string	Filtr znaků, který se pokouší vysunout konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name	Typ	Description
info	object	Další informace.
type	string	Typ další informace.

ErrorDetail

Podrobnosti o chybě.

Name	Typ	Description
additionalInfo	ErrorAdditionalInfo[]	Další informace o chybě
code	string	Kód chyby
details	ErrorDetail[]	Podrobnosti o chybě
message	string	Chybová zpráva
target	string	Cíl chyby.

ErrorResponse

Odpověď na chybu

Name	Typ	Description
error	ErrorDetail	Objekt chyby.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

Name	Typ	Description
ar.lucene	string	Analyzátor Lucene pro arabštinu.
ar.microsoft	string	Microsoft analyzer pro arabštinu.
bg.lucene	string	Analyzátor Lucene pro bulharštinu.
bg.microsoft	string	Microsoft analyzer pro bulharštinu.
bn.microsoft	string	Microsoft analyzer for Bangla.
ca.lucene	string	Analyzátor Lucene pro katalánštinu.
ca.microsoft	string	Microsoft analyzer pro katalánštinu.
cs.lucene	string	Analyzátor Lucene pro češtinu.
cs.microsoft	string	Microsoft analyzer pro češtinu.
da.lucene	string	Analyzátor Lucene pro dánštinu.
da.microsoft	string	Microsoft analyzer pro dánštinu.
de.lucene	string	Analyzátor Lucene pro němčinu.
de.microsoft	string	Microsoft analyzer pro němčinu.
el.lucene	string	Analyzátor Lucene pro řečtinu.
el.microsoft	string	Microsoft analyzer pro řečtinu.
en.lucene	string	Analyzátor Lucene pro angličtinu.
en.microsoft	string	Microsoft analyzer pro angličtinu.
es.lucene	string	Analyzátor Lucene pro španělštinu.
es.microsoft	string	Microsoft analyzer pro španělštinu.
et.microsoft	string	Analyzátor Microsoftu pro estonštinu.
eu.lucene	string	Analyzátor Lucene pro baskicko.
fa.lucene	string	Analyzátor Lucene pro perštinu.
fi.lucene	string	Analyzátor Lucene pro finštinu.
fi.microsoft	string	Microsoft analyzer pro finštinu.
fr.lucene	string	Analyzátor Lucene pro francouzštinu.
fr.microsoft	string	Microsoft analyzer pro francouzštinu.
ga.lucene	string	Analyzátor Lucene pro irštinu.
gl.lucene	string	Analyzátor Lucene pro Galicijštinu.
gu.microsoft	string	Microsoft analyzer for Gudžarátština.
he.microsoft	string	Microsoft analyzer pro hebrejštinu.
hi.lucene	string	Analyzátor Lucene pro hindštinu.
hi.microsoft	string	Microsoft analyzer pro hindštinu.
hr.microsoft	string	Microsoft analyzer pro chorvatštinu.
hu.lucene	string	Analyzátor Lucene pro maďarštinu.
hu.microsoft	string	Microsoft analyzer pro maďarštinu.
hy.lucene	string	Analyzátor Lucene pro arménštinu.
id.lucene	string	Analyzátor Lucene pro indonéštinu.
id.microsoft	string	Microsoft analyzer for Indonéština (Bahasa).
is.microsoft	string	Analyzátor Microsoftu pro islandštinu.
it.lucene	string	Analyzátor Lucene pro italštinu.
it.microsoft	string	Microsoft analyzer pro italštinu.
ja.lucene	string	Analyzátor Lucene pro japonštinu.
ja.microsoft	string	Microsoft analyzer pro japonštinu.
keyword	string	Zpracovává celý obsah pole jako jeden token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.
kn.microsoft	string	Microsoft analyzer for Kannada.
ko.lucene	string	Analyzátor Lucene pro korejštinu.
ko.microsoft	string	Microsoft analyzer pro korejštinu.
lt.microsoft	string	Microsoft analyzer pro litevštinu.
lv.lucene	string	Analyzátor Lucene pro lotyštinu.
lv.microsoft	string	Microsoft analyzer pro lotyštinu.
ml.microsoft	string	Microsoft analyzer for Malayalam.
mr.microsoft	string	Microsoft analyzer for Marathi.
ms.microsoft	string	Microsoft analyzer for Malajština (latinka).
nb.microsoft	string	Microsoft analyzer for Norština (Bokmål).
nl.lucene	string	Analyzátor Lucene pro nizozemštinu.
nl.microsoft	string	Microsoft analyzer pro holandštinu.
no.lucene	string	Analyzátor Lucene pro norštinu.
pa.microsoft	string	Microsoft analyzer for Punjabi.
pattern	string	Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.
pl.lucene	string	Analyzátor Lucene pro polštinu.
pl.microsoft	string	Microsoft analyzer pro polštinu.
pt-BR.lucene	string	Analyzátor Lucene pro portugalštinu (Brazílie).
pt-BR.microsoft	string	Microsoft analyzer pro portugalštinu (Brazílie).
pt-PT.lucene	string	Analyzátor Lucene pro portugalštinu (Portugalsko).
pt-PT.microsoft	string	Microsoft analyzer pro portugalštinu (Portugalsko).
ro.lucene	string	Analyzátor Lucene pro rumunštinu.
ro.microsoft	string	Microsoft analyzer pro rumunštinu.
ru.lucene	string	Analyzátor Lucene pro ruštinu.
ru.microsoft	string	Microsoft analyzer pro ruštinu.
simple	string	Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.
sk.microsoft	string	Microsoft analyzer pro slovenštinu.
sl.microsoft	string	Microsoft analyzer pro slovinštinu.
sr-cyrillic.microsoft	string	Microsoft analyzer pro srbštinu (cyrilice).
sr-latin.microsoft	string	Microsoft analyzer pro srbštinu (latinka).
standard.lucene	string	Standardní analyzátor Lucene.
standardasciifolding.lucene	string	Standardní analyzátor ASCII Folding Lucene. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.
stop	string	Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.
sv.lucene	string	Analyzátor Lucene pro švédštinu.
sv.microsoft	string	Microsoft analyzer pro švédštinu.
ta.microsoft	string	Microsoft analyzer for Tamilština.
te.microsoft	string	Microsoft analyzer for Telugu.
th.lucene	string	Analyzátor Lucene pro thajštinu.
th.microsoft	string	Microsoft analyzer pro thajštinu.
tr.lucene	string	Analyzátor Lucene pro turečtinu.
tr.microsoft	string	Microsoft analyzer pro turečtinu.
uk.microsoft	string	Microsoft analyzer for Ukrajinština.
ur.microsoft	string	Microsoft analyzer for Urdu.
vi.microsoft	string	Analyzátor microsoftu pro vietnamštinu.
whitespace	string	Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.
zh-Hans.lucene	string	Analyzátor Lucene pro čínštinu (zjednodušená).
zh-Hans.microsoft	string	Microsoft analyzer pro čínštinu (zjednodušená).
zh-Hant.lucene	string	Analyzátor Lucene pro čínštinu (tradiční).
zh-Hant.microsoft	string	Microsoft analyzer pro čínštinu (tradiční).

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.

Name	Typ	Description
asciifolding	string	Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.
elision	string	Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.
lowercase	string	Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.
standard	string	Standardní normalizátor, který se skládá z malých písmen a asciifolding. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.
uppercase	string	Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name	Typ	Description
classic	string	Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram	string	Tokenizuje vstup z hrany na n-gramů dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2	string	Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letter	string	Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
lowercase	string	Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_stemming_tokenizer	string	Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.
microsoft_language_tokenizer	string	Rozdělí text pomocí pravidel specifických pro jazyk.
nGram	string	Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2	string	Tokenizátor pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
pattern	string	Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2	string	Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email	string	Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
whitespace	string	Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name	Typ	Description
apostrophe	string	Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.
arabic_normalization	string	Filtr tokenů, který používá arabský normalizátor k normalizaci pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.
asciifolding	string	Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 ASCII znaků (blok Unicode "základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.
cjk_bigram	string	Forms bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.
cjk_width	string	Normalizuje rozdíly šířky CJK. Přeloží fullwidth varianty ASCII do ekvivalentní základní latinky a varianty Katakana s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.
classic	string	Odebere anglické přivlastňovací texty a tečky z akronymů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.
common_grams	string	Při indexování můžete vytvářet bigramy pro často se vyskytující termíny. Indexují se také jednotlivé termíny s překryvnými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.
edgeNGram_v2	string	Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.
elision	string	Odstraní elisions. Například "l'avion" (letadlo) se převede na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.
german_normalization	string	Normalizuje německé znaky podle heuristiky algoritmu snowball german2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.
hindi_normalization	string	Normalizuje text v hindštině, aby se odstranily některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.
indic_normalization	string	Normalizuje reprezentaci textu v indickém jazyce v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.
keyword_repeat	string	Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako bez klíčového slova. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.
kstem	string	Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.
length	string	Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.
limit	string	Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.
lowercase	string	Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.
nGram_v2	string	Vygeneruje n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.
persian_normalization	string	Použije normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.
phonetic	string	Create tokeny pro fonetické shody. Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.
porter_stem	string	Používá algoritmus stemmingu Porter k transformaci streamu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.
reverse	string	Vrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.
scandinavian_folding	string	Složí skandinávci åÅäæÄÆ-a> a öÖøØ-o>. Diskriminuje také použití dvojitých samohlásek aa, ae, ao, oe a oo, takže zůstane jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.
scandinavian_normalization	string	Normalizuje použití zaměnitelných severských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.
shingle	string	Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.
snowball	string	Filtr, který vytváří slova pomocí generovaného sněžnice. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.
sorani_normalization	string	Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.
stemmer	string	Filtr stemming specifický pro jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.
stopwords	string	Odebere stop slova z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.
trim	string	Oříznou úvodní a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.
truncate	string	Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.
unique	string	Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.
uppercase	string	Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.
word_delimiter	string	Rozdělí slova na podsloví a provede volitelné transformace skupin podslov.

Sdílet prostřednictvím