Udostępnij za pośrednictwem


Indexes - Analyze

Pokazuje, jak analizator dzieli tekst na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Adres URL punktu końcowego usługi wyszukiwania.

indexName
path True

string

Nazwa indeksu, dla którego należy przetestować analizator.

api-version
query True

string

Wersja interfejsu API klienta.

Nagłówek żądania

Nazwa Wymagane Typ Opis
x-ms-client-request-id

string (uuid)

Identyfikator śledzenia wysłany z żądaniem, aby ułatwić debugowanie.

Treść żądania

Nazwa Wymagane Typ Opis
text True

string

Tekst do podziału na tokeny.

analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

Odpowiedzi

Nazwa Typ Opis
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Odpowiedź na błąd.

Przykłady

SearchServiceIndexAnalyze

Przykładowe żądanie

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Przykładowa odpowiedź

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definicje

Nazwa Opis
AnalyzedTokenInfo

Informacje o tokenie zwróconym przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

AnalyzeResult

Wynik testowania analizatora tekstu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

ErrorDetail

Szczegóły błędu.

ErrorResponse

Odpowiedź na błąd

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

AnalyzedTokenInfo

Informacje o tokenie zwróconym przez analizator.

Nazwa Typ Opis
endOffset

integer (int32)

Indeks ostatniego znaku tokenu w tekście wejściowym.

position

integer (int32)

Pozycja tokenu w tekście wejściowym względem innych tokenów. Pierwszy token w tekście wejściowym ma pozycję 0, następny ma pozycję 1 itd. W zależności od używanego analizatora niektóre tokeny mogą mieć taką samą pozycję, na przykład jeśli są synonimami siebie nawzajem.

startOffset

integer (int32)

Indeks pierwszego znaku tokenu w tekście wejściowym.

token

string

Token zwrócony przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

Nazwa Typ Opis
analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

text

string

Tekst do podziału na tokeny.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

AnalyzeResult

Wynik testowania analizatora tekstu.

Nazwa Typ Opis
tokens

AnalyzedTokenInfo[]

Lista tokenów zwracanych przez analizator określony w żądaniu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

Wartość Opis
html_strip

Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

Nazwa Typ Opis
info

object

Dodatkowe informacje.

type

string

Dodatkowy typ informacji.

ErrorDetail

Szczegóły błędu.

Nazwa Typ Opis
additionalInfo

ErrorAdditionalInfo[]

Dodatkowe informacje o błędzie.

code

string

Kod błędu.

details

ErrorDetail[]

Szczegóły błędu.

message

string

Komunikat o błędzie.

target

string

Element docelowy błędu.

ErrorResponse

Odpowiedź na błąd

Nazwa Typ Opis
error

ErrorDetail

Obiekt błędu.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

Wartość Opis
ar.lucene

Analizator Lucene dla języka arabskiego.

ar.microsoft

Analizator firmy Microsoft dla języka arabskiego.

bg.lucene

Analizator Lucene dla Bułgara.

bg.microsoft

Analizator firmy Microsoft dla języka bułgarskiego.

bn.microsoft

Analizator firmy Microsoft dla Bangla.

ca.lucene

Analizator Lucene dla Katalończyka.

ca.microsoft

Analizator firmy Microsoft dla Katalończyków.

cs.lucene

Analizator Lucene dla Czech.

cs.microsoft

Analizator firmy Microsoft dla Czech.

da.lucene

Analizator Lucene dla języka duńskiego.

da.microsoft

Analizator firmy Microsoft dla języka duńskiego.

de.lucene

Analizator Lucene dla języka niemieckiego.

de.microsoft

Analizator firmy Microsoft dla języka niemieckiego.

el.lucene

Analizator Lucene dla języka greckiego.

el.microsoft

Analizator firmy Microsoft dla języka greckiego.

en.lucene

Analizator Lucene dla języka angielskiego.

en.microsoft

Analizator firmy Microsoft dla języka angielskiego.

es.lucene

Analizator Lucene dla języka hiszpańskiego.

es.microsoft

Analizator firmy Microsoft dla języka hiszpańskiego.

et.microsoft

Analizator firmy Microsoft dla estońskiego.

eu.lucene

Analizator Lucene dla Basków.

fa.lucene

Analizator Lucene dla perskiego.

fi.lucene

Analizator Lucene dla fińskiego.

fi.microsoft

Analizator firmy Microsoft dla języka fińskiego.

fr.lucene

Analizator Lucene dla języka francuskiego.

fr.microsoft

Analizator firmy Microsoft dla języka francuskiego.

ga.lucene

Analizator Lucene dla Irlandii.

gl.lucene

Analizator Lucene dla Galicji.

gu.microsoft

Analizator firmy Microsoft dla Gujarati.

he.microsoft

Analizator firmy Microsoft dla języka hebrajskiego.

hi.lucene

Analizator Lucene dla języka hindi.

hi.microsoft

Analizator firmy Microsoft dla języka hindi.

hr.microsoft

Analizator firmy Microsoft dla chorwackiego.

hu.lucene

Analizator Lucene dla Węgier.

hu.microsoft

Analizator firmy Microsoft dla węgier.

hy.lucene

Analizator Lucene dla Ormiańskiego.

id.lucene

Analizator Lucene dla indonezyjskiego.

id.microsoft

Analizator firmy Microsoft dla indonezyjskiego (Bahasa).

is.microsoft

Analizator firmy Microsoft dla Islandii.

it.lucene

Analizator Lucene dla włocha.

it.microsoft

Analizator firmy Microsoft dla języka włoskiego.

ja.lucene

Analizator Lucene dla języka japońskiego.

ja.microsoft

Analizator firmy Microsoft dla języka japońskiego.

keyword

Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

Analizator firmy Microsoft dla kannada.

ko.lucene

Analizator Lucene dla języka koreańskiego.

ko.microsoft

Analizator firmy Microsoft dla języka koreańskiego.

lt.microsoft

Analizator firmy Microsoft dla Litewskiego.

lv.lucene

Analizator Lucene dla Łotewskiego.

lv.microsoft

Analizator firmy Microsoft dla Łotewskiego.

ml.microsoft

Microsoft analyzer for Malayalam.

mr.microsoft

Analizator firmy Microsoft dla Marathi.

ms.microsoft

Analizator firmy Microsoft dla Malay (łaciński).

nb.microsoft

Analizator firmy Microsoft dla norweskiego (Bokmål).

nl.lucene

Analizator Lucene dla Holandii.

nl.microsoft

Analizator firmy Microsoft dla holendrów.

no.lucene

Analizator Lucene dla Norweskiego.

pa.microsoft

Analizator firmy Microsoft dla Punjabi.

pattern

Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

Analizator Lucene dla polski.

pl.microsoft

Analizator firmy Microsoft dla polski.

pt-BR.lucene

Analizator Lucene dla języka portugalskiego (Brazylia).

pt-BR.microsoft

Analizator firmy Microsoft dla języka portugalskiego (Brazylia).

pt-PT.lucene

Analizator Lucene dla portugalskiego (Portugalia).

pt-PT.microsoft

Analizator firmy Microsoft dla portugalskich (Portugalia).

ro.lucene

Analizator Lucene dla rumuńskiego.

ro.microsoft

Analizator firmy Microsoft dla języka rumuńskiego.

ru.lucene

Analizator Lucene dla Rosji.

ru.microsoft

Analizator firmy Microsoft dla języka rosyjskiego.

simple

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

Analizator firmy Microsoft dla słowaków.

sl.microsoft

Analizator firmy Microsoft dla Słowenii.

sr-cyrillic.microsoft

Analizator firmy Microsoft dla serbskiego (cyrylica).

sr-latin.microsoft

Analizator firmy Microsoft dla serbskiego (łaciński).

standard.lucene

Standardowy analizator Lucene.

standardasciifolding.lucene

Standardowy analizator Lucene składania ASCII. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

Analizator Lucene dla szwedzkiego.

sv.microsoft

Analizator firmy Microsoft dla języka szwedzkiego.

ta.microsoft

Analizator firmy Microsoft dla Tamilu.

te.microsoft

Microsoft analyzer for Telugu.

th.lucene

Analizator Lucene dla języka tajskiego.

th.microsoft

Analizator firmy Microsoft dla języka tajskiego.

tr.lucene

Analizator Lucene dla języka tureckiego.

tr.microsoft

Analizator firmy Microsoft dla języka tureckiego.

uk.microsoft

Analizator firmy Microsoft dla Ukrainy.

ur.microsoft

Microsoft analyzer for Urdu.

vi.microsoft

Analizator firmy Microsoft dla wietnamskich.

whitespace

Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

Analizator Lucene dla języka chińskiego (uproszczony).

zh-Hans.microsoft

Analizator firmy Microsoft dla języka chińskiego (uproszczony).

zh-Hant.lucene

Analizator Lucene dla języka chińskiego (tradycyjny).

zh-Hant.microsoft

Analizator firmy Microsoft dla języka chińskiego (tradycyjny).

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

Wartość Opis
classic

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich podstawowych formularzy.

microsoft_language_tokenizer

Dzieli tekst przy użyciu reguł specyficznych dla języka.

nGram

Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer dla hierarchii przypominających ścieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standardowy analizator Lucene; Składa się z standardowego tokenizatora, małe litery filtru i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

Wartość Opis
apostrophe

Usuwa wszystkie znaki po apostrofie (w tym sam apostrof). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

Filtr tokenu, który stosuje arabski normalizator w celu normalizacji ortografii. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

Konwertuje znaki alfabetyczne, liczbowe i symboliczne Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (bloku Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalizuje różnice szerokości zestawu CJK. Składa warianty fullwidth ASCII do równoważnego podstawowego łacińskiego i pół szerokości Warianty Katakana w odpowiednik Kana. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Usuwa angielskie opętacze i kropki z akronimów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy są nakładane. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Generuje n-gramy danego rozmiaru, zaczynając od przodu lub z tyłu tokenu wejściowego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalizuje niemieckie znaki według heurystyki algorytmu śnieżki German2. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalizuje tekst w języku hindi, aby usunąć pewne różnice w odmianach pisowni. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalizuje reprezentację tekstu w języku indyjskim w formacie Unicode. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Emituje dwa razy każdy token przychodzący, raz jako słowo kluczowe i raz jako nie-słowo kluczowe. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Wysokowydajny filtr kstem dla języka angielskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Usuwa wyrazy, które są za długie lub za krótkie. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Ogranicza liczbę tokenów podczas indeksowania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalizuje tekst tokenu do małych liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Generuje n-gramy danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Stosuje normalizację dla perskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Tworzenie tokenów dla dopasowań fonetycznych. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Używa algorytmu macierzystego portera do przekształcania strumienia tokenu. Zobacz http://tartarus.org/~martin/PorterStemmer

reverse

Odwraca ciąg tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

Składa skandynawskie znaki åÅäæÄÆ->a i öÖøØ->o. Dyskryminuje również stosowanie podwójnych ślubów aa, ae, ao, oe i oo, pozostawiając tylko pierwszy. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

Normalizuje użycie zamiennych znaków skandynawskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

Tworzy kombinacje tokenów jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtr, który wynika ze słów przy użyciu stemmeru wygenerowanego przez Śnieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalizuje reprezentację Unicode tekstu Sorani. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtr macierzysty specyficzny dla języka. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Usuwa słowa zatrzymania ze strumienia tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Przycina wiodące i końcowe odstępy od tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Obcina terminy do określonej długości. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtruje tokeny z tym samym tekstem co poprzedni token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalizuje tekst tokenu na wielkie litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Dzieli wyrazy na subwords i wykonuje opcjonalne przekształcenia w grupach podrzędnych.