Delen via


Indexes - Analyze

Laat zien hoe een analyse tekst in tokens opbreekt.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI-parameters

Name In Vereist Type Description
endpoint
path True

string

De eindpunt-URL van de zoekservice.

indexName
path True

string

De naam van de index waarvoor een analyse moet worden getest.

api-version
query True

string

Client-API-versie.

Aanvraagkoptekst

Name Vereist Type Description
x-ms-client-request-id

string

uuid

De tracerings-id die is verzonden met de aanvraag om hulp te bieden bij foutopsporing.

Aanvraagbody

Name Vereist Type Description
text True

string

De tekst die moet worden opgesplitst in tokens.

analyzer

LexicalAnalyzerName

De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

charFilters

CharFilterName[]

Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

tokenFilters

TokenFilterName[]

Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

tokenizer

LexicalTokenizerName

De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

Antwoorden

Name Type Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Foutreactie.

Voorbeelden

SearchServiceIndexAnalyze

Voorbeeldaanvraag

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Voorbeeldrespons

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definities

Name Description
AnalyzedTokenInfo

Informatie over een token dat wordt geretourneerd door een analyse.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.

AnalyzeResult

Het resultaat van het testen van een analyse op tekst.

CharFilterName

Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.

ErrorAdditionalInfo

Aanvullende informatie over de resourcebeheerfout.

ErrorDetail

De foutdetails.

ErrorResponse

Foutreactie

LexicalAnalyzerName

Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.

LexicalTokenizerName

Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine.

TokenFilterName

Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine.

AnalyzedTokenInfo

Informatie over een token dat wordt geretourneerd door een analyse.

Name Type Description
endOffset

integer

De index van het laatste teken van het token in de invoertekst.

position

integer

De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, de volgende heeft positie 1, enzovoort. Afhankelijk van de gebruikte analyse hebben sommige tokens mogelijk dezelfde positie, bijvoorbeeld als ze synoniemen van elkaar zijn.

startOffset

integer

De index van het eerste teken van het token in de invoertekst.

token

string

Het token dat door de analyse wordt geretourneerd.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.

Name Type Description
analyzer

LexicalAnalyzerName

De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

charFilters

CharFilterName[]

Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

text

string

De tekst die moet worden opgesplitst in tokens.

tokenFilters

TokenFilterName[]

Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

tokenizer

LexicalTokenizerName

De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

AnalyzeResult

Het resultaat van het testen van een analyse op tekst.

Name Type Description
tokens

AnalyzedTokenInfo[]

De lijst met tokens die worden geretourneerd door de analyse die is opgegeven in de aanvraag.

CharFilterName

Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.

Name Type Description
html_strip

string

Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Aanvullende informatie over de resourcebeheerfout.

Name Type Description
info

object

De aanvullende informatie.

type

string

Het extra informatietype.

ErrorDetail

De foutdetails.

Name Type Description
additionalInfo

ErrorAdditionalInfo[]

De fout bevat aanvullende informatie.

code

string

De foutcode.

details

ErrorDetail[]

De foutdetails.

message

string

Het foutbericht.

target

string

Het foutdoel.

ErrorResponse

Foutreactie

Name Type Description
error

ErrorDetail

Het foutobject.

LexicalAnalyzerName

Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.

Name Type Description
ar.lucene

string

Lucene analyzer voor Arabisch.

ar.microsoft

string

Microsoft Analyzer voor Arabisch.

bg.lucene

string

Lucene analyzer voor Bulgaars.

bg.microsoft

string

Microsoft Analyzer voor Bulgaars.

bn.microsoft

string

Microsoft Analyzer voor Bangla.

ca.lucene

string

Lucene analyzer voor Catalaans.

ca.microsoft

string

Microsoft Analyzer voor Catalaans.

cs.lucene

string

Lucene Analyzer voor Tsjechisch.

cs.microsoft

string

Microsoft Analyzer voor Tsjechisch.

da.lucene

string

Lucene analyzer voor Deens.

da.microsoft

string

Microsoft Analyzer voor Deens.

de.lucene

string

Lucene analyzer voor Duits.

de.microsoft

string

Microsoft Analyzer voor Duits.

el.lucene

string

Lucene analyzer voor Grieks.

el.microsoft

string

Microsoft Analyzer voor Grieks.

en.lucene

string

Lucene analyzer voor Engels.

en.microsoft

string

Microsoft Analyzer voor Engels.

es.lucene

string

Lucene analyzer voor Spaans.

es.microsoft

string

Microsoft Analyzer voor Spaans.

et.microsoft

string

Microsoft Analyzer voor Ests.

eu.lucene

string

Lucene analyzer voor Baskisch.

fa.lucene

string

Lucene analyzer voor Perzisch.

fi.lucene

string

Lucene analyzer voor Fins.

fi.microsoft

string

Microsoft Analyzer voor Fins.

fr.lucene

string

Lucene Analyzer voor Frans.

fr.microsoft

string

Microsoft Analyzer voor Frans.

ga.lucene

string

Lucene analyzer voor Iers.

gl.lucene

string

Lucene analyzer voor Galicisch.

gu.microsoft

string

Microsoft Analyzer voor Gujarati.

he.microsoft

string

Microsoft Analyzer voor Hebreeuws.

hi.lucene

string

Lucene Analyzer voor Hindi.

hi.microsoft

string

Microsoft Analyzer voor Hindi.

hr.microsoft

string

Microsoft Analyzer voor Kroatisch.

hu.lucene

string

Lucene analyzer voor Hongaars.

hu.microsoft

string

Microsoft Analyzer voor Hongaars.

hy.lucene

string

Lucene analyzer voor Armeens.

id.lucene

string

Lucene analyzer voor Indonesisch.

id.microsoft

string

Microsoft Analyzer voor Indonesisch (Bahasa).

is.microsoft

string

Microsoft Analyzer voor IJslands.

it.lucene

string

Lucene analyzer voor Italiaans.

it.microsoft

string

Microsoft Analyzer voor Italiaans.

ja.lucene

string

Lucene Analyzer voor Japans.

ja.microsoft

string

Microsoft Analyzer voor Japans.

keyword

string

Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft Analyzer voor Kannada.

ko.lucene

string

Lucene analyzer voor Koreaans.

ko.microsoft

string

Microsoft Analyzer voor Koreaans.

lt.microsoft

string

Microsoft Analyzer voor Litouws.

lv.lucene

string

Lucene analyzer voor Letland.

lv.microsoft

string

Microsoft Analyzer voor Lets.

ml.microsoft

string

Microsoft Analyzer voor Malayalam.

mr.microsoft

string

Microsoft Analyzer voor Marathi.

ms.microsoft

string

Microsoft Analyzer voor Maleis (Latijns).

nb.microsoft

string

Microsoft Analyzer voor Noors (Bokmål).

nl.lucene

string

Lucene Analyzer voor Nederlands.

nl.microsoft

string

Microsoft Analyzer voor Nederlands.

no.lucene

string

Lucene analyzer voor Noors.

pa.microsoft

string

Microsoft Analyzer voor Punjabi.

pattern

string

Scheidt tekst flexibel in termen via een normaal expressiepatroon. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene Analyzer voor Pools.

pl.microsoft

string

Microsoft Analyzer voor Pools.

pt-BR.lucene

string

Lucene analyzer voor Portugees (Brazilië).

pt-BR.microsoft

string

Microsoft Analyzer voor Portugees (Brazilië).

pt-PT.lucene

string

Lucene analyzer voor Portugees (Portugal).

pt-PT.microsoft

string

Microsoft Analyzer voor Portugees (Portugal).

ro.lucene

string

Lucene analyzer voor Roemeens.

ro.microsoft

string

Microsoft Analyzer voor Roemeens.

ru.lucene

string

Lucene analyzer voor Russisch.

ru.microsoft

string

Microsoft Analyzer voor Russisch.

simple

string

Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer voor Slowaaks.

sl.microsoft

string

Microsoft Analyzer voor Slovenië.

sr-cyrillic.microsoft

string

Microsoft Analyzer voor Servisch (Cyrillisch).

sr-latin.microsoft

string

Microsoft Analyzer voor Servisch (Latijns).

standard.lucene

string

Standaard Lucene Analyzer.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene Analyzer. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Verdeelt tekst bij niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopworden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer voor Zweeds.

sv.microsoft

string

Microsoft Analyzer voor Zweeds.

ta.microsoft

string

Microsoft Analyzer voor Tamil.

te.microsoft

string

Microsoft Analyzer voor Telugu.

th.lucene

string

Lucene analyzer voor Thai.

th.microsoft

string

Microsoft Analyzer voor Thai.

tr.lucene

string

Lucene analyzer voor Turks.

tr.microsoft

string

Microsoft Analyzer voor Turks.

uk.microsoft

string

Microsoft Analyzer voor Oekraïens.

ur.microsoft

string

Microsoft Analyzer voor Urdu.

vi.microsoft

string

Microsoft Analyzer voor Vietnamees.

whitespace

string

Een analyse die gebruikmaakt van de whitespace-tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Lucene Analyzer voor Chinees (vereenvoudigd).

zh-Hans.microsoft

string

Microsoft Analyzer voor Chinees (vereenvoudigd).

zh-Hant.lucene

string

Lucene analyzer voor Chinees (traditioneel).

zh-Hant.microsoft

string

Microsoft Analyzer voor Chinees (traditioneel).

LexicalTokenizerName

Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine.

Name Type Description
classic

string

Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Hiermee wordt de volledige invoer als één token verzonden. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Verdeelt tekst bij niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren.

microsoft_language_tokenizer

string

Verdeelt tekst met taalspecifieke regels.

nGram

string

Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standaard Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Hiermee worden URL's en e-mailberichten als één token gewijzigd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Verdeelt tekst op witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine.

Name Type Description
apostrophe

string

Stript alle tekens na een apostrof (inclusief de apostrof zelf). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Een tokenfilter waarmee de Arabische normalisatiefunctie wordt toegepast om de orthografie te normaliseren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converteert alfabetische, numerieke en symbolische Unicode-tekens die zich niet in de eerste 127 ASCII-tekens (het Unicode-blok Basis latijns) bevinden in hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Vormt bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliseert CJK-breedteverschillen. Hiermee vouwt u volledige ASCII-varianten in het equivalente Latijnse basis en katakana-varianten met halve breedte in het equivalente Kana. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Verwijdert Engelse bezitwoorden en stippen uit acroniemen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Bouw bigrams voor veelgebruikte termen tijdens het indexeren. Ook enkele termen worden nog steeds geïndexeerd, waarbij bigrams over elkaar heen worden weergegeven. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Hiermee genereert u n-grammen van de opgegeven grootte(s) vanaf de voor- of achterkant van een invoertoken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Verwijdert elisions. "l'avion" (het vliegtuig) wordt bijvoorbeeld geconverteerd naar "avion" (vliegtuig). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliseert Duitse tekens volgens de heuristiek van het Duitse 2-sneeuwbalalgoritme. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliseert tekst in Hindi om enkele verschillen in spellingvariaties te verwijderen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliseert de Unicode-weergave van tekst in Indiase talen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Elke binnenkomende token wordt twee keer verzonden, één keer als trefwoord en eenmaal als niet-trefwoord. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Een kstemfilter met hoge prestaties voor Engels. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Hiermee verwijdert u woorden die te lang of te kort zijn. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Beperkt het aantal tokens tijdens het indexeren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Hiermee normaliseert u tokentekst naar kleine letters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Hiermee worden n-grammen van de opgegeven grootte(n) gegenereerd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Past normalisatie toe voor Perzisch. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Tokens maken voor fonetische overeenkomsten. Zie https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Maakt gebruik van het portier-stemmingsalgoritmen om de tokenstroom te transformeren. Zie http://tartarus.org/~martin/PorterStemmer

reverse

string

Hiermee wordt de tokentekenreeks omgekeerd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Vouwt Scandinavische tekens åÅäæÄÆ->a en öÖøØ->o. Het discrimineert ook het gebruik van dubbele klinkers aa, ae, ao, oe en oo, die alleen de eerste verlaten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliseert het gebruik van de uitwisselbare Scandinavische personages. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Hiermee maakt u combinaties van tokens als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Een filter dat woorden stamt met behulp van een door Snowball gegenereerde stemmer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliseert de Unicode-weergave van Sorani-tekst. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Taalspecifiek stemmingsfilter. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Hiermee verwijdert u stopwoorden uit een tokenstroom. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Trimt voorloop- en volgspaties van tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Kapt de voorwaarden af tot een specifieke lengte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Hiermee worden tokens gefilterd met dezelfde tekst als het vorige token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliseert tokentekst in hoofdletters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Splitst woorden in subwoorden en voert optionele transformaties uit voor subwoordgroepen.