Delen via


Indexes - Analyze

Laat zien hoe een analyse tekst in tokens opbreekt.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI-parameters

Name In Vereist Type Description
endpoint
path True

string

De eindpunt-URL van de zoekservice.

indexName
path True

string

De naam van de index waarvoor een analyse moet worden getest.

api-version
query True

string

Client-API-versie.

Aanvraagkoptekst

Name Vereist Type Description
x-ms-client-request-id

string (uuid)

De tracerings-id die is verzonden met de aanvraag om hulp te bieden bij foutopsporing.

Aanvraagbody

Name Vereist Type Description
text True

string

De tekst die moet worden opgesplitst in tokens.

analyzer

LexicalAnalyzerName

De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

charFilters

CharFilterName[]

Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

tokenFilters

TokenFilterName[]

Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

tokenizer

LexicalTokenizerName

De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

Antwoorden

Name Type Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Foutreactie.

Voorbeelden

SearchServiceIndexAnalyze

Voorbeeldaanvraag

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Voorbeeldrespons

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definities

Name Description
AnalyzedTokenInfo

Informatie over een token dat wordt geretourneerd door een analyse.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.

AnalyzeResult

Het resultaat van het testen van een analyse op tekst.

CharFilterName

Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.

ErrorAdditionalInfo

Aanvullende informatie over de resourcebeheerfout.

ErrorDetail

De foutdetails.

ErrorResponse

Foutreactie

LexicalAnalyzerName

Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.

LexicalTokenizerName

Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine.

TokenFilterName

Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine.

AnalyzedTokenInfo

Informatie over een token dat wordt geretourneerd door een analyse.

Name Type Description
endOffset

integer (int32)

De index van het laatste teken van het token in de invoertekst.

position

integer (int32)

De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, de volgende heeft positie 1, enzovoort. Afhankelijk van de gebruikte analyse hebben sommige tokens mogelijk dezelfde positie, bijvoorbeeld als ze synoniemen van elkaar zijn.

startOffset

integer (int32)

De index van het eerste teken van het token in de invoertekst.

token

string

Het token dat door de analyse wordt geretourneerd.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.

Name Type Description
analyzer

LexicalAnalyzerName

De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

charFilters

CharFilterName[]

Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

text

string

De tekst die moet worden opgesplitst in tokens.

tokenFilters

TokenFilterName[]

Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt.

tokenizer

LexicalTokenizerName

De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit.

AnalyzeResult

Het resultaat van het testen van een analyse op tekst.

Name Type Description
tokens

AnalyzedTokenInfo[]

De lijst met tokens die worden geretourneerd door de analyse die is opgegeven in de aanvraag.

CharFilterName

Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.

Waarde Description
html_strip

Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Aanvullende informatie over de resourcebeheerfout.

Name Type Description
info

object

De aanvullende informatie.

type

string

Het extra informatietype.

ErrorDetail

De foutdetails.

Name Type Description
additionalInfo

ErrorAdditionalInfo[]

De fout bevat aanvullende informatie.

code

string

De foutcode.

details

ErrorDetail[]

De foutdetails.

message

string

Het foutbericht.

target

string

Het foutdoel.

ErrorResponse

Foutreactie

Name Type Description
error

ErrorDetail

Het foutobject.

LexicalAnalyzerName

Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.

Waarde Description
ar.lucene

Lucene analyzer voor Arabisch.

ar.microsoft

Microsoft Analyzer voor Arabisch.

bg.lucene

Lucene analyzer voor Bulgaars.

bg.microsoft

Microsoft Analyzer voor Bulgaars.

bn.microsoft

Microsoft Analyzer voor Bangla.

ca.lucene

Lucene analyzer voor Catalaans.

ca.microsoft

Microsoft Analyzer voor Catalaans.

cs.lucene

Lucene Analyzer voor Tsjechisch.

cs.microsoft

Microsoft Analyzer voor Tsjechisch.

da.lucene

Lucene analyzer voor Deens.

da.microsoft

Microsoft Analyzer voor Deens.

de.lucene

Lucene analyzer voor Duits.

de.microsoft

Microsoft Analyzer voor Duits.

el.lucene

Lucene analyzer voor Grieks.

el.microsoft

Microsoft Analyzer voor Grieks.

en.lucene

Lucene analyzer voor Engels.

en.microsoft

Microsoft Analyzer voor Engels.

es.lucene

Lucene analyzer voor Spaans.

es.microsoft

Microsoft Analyzer voor Spaans.

et.microsoft

Microsoft Analyzer voor Ests.

eu.lucene

Lucene analyzer voor Baskisch.

fa.lucene

Lucene analyzer voor Perzisch.

fi.lucene

Lucene analyzer voor Fins.

fi.microsoft

Microsoft Analyzer voor Fins.

fr.lucene

Lucene Analyzer voor Frans.

fr.microsoft

Microsoft Analyzer voor Frans.

ga.lucene

Lucene analyzer voor Iers.

gl.lucene

Lucene analyzer voor Galicisch.

gu.microsoft

Microsoft Analyzer voor Gujarati.

he.microsoft

Microsoft Analyzer voor Hebreeuws.

hi.lucene

Lucene Analyzer voor Hindi.

hi.microsoft

Microsoft Analyzer voor Hindi.

hr.microsoft

Microsoft Analyzer voor Kroatisch.

hu.lucene

Lucene analyzer voor Hongaars.

hu.microsoft

Microsoft Analyzer voor Hongaars.

hy.lucene

Lucene analyzer voor Armeens.

id.lucene

Lucene analyzer voor Indonesisch.

id.microsoft

Microsoft Analyzer voor Indonesisch (Bahasa).

is.microsoft

Microsoft Analyzer voor IJslands.

it.lucene

Lucene analyzer voor Italiaans.

it.microsoft

Microsoft Analyzer voor Italiaans.

ja.lucene

Lucene Analyzer voor Japans.

ja.microsoft

Microsoft Analyzer voor Japans.

keyword

Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

Microsoft Analyzer voor Kannada.

ko.lucene

Lucene analyzer voor Koreaans.

ko.microsoft

Microsoft Analyzer voor Koreaans.

lt.microsoft

Microsoft Analyzer voor Litouws.

lv.lucene

Lucene analyzer voor Letland.

lv.microsoft

Microsoft Analyzer voor Lets.

ml.microsoft

Microsoft Analyzer voor Malayalam.

mr.microsoft

Microsoft Analyzer voor Marathi.

ms.microsoft

Microsoft Analyzer voor Maleis (Latijns).

nb.microsoft

Microsoft Analyzer voor Noors (Bokmål).

nl.lucene

Lucene Analyzer voor Nederlands.

nl.microsoft

Microsoft Analyzer voor Nederlands.

no.lucene

Lucene analyzer voor Noors.

pa.microsoft

Microsoft Analyzer voor Punjabi.

pattern

Scheidt tekst flexibel in termen via een normaal expressiepatroon. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

Lucene Analyzer voor Pools.

pl.microsoft

Microsoft Analyzer voor Pools.

pt-BR.lucene

Lucene analyzer voor Portugees (Brazilië).

pt-BR.microsoft

Microsoft Analyzer voor Portugees (Brazilië).

pt-PT.lucene

Lucene analyzer voor Portugees (Portugal).

pt-PT.microsoft

Microsoft Analyzer voor Portugees (Portugal).

ro.lucene

Lucene analyzer voor Roemeens.

ro.microsoft

Microsoft Analyzer voor Roemeens.

ru.lucene

Lucene analyzer voor Russisch.

ru.microsoft

Microsoft Analyzer voor Russisch.

simple

Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

Microsoft Analyzer voor Slowaaks.

sl.microsoft

Microsoft Analyzer voor Slovenië.

sr-cyrillic.microsoft

Microsoft Analyzer voor Servisch (Cyrillisch).

sr-latin.microsoft

Microsoft Analyzer voor Servisch (Latijns).

standard.lucene

Standaard Lucene Analyzer.

standardasciifolding.lucene

Standard ASCII Folding Lucene Analyzer. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

Verdeelt tekst bij niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopworden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

Lucene analyzer voor Zweeds.

sv.microsoft

Microsoft Analyzer voor Zweeds.

ta.microsoft

Microsoft Analyzer voor Tamil.

te.microsoft

Microsoft Analyzer voor Telugu.

th.lucene

Lucene analyzer voor Thai.

th.microsoft

Microsoft Analyzer voor Thai.

tr.lucene

Lucene analyzer voor Turks.

tr.microsoft

Microsoft Analyzer voor Turks.

uk.microsoft

Microsoft Analyzer voor Oekraïens.

ur.microsoft

Microsoft Analyzer voor Urdu.

vi.microsoft

Microsoft Analyzer voor Vietnamees.

whitespace

Een analyse die gebruikmaakt van de whitespace-tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

Lucene Analyzer voor Chinees (vereenvoudigd).

zh-Hans.microsoft

Microsoft Analyzer voor Chinees (vereenvoudigd).

zh-Hant.lucene

Lucene analyzer voor Chinees (traditioneel).

zh-Hant.microsoft

Microsoft Analyzer voor Chinees (traditioneel).

LexicalTokenizerName

Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine.

Waarde Description
classic

Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Hiermee wordt de volledige invoer als één token verzonden. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Verdeelt tekst bij niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren.

microsoft_language_tokenizer

Verdeelt tekst met taalspecifieke regels.

nGram

Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standaard Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Hiermee worden URL's en e-mailberichten als één token gewijzigd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Verdeelt tekst op witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine.

Waarde Description
apostrophe

Stript alle tekens na een apostrof (inclusief de apostrof zelf). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

Een tokenfilter waarmee de Arabische normalisatiefunctie wordt toegepast om de orthografie te normaliseren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

Converteert alfabetische, numerieke en symbolische Unicode-tekens die zich niet in de eerste 127 ASCII-tekens (het Unicode-blok Basis latijns) bevinden in hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Vormt bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normaliseert CJK-breedteverschillen. Hiermee vouwt u volledige ASCII-varianten in het equivalente Latijnse basis en katakana-varianten met halve breedte in het equivalente Kana. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Verwijdert Engelse bezitwoorden en stippen uit acroniemen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Bouw bigrams voor veelgebruikte termen tijdens het indexeren. Ook enkele termen worden nog steeds geïndexeerd, waarbij bigrams over elkaar heen worden weergegeven. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Hiermee genereert u n-grammen van de opgegeven grootte(s) vanaf de voor- of achterkant van een invoertoken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Verwijdert elisions. "l'avion" (het vliegtuig) wordt bijvoorbeeld geconverteerd naar "avion" (vliegtuig). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normaliseert Duitse tekens volgens de heuristiek van het Duitse 2-sneeuwbalalgoritme. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normaliseert tekst in Hindi om enkele verschillen in spellingvariaties te verwijderen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normaliseert de Unicode-weergave van tekst in Indiase talen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Elke binnenkomende token wordt twee keer verzonden, één keer als trefwoord en eenmaal als niet-trefwoord. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Een kstemfilter met hoge prestaties voor Engels. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Hiermee verwijdert u woorden die te lang of te kort zijn. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Beperkt het aantal tokens tijdens het indexeren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Hiermee normaliseert u tokentekst naar kleine letters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Hiermee worden n-grammen van de opgegeven grootte(n) gegenereerd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Past normalisatie toe voor Perzisch. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Tokens maken voor fonetische overeenkomsten. Zie https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Maakt gebruik van het portier-stemmingsalgoritmen om de tokenstroom te transformeren. Zie http://tartarus.org/~martin/PorterStemmer

reverse

Hiermee wordt de tokentekenreeks omgekeerd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

Vouwt Scandinavische tekens åÅäæÄÆ->a en öÖøØ->o. Het discrimineert ook het gebruik van dubbele klinkers aa, ae, ao, oe en oo, die alleen de eerste verlaten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

Normaliseert het gebruik van de uitwisselbare Scandinavische personages. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

Hiermee maakt u combinaties van tokens als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Een filter dat woorden stamt met behulp van een door Snowball gegenereerde stemmer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normaliseert de Unicode-weergave van Sorani-tekst. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Taalspecifiek stemmingsfilter. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Hiermee verwijdert u stopwoorden uit een tokenstroom. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Trimt voorloop- en volgspaties van tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Kapt de voorwaarden af tot een specifieke lengte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Hiermee worden tokens gefilterd met dezelfde tekst als het vorige token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normaliseert tokentekst in hoofdletters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Splitst woorden in subwoorden en voert optionele transformaties uit voor subwoordgroepen.