Indexes - Analyze
Laat zien hoe een analyse tekst in tokens opbreekt.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
URI-parameters
Name | In | Vereist | Type | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
De eindpunt-URL van de zoekservice. |
index
|
path | True |
string |
De naam van de index waarvoor een analyse moet worden getest. |
api-version
|
query | True |
string |
Client-API-versie. |
Aanvraagkoptekst
Name | Vereist | Type | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
De tracerings-id die is verzonden met de aanvraag om hulp te bieden bij foutopsporing. |
Aanvraagbody
Name | Vereist | Type | Description |
---|---|---|---|
text | True |
string |
De tekst die moet worden opgesplitst in tokens. |
analyzer |
De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit. |
||
charFilters |
Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt. |
||
tokenFilters |
Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt. |
||
tokenizer |
De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit. |
Antwoorden
Name | Type | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Foutreactie. |
Voorbeelden
SearchServiceIndexAnalyze
Voorbeeldaanvraag
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Voorbeeldrespons
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definities
Name | Description |
---|---|
Analyzed |
Informatie over een token dat wordt geretourneerd door een analyse. |
Analyze |
Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens. |
Analyze |
Het resultaat van het testen van een analyse op tekst. |
Char |
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine. |
Error |
Aanvullende informatie over de resourcebeheerfout. |
Error |
De foutdetails. |
Error |
Foutreactie |
Lexical |
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine. |
Lexical |
Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine. |
Token |
Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine. |
AnalyzedTokenInfo
Informatie over een token dat wordt geretourneerd door een analyse.
Name | Type | Description |
---|---|---|
endOffset |
integer |
De index van het laatste teken van het token in de invoertekst. |
position |
integer |
De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, de volgende heeft positie 1, enzovoort. Afhankelijk van de gebruikte analyse hebben sommige tokens mogelijk dezelfde positie, bijvoorbeeld als ze synoniemen van elkaar zijn. |
startOffset |
integer |
De index van het eerste teken van het token in de invoertekst. |
token |
string |
Het token dat door de analyse wordt geretourneerd. |
AnalyzeRequest
Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.
Name | Type | Description |
---|---|---|
analyzer |
De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit. |
|
charFilters |
Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt. |
|
text |
string |
De tekst die moet worden opgesplitst in tokens. |
tokenFilters |
Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de tokenizer-parameter gebruikt. |
|
tokenizer |
De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De tokenizer- en analyseparameters sluiten elkaar wederzijds uit. |
AnalyzeResult
Het resultaat van het testen van een analyse op tekst.
Name | Type | Description |
---|---|---|
tokens |
De lijst met tokens die worden geretourneerd door de analyse die is opgegeven in de aanvraag. |
CharFilterName
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
html_strip |
string |
Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Aanvullende informatie over de resourcebeheerfout.
Name | Type | Description |
---|---|---|
info |
object |
De aanvullende informatie. |
type |
string |
Het extra informatietype. |
ErrorDetail
De foutdetails.
Name | Type | Description |
---|---|---|
additionalInfo |
De fout bevat aanvullende informatie. |
|
code |
string |
De foutcode. |
details |
De foutdetails. |
|
message |
string |
Het foutbericht. |
target |
string |
Het foutdoel. |
ErrorResponse
Foutreactie
Name | Type | Description |
---|---|---|
error |
Het foutobject. |
LexicalAnalyzerName
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer voor Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer voor Arabisch. |
bg.lucene |
string |
Lucene analyzer voor Bulgaars. |
bg.microsoft |
string |
Microsoft Analyzer voor Bulgaars. |
bn.microsoft |
string |
Microsoft Analyzer voor Bangla. |
ca.lucene |
string |
Lucene analyzer voor Catalaans. |
ca.microsoft |
string |
Microsoft Analyzer voor Catalaans. |
cs.lucene |
string |
Lucene Analyzer voor Tsjechisch. |
cs.microsoft |
string |
Microsoft Analyzer voor Tsjechisch. |
da.lucene |
string |
Lucene analyzer voor Deens. |
da.microsoft |
string |
Microsoft Analyzer voor Deens. |
de.lucene |
string |
Lucene analyzer voor Duits. |
de.microsoft |
string |
Microsoft Analyzer voor Duits. |
el.lucene |
string |
Lucene analyzer voor Grieks. |
el.microsoft |
string |
Microsoft Analyzer voor Grieks. |
en.lucene |
string |
Lucene analyzer voor Engels. |
en.microsoft |
string |
Microsoft Analyzer voor Engels. |
es.lucene |
string |
Lucene analyzer voor Spaans. |
es.microsoft |
string |
Microsoft Analyzer voor Spaans. |
et.microsoft |
string |
Microsoft Analyzer voor Ests. |
eu.lucene |
string |
Lucene analyzer voor Baskisch. |
fa.lucene |
string |
Lucene analyzer voor Perzisch. |
fi.lucene |
string |
Lucene analyzer voor Fins. |
fi.microsoft |
string |
Microsoft Analyzer voor Fins. |
fr.lucene |
string |
Lucene Analyzer voor Frans. |
fr.microsoft |
string |
Microsoft Analyzer voor Frans. |
ga.lucene |
string |
Lucene analyzer voor Iers. |
gl.lucene |
string |
Lucene analyzer voor Galicisch. |
gu.microsoft |
string |
Microsoft Analyzer voor Gujarati. |
he.microsoft |
string |
Microsoft Analyzer voor Hebreeuws. |
hi.lucene |
string |
Lucene Analyzer voor Hindi. |
hi.microsoft |
string |
Microsoft Analyzer voor Hindi. |
hr.microsoft |
string |
Microsoft Analyzer voor Kroatisch. |
hu.lucene |
string |
Lucene analyzer voor Hongaars. |
hu.microsoft |
string |
Microsoft Analyzer voor Hongaars. |
hy.lucene |
string |
Lucene analyzer voor Armeens. |
id.lucene |
string |
Lucene analyzer voor Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer voor Indonesisch (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer voor IJslands. |
it.lucene |
string |
Lucene analyzer voor Italiaans. |
it.microsoft |
string |
Microsoft Analyzer voor Italiaans. |
ja.lucene |
string |
Lucene Analyzer voor Japans. |
ja.microsoft |
string |
Microsoft Analyzer voor Japans. |
keyword |
string |
Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer voor Kannada. |
ko.lucene |
string |
Lucene analyzer voor Koreaans. |
ko.microsoft |
string |
Microsoft Analyzer voor Koreaans. |
lt.microsoft |
string |
Microsoft Analyzer voor Litouws. |
lv.lucene |
string |
Lucene analyzer voor Letland. |
lv.microsoft |
string |
Microsoft Analyzer voor Lets. |
ml.microsoft |
string |
Microsoft Analyzer voor Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer voor Marathi. |
ms.microsoft |
string |
Microsoft Analyzer voor Maleis (Latijns). |
nb.microsoft |
string |
Microsoft Analyzer voor Noors (Bokmål). |
nl.lucene |
string |
Lucene Analyzer voor Nederlands. |
nl.microsoft |
string |
Microsoft Analyzer voor Nederlands. |
no.lucene |
string |
Lucene analyzer voor Noors. |
pa.microsoft |
string |
Microsoft Analyzer voor Punjabi. |
pattern |
string |
Scheidt tekst flexibel in termen via een normaal expressiepatroon. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene Analyzer voor Pools. |
pl.microsoft |
string |
Microsoft Analyzer voor Pools. |
pt-BR.lucene |
string |
Lucene analyzer voor Portugees (Brazilië). |
pt-BR.microsoft |
string |
Microsoft Analyzer voor Portugees (Brazilië). |
pt-PT.lucene |
string |
Lucene analyzer voor Portugees (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer voor Portugees (Portugal). |
ro.lucene |
string |
Lucene analyzer voor Roemeens. |
ro.microsoft |
string |
Microsoft Analyzer voor Roemeens. |
ru.lucene |
string |
Lucene analyzer voor Russisch. |
ru.microsoft |
string |
Microsoft Analyzer voor Russisch. |
simple |
string |
Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer voor Slowaaks. |
sl.microsoft |
string |
Microsoft Analyzer voor Slovenië. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer voor Servisch (Cyrillisch). |
sr-latin.microsoft |
string |
Microsoft Analyzer voor Servisch (Latijns). |
standard.lucene |
string |
Standaard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene Analyzer. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Verdeelt tekst bij niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopworden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer voor Zweeds. |
sv.microsoft |
string |
Microsoft Analyzer voor Zweeds. |
ta.microsoft |
string |
Microsoft Analyzer voor Tamil. |
te.microsoft |
string |
Microsoft Analyzer voor Telugu. |
th.lucene |
string |
Lucene analyzer voor Thai. |
th.microsoft |
string |
Microsoft Analyzer voor Thai. |
tr.lucene |
string |
Lucene analyzer voor Turks. |
tr.microsoft |
string |
Microsoft Analyzer voor Turks. |
uk.microsoft |
string |
Microsoft Analyzer voor Oekraïens. |
ur.microsoft |
string |
Microsoft Analyzer voor Urdu. |
vi.microsoft |
string |
Microsoft Analyzer voor Vietnamees. |
whitespace |
string |
Een analyse die gebruikmaakt van de whitespace-tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene Analyzer voor Chinees (vereenvoudigd). |
zh-Hans.microsoft |
string |
Microsoft Analyzer voor Chinees (vereenvoudigd). |
zh-Hant.lucene |
string |
Lucene analyzer voor Chinees (traditioneel). |
zh-Hant.microsoft |
string |
Microsoft Analyzer voor Chinees (traditioneel). |
LexicalTokenizerName
Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
classic |
string |
Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Hiermee wordt de volledige invoer als één token verzonden. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Verdeelt tekst bij niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren. |
microsoft_language_tokenizer |
string |
Verdeelt tekst met taalspecifieke regels. |
nGram |
string |
Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standaard Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Hiermee worden URL's en e-mailberichten als één token gewijzigd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Verdeelt tekst op witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine.