Indexes - Analyze
Visar hur en analysator delar upp text i token.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
URI-parametrar
Name | I | Obligatorisk | Typ | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Slutpunkts-URL:en för söktjänsten. |
index
|
path | True |
string |
Namnet på indexet för vilket en analysator ska testas. |
api-version
|
query | True |
string |
Klient-API-version. |
Begärandehuvud
Name | Obligatorisk | Typ | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning. |
Begärandetext
Name | Obligatorisk | Typ | Description |
---|---|---|---|
text | True |
string |
Texten som ska delas in i token. |
analyzer |
Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande. |
||
charFilters |
En valfri lista med teckenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer. |
||
tokenFilters |
En valfri lista över tokenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer. |
||
tokenizer |
Namnet på tokenizern som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en analysator i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande. |
Svar
Name | Typ | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Felsvar. |
Exempel
SearchServiceIndexAnalyze
Exempelbegäran
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Exempelsvar
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definitioner
Name | Description |
---|---|
Analyzed |
Information om en token som returneras av en analysator. |
Analyze |
Anger vissa text- och analyskomponenter som används för att dela upp texten i token. |
Analyze |
Resultatet av att testa en analysator på text. |
Char |
Definierar namnen på alla teckenfilter som stöds av sökmotorn. |
Error |
Ytterligare information om resurshanteringsfelet. |
Error |
Felinformationen. |
Error |
Felsvar |
Lexical |
Definierar namnen på alla textanalysverktyg som stöds av sökmotorn. |
Lexical |
Definierar namnen på alla tokenizers som stöds av sökmotorn. |
Token |
Definierar namnen på alla tokenfilter som stöds av sökmotorn. |
AnalyzedTokenInfo
Information om en token som returneras av en analysator.
Name | Typ | Description |
---|---|---|
endOffset |
integer |
Indexet för tokens sista tecken i indatatexten. |
position |
integer |
Tokens position i indatatexten i förhållande till andra token. Den första token i indatatexten har position 0, nästa har position 1 och så vidare. Beroende på vilken analysator som används kan vissa token ha samma position, till exempel om de är synonymer till varandra. |
startOffset |
integer |
Indexet för tokens första tecken i indatatexten. |
token |
string |
Token som returneras av analysatorn. |
AnalyzeRequest
Anger vissa text- och analyskomponenter som används för att dela upp texten i token.
Name | Typ | Description |
---|---|---|
analyzer |
Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande. |
|
charFilters |
En valfri lista med teckenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer. |
|
text |
string |
Texten som ska delas in i token. |
tokenFilters |
En valfri lista över tokenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer. |
|
tokenizer |
Namnet på tokenizern som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en analysator i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande. |
AnalyzeResult
Resultatet av att testa en analysator på text.
Name | Typ | Description |
---|---|---|
tokens |
Listan över token som returneras av analysatorn som anges i begäran. |
CharFilterName
Definierar namnen på alla teckenfilter som stöds av sökmotorn.
Name | Typ | Description |
---|---|---|
html_strip |
string |
Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Ytterligare information om resurshanteringsfelet.
Name | Typ | Description |
---|---|---|
info |
object |
Ytterligare information. |
type |
string |
Ytterligare informationstyp. |
ErrorDetail
Felinformationen.
Name | Typ | Description |
---|---|---|
additionalInfo |
Ytterligare information om felet. |
|
code |
string |
Felkoden. |
details |
Felinformationen. |
|
message |
string |
Felmeddelandet. |
target |
string |
Felmålet. |
ErrorResponse
Felsvar
Name | Typ | Description |
---|---|---|
error |
Felobjektet. |
LexicalAnalyzerName
Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.
Name | Typ | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer för arabiska. |
ar.microsoft |
string |
Microsoft Analyzer för arabiska. |
bg.lucene |
string |
Lucene analyzer för bulgariska. |
bg.microsoft |
string |
Microsoft Analyzer för Bulgariska. |
bn.microsoft |
string |
Microsoft Analyzer för Bangla. |
ca.lucene |
string |
Lucene analyzer för katalanska. |
ca.microsoft |
string |
Microsoft Analyzer för Katalanska. |
cs.lucene |
string |
Lucene analyzer för tjeckiska. |
cs.microsoft |
string |
Microsoft Analyzer för Tjeckiska. |
da.lucene |
string |
Lucene analyzer för danska. |
da.microsoft |
string |
Microsoft Analyzer för danska. |
de.lucene |
string |
Lucene analyzer för tyska. |
de.microsoft |
string |
Microsoft Analyzer för tyska. |
el.lucene |
string |
Lucene analyzer för grekiska. |
el.microsoft |
string |
Microsoft Analyzer för grekiska. |
en.lucene |
string |
Lucene analyzer för engelska. |
en.microsoft |
string |
Microsoft Analyzer för engelska. |
es.lucene |
string |
Lucene analyzer för spanska. |
es.microsoft |
string |
Microsoft Analyzer för spanska. |
et.microsoft |
string |
Microsoft Analyzer för estniska. |
eu.lucene |
string |
Lucene analyzer för baskiska. |
fa.lucene |
string |
Lucene analyzer för persiska. |
fi.lucene |
string |
Lucene analyzer för finska. |
fi.microsoft |
string |
Microsoft Analyzer för finska. |
fr.lucene |
string |
Lucene analyzer för franska. |
fr.microsoft |
string |
Microsoft Analyzer för franska. |
ga.lucene |
string |
Lucene analyzer för iriska. |
gl.lucene |
string |
Lucene analyzer för Galician. |
gu.microsoft |
string |
Microsoft Analyzer för Gujarati. |
he.microsoft |
string |
Microsoft Analyzer för hebreiska. |
hi.lucene |
string |
Lucene analyzer för Hindi. |
hi.microsoft |
string |
Microsoft Analyzer för Hindi. |
hr.microsoft |
string |
Microsoft Analyzer för kroatiska. |
hu.lucene |
string |
Lucene analyzer för ungerska. |
hu.microsoft |
string |
Microsoft Analyzer för Ungerska. |
hy.lucene |
string |
Lucene analyzer för armeniska. |
id.lucene |
string |
Lucene analyzer för indonesiska. |
id.microsoft |
string |
Microsoft analyzer for Indonesian (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer för isländska. |
it.lucene |
string |
Lucene analyzer för italienska. |
it.microsoft |
string |
Microsoft Analyzer för italienska. |
ja.lucene |
string |
Lucene analyzer för japanska. |
ja.microsoft |
string |
Microsoft Analyzer för japanska. |
keyword |
string |
Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer för Kannada. |
ko.lucene |
string |
Lucene analyzer för koreanska. |
ko.microsoft |
string |
Microsoft Analyzer för Koreanska. |
lt.microsoft |
string |
Microsoft Analyzer för litauiska. |
lv.lucene |
string |
Lucene analyzer för lettiska. |
lv.microsoft |
string |
Microsoft Analyzer för lettiska. |
ml.microsoft |
string |
Microsoft Analyzer för Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer för Marathi. |
ms.microsoft |
string |
Microsoft analyzer for Malay (latinsk). |
nb.microsoft |
string |
Microsoft analyzer for Norwegian (Bokmål). |
nl.lucene |
string |
Lucene analyzer för nederländska. |
nl.microsoft |
string |
Microsoft Analyzer för nederländska. |
no.lucene |
string |
Lucene analyzer för norska. |
pa.microsoft |
string |
Microsoft Analyzer för Punjabi. |
pattern |
string |
Flexibelt separerar text i termer via ett reguljärt uttrycksmönster. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer för polska. |
pl.microsoft |
string |
Microsoft Analyzer för Polska. |
pt-BR.lucene |
string |
Lucene analyzer för portugisiska (Brasilien). |
pt-BR.microsoft |
string |
Microsoft Analyzer för Portugisiska (Brasilien). |
pt-PT.lucene |
string |
Lucene analyzer för portugisiska (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer för Portugisiska (Portugal). |
ro.lucene |
string |
Lucene analyzer för rumänska. |
ro.microsoft |
string |
Microsoft Analyzer för Rumänska. |
ru.lucene |
string |
Lucene analyzer för ryska. |
ru.microsoft |
string |
Microsoft Analyzer för ryska. |
simple |
string |
Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer för slovakiska. |
sl.microsoft |
string |
Microsoft Analyzer för slovenska. |
sr-cyrillic.microsoft |
string |
Microsoft analyzer for Serbiska (kyrillisk). |
sr-latin.microsoft |
string |
Microsoft analyzer för serbiska (latinsk). |
standard.lucene |
string |
Standard Lucene analyzer. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene analyzer. Se https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Delar upp text med icke-bokstäver; Tillämpar filter för gemener och stoppordstoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer för svenska. |
sv.microsoft |
string |
Microsoft Analyzer för svenska. |
ta.microsoft |
string |
Microsoft analyzer for Tamil. |
te.microsoft |
string |
Microsoft Analyzer för Telugu. |
th.lucene |
string |
Lucene analyzer för Thai. |
th.microsoft |
string |
Microsoft Analyzer för Thai. |
tr.lucene |
string |
Lucene analyzer för turkiska. |
tr.microsoft |
string |
Microsoft Analyzer för turkiska. |
uk.microsoft |
string |
Microsoft Analyzer för Ukrainska. |
ur.microsoft |
string |
Microsoft Analyzer för Urdu. |
vi.microsoft |
string |
Microsoft Analyzer för vietnamesiska. |
whitespace |
string |
En analysator som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene analyzer för kinesiska (förenklad). |
zh-Hans.microsoft |
string |
Microsoft Analyzer för kinesiska (förenklad). |
zh-Hant.lucene |
string |
Lucene analyzer för kinesiska (traditionell). |
zh-Hant.microsoft |
string |
Microsoft Analyzer för kinesiska (traditionell). |
LexicalTokenizerName
Definierar namnen på alla tokenizers som stöds av sökmotorn.
TokenFilterName
Definierar namnen på alla tokenfilter som stöds av sökmotorn.