Indexes - Analyze
Ukazuje, jak analyzátor rozděluje text na tokeny.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview
Parametry identifikátoru URI
Name | V | Vyžadováno | Typ | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adresa URL koncového bodu vyhledávací služby. |
index
|
path | True |
string |
Název indexu, pro který chcete testovat analyzátor. |
api-version
|
query | True |
string |
Verze rozhraní API klienta. |
Hlavička požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID sledování odeslané spolu s požadavkem na pomoc s laděním. |
Text požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
text | True |
string |
Text, který se má rozdělit na tokeny. |
analyzer |
Název analyzátoru, který se má použít k přerušení daného textu. |
||
charFilters |
Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. |
||
normalizer |
Název normalizátoru, který se má použít k normalizaci daného textu. |
||
tokenFilters |
Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu. |
||
tokenizer |
Název tokenizátoru, který se má použít k přerušení daného textu. |
Odpovědi
Name | Typ | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Chybová odpověď. |
Příklady
SearchServiceIndexAnalyze
Ukázkový požadavek
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Ukázková odpověď
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definice
Name | Description |
---|---|
Analyzed |
Informace o tokenu vráceného analyzátorem |
Analyze |
Určuje některé komponenty textu a analýzy, které slouží k rozdělení textu na tokeny. |
Analyze |
Výsledek testování analyzátoru na textu. |
Char |
Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem. |
Error |
Další informace o chybě správy prostředků |
Error |
Podrobnosti o chybě. |
Error |
Odpověď na chybu |
Lexical |
Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem. |
Lexical |
Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem. |
Lexical |
Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem. |
Token |
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem. |
AnalyzedTokenInfo
Informace o tokenu vráceného analyzátorem
Name | Typ | Description |
---|---|---|
endOffset |
integer |
Index posledního znaku tokenu ve vstupním textu. |
position |
integer |
Umístění tokenu ve vstupním textu vzhledem k jiným tokenům. První token ve vstupním textu má pozici 0, další pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud jsou vzájemně synonymy. |
startOffset |
integer |
Index prvního znaku tokenu ve vstupním textu. |
token |
string |
Token vrácený analyzátorem. |
AnalyzeRequest
Určuje některé komponenty textu a analýzy, které slouží k rozdělení textu na tokeny.
Name | Typ | Description |
---|---|---|
analyzer |
Název analyzátoru, který se má použít k přerušení daného textu. |
|
charFilters |
Volitelný seznam filtrů znaků, které se mají použít při dělení daného textu. |
|
normalizer |
Název normalizátoru, který se má použít k normalizaci daného textu. |
|
text |
string |
Text, který se má rozdělit na tokeny. |
tokenFilters |
Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu. |
|
tokenizer |
Název tokenizátoru, který se má použít k přerušení daného textu. |
AnalyzeResult
Výsledek testování analyzátoru na textu.
Name | Typ | Description |
---|---|---|
tokens |
Seznam tokenů vrácených analyzátorem zadaným v požadavku |
CharFilterName
Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
html_strip |
string |
Filtr znaků, který se pokouší vysunout konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
ErrorAdditionalInfo
Další informace o chybě správy prostředků
Name | Typ | Description |
---|---|---|
info |
object |
Další informace. |
type |
string |
Typ další informace. |
ErrorDetail
Podrobnosti o chybě.
Name | Typ | Description |
---|---|---|
additionalInfo |
Další informace o chybě |
|
code |
string |
Kód chyby |
details |
Podrobnosti o chybě |
|
message |
string |
Chybová zpráva |
target |
string |
Cíl chyby. |
ErrorResponse
Odpověď na chybu
Name | Typ | Description |
---|---|---|
error |
Objekt chyby. |
LexicalAnalyzerName
Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
ar.lucene |
string |
Analyzátor Lucene pro arabštinu. |
ar.microsoft |
string |
Microsoft analyzer pro arabštinu. |
bg.lucene |
string |
Analyzátor Lucene pro bulharštinu. |
bg.microsoft |
string |
Microsoft analyzer pro bulharštinu. |
bn.microsoft |
string |
Microsoft analyzer for Bangla. |
ca.lucene |
string |
Analyzátor Lucene pro katalánštinu. |
ca.microsoft |
string |
Microsoft analyzer pro katalánštinu. |
cs.lucene |
string |
Analyzátor Lucene pro češtinu. |
cs.microsoft |
string |
Microsoft analyzer pro češtinu. |
da.lucene |
string |
Analyzátor Lucene pro dánštinu. |
da.microsoft |
string |
Microsoft analyzer pro dánštinu. |
de.lucene |
string |
Analyzátor Lucene pro němčinu. |
de.microsoft |
string |
Microsoft analyzer pro němčinu. |
el.lucene |
string |
Analyzátor Lucene pro řečtinu. |
el.microsoft |
string |
Microsoft analyzer pro řečtinu. |
en.lucene |
string |
Analyzátor Lucene pro angličtinu. |
en.microsoft |
string |
Microsoft analyzer pro angličtinu. |
es.lucene |
string |
Analyzátor Lucene pro španělštinu. |
es.microsoft |
string |
Microsoft analyzer pro španělštinu. |
et.microsoft |
string |
Analyzátor Microsoftu pro estonštinu. |
eu.lucene |
string |
Analyzátor Lucene pro baskicko. |
fa.lucene |
string |
Analyzátor Lucene pro perštinu. |
fi.lucene |
string |
Analyzátor Lucene pro finštinu. |
fi.microsoft |
string |
Microsoft analyzer pro finštinu. |
fr.lucene |
string |
Analyzátor Lucene pro francouzštinu. |
fr.microsoft |
string |
Microsoft analyzer pro francouzštinu. |
ga.lucene |
string |
Analyzátor Lucene pro irštinu. |
gl.lucene |
string |
Analyzátor Lucene pro Galicijštinu. |
gu.microsoft |
string |
Microsoft analyzer for Gudžarátština. |
he.microsoft |
string |
Microsoft analyzer pro hebrejštinu. |
hi.lucene |
string |
Analyzátor Lucene pro hindštinu. |
hi.microsoft |
string |
Microsoft analyzer pro hindštinu. |
hr.microsoft |
string |
Microsoft analyzer pro chorvatštinu. |
hu.lucene |
string |
Analyzátor Lucene pro maďarštinu. |
hu.microsoft |
string |
Microsoft analyzer pro maďarštinu. |
hy.lucene |
string |
Analyzátor Lucene pro arménštinu. |
id.lucene |
string |
Analyzátor Lucene pro indonéštinu. |
id.microsoft |
string |
Microsoft analyzer for Indonéština (Bahasa). |
is.microsoft |
string |
Analyzátor Microsoftu pro islandštinu. |
it.lucene |
string |
Analyzátor Lucene pro italštinu. |
it.microsoft |
string |
Microsoft analyzer pro italštinu. |
ja.lucene |
string |
Analyzátor Lucene pro japonštinu. |
ja.microsoft |
string |
Microsoft analyzer pro japonštinu. |
keyword |
string |
Zpracovává celý obsah pole jako jeden token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
kn.microsoft |
string |
Microsoft analyzer for Kannada. |
ko.lucene |
string |
Analyzátor Lucene pro korejštinu. |
ko.microsoft |
string |
Microsoft analyzer pro korejštinu. |
lt.microsoft |
string |
Microsoft analyzer pro litevštinu. |
lv.lucene |
string |
Analyzátor Lucene pro lotyštinu. |
lv.microsoft |
string |
Microsoft analyzer pro lotyštinu. |
ml.microsoft |
string |
Microsoft analyzer for Malayalam. |
mr.microsoft |
string |
Microsoft analyzer for Marathi. |
ms.microsoft |
string |
Microsoft analyzer for Malajština (latinka). |
nb.microsoft |
string |
Microsoft analyzer for Norština (Bokmål). |
nl.lucene |
string |
Analyzátor Lucene pro nizozemštinu. |
nl.microsoft |
string |
Microsoft analyzer pro holandštinu. |
no.lucene |
string |
Analyzátor Lucene pro norštinu. |
pa.microsoft |
string |
Microsoft analyzer for Punjabi. |
pattern |
string |
Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
pl.lucene |
string |
Analyzátor Lucene pro polštinu. |
pl.microsoft |
string |
Microsoft analyzer pro polštinu. |
pt-BR.lucene |
string |
Analyzátor Lucene pro portugalštinu (Brazílie). |
pt-BR.microsoft |
string |
Microsoft analyzer pro portugalštinu (Brazílie). |
pt-PT.lucene |
string |
Analyzátor Lucene pro portugalštinu (Portugalsko). |
pt-PT.microsoft |
string |
Microsoft analyzer pro portugalštinu (Portugalsko). |
ro.lucene |
string |
Analyzátor Lucene pro rumunštinu. |
ro.microsoft |
string |
Microsoft analyzer pro rumunštinu. |
ru.lucene |
string |
Analyzátor Lucene pro ruštinu. |
ru.microsoft |
string |
Microsoft analyzer pro ruštinu. |
simple |
string |
Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
sk.microsoft |
string |
Microsoft analyzer pro slovenštinu. |
sl.microsoft |
string |
Microsoft analyzer pro slovinštinu. |
sr-cyrillic.microsoft |
string |
Microsoft analyzer pro srbštinu (cyrilice). |
sr-latin.microsoft |
string |
Microsoft analyzer pro srbštinu (latinka). |
standard.lucene |
string |
Standardní analyzátor Lucene. |
standardasciifolding.lucene |
string |
Standardní analyzátor ASCII Folding Lucene. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
stop |
string |
Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
sv.lucene |
string |
Analyzátor Lucene pro švédštinu. |
sv.microsoft |
string |
Microsoft analyzer pro švédštinu. |
ta.microsoft |
string |
Microsoft analyzer for Tamilština. |
te.microsoft |
string |
Microsoft analyzer for Telugu. |
th.lucene |
string |
Analyzátor Lucene pro thajštinu. |
th.microsoft |
string |
Microsoft analyzer pro thajštinu. |
tr.lucene |
string |
Analyzátor Lucene pro turečtinu. |
tr.microsoft |
string |
Microsoft analyzer pro turečtinu. |
uk.microsoft |
string |
Microsoft analyzer for Ukrajinština. |
ur.microsoft |
string |
Microsoft analyzer for Urdu. |
vi.microsoft |
string |
Analyzátor microsoftu pro vietnamštinu. |
whitespace |
string |
Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
zh-Hans.lucene |
string |
Analyzátor Lucene pro čínštinu (zjednodušená). |
zh-Hans.microsoft |
string |
Microsoft analyzer pro čínštinu (zjednodušená). |
zh-Hant.lucene |
string |
Analyzátor Lucene pro čínštinu (tradiční). |
zh-Hant.microsoft |
string |
Microsoft analyzer pro čínštinu (tradiční). |
LexicalNormalizerName
Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
asciifolding |
string |
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
elision |
string |
Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
lowercase |
string |
Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
standard |
string |
Standardní normalizátor, který se skládá z malých písmen a asciifolding. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
uppercase |
string |
Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
LexicalTokenizerName
Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.
TokenFilterName
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.