Indexes - Analyze
Zeigt, wie ein Analyzer Text in Token umbricht.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
index
|
path | True |
string |
Der Name des Indexes, für den ein Analyzer getestet werden soll. |
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
x-ms-client-request-id |
string (uuid) |
Die Tracking-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen. |
Anforderungstext
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
text | True |
string |
Der Text, der in Token unterteilt werden soll. |
analyzer |
Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
||
charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
||
tokenFilters |
Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
||
tokenizer |
Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK | ||
Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceIndexAnalyze
Beispielanforderung
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Beispiel für eine Antwort
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definitionen
Name | Beschreibung |
---|---|
Analyzed |
Informationen zu einem token, das von einem Analyzer zurückgegeben wird. |
Analyze |
Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden. |
Analyze |
Das Ergebnis des Tests eines Analyzers auf Text. |
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
Error |
Der Ressourcenverwaltungsfehler zusätzliche Informationen. |
Error |
Das Fehlerdetails. |
Error |
Fehlerantwort |
Lexical |
Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
AnalyzedTokenInfo
Informationen zu einem token, das von einem Analyzer zurückgegeben wird.
Name | Typ | Beschreibung |
---|---|---|
endOffset |
integer (int32) |
Der Index des letzten Zeichens des Tokens im Eingabetext. |
position |
integer (int32) |
Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat Position 0, die nächste hat Position 1 usw. Abhängig von der verwendeten Analyse haben einige Token möglicherweise dieselbe Position, z. B. wenn sie Synonyme voneinander sind. |
startOffset |
integer (int32) |
Der Index des ersten Zeichens des Tokens im Eingabetext. |
token |
string |
Das vom Analyzer zurückgegebene Token. |
AnalyzeRequest
Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.
Name | Typ | Beschreibung |
---|---|---|
analyzer |
Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
|
charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
|
text |
string |
Der Text, der in Token unterteilt werden soll. |
tokenFilters |
Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
|
tokenizer |
Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
AnalyzeResult
Das Ergebnis des Tests eines Analyzers auf Text.
Name | Typ | Beschreibung |
---|---|---|
tokens |
Die Liste der Token, die von der in der Anforderung angegebenen Analyse zurückgegeben werden. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
Wert | Beschreibung |
---|---|
html_strip |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Der Ressourcenverwaltungsfehler zusätzliche Informationen.
Name | Typ | Beschreibung |
---|---|---|
info |
object |
Die zusätzlichen Informationen. |
type |
string |
Der zusätzliche Informationstyp. |
ErrorDetail
Das Fehlerdetails.
Name | Typ | Beschreibung |
---|---|---|
additionalInfo |
Die zusätzlichen Informationen des Fehlers. |
|
code |
string |
Der Fehlercode. |
details |
Die Fehlerdetails. |
|
message |
string |
Die Fehlermeldung. |
target |
string |
Das Fehlerziel. |
ErrorResponse
Fehlerantwort
Name | Typ | Beschreibung |
---|---|---|
error |
Das Fehlerobjekt. |
LexicalAnalyzerName
Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.
Wert | Beschreibung |
---|---|
ar.lucene |
Lucene Analyzer für Arabisch. |
ar.microsoft |
Microsoft Analyzer für Arabisch. |
bg.lucene |
Lucene Analyzer für Bulgarisch. |
bg.microsoft |
Microsoft Analyzer für Bulgarisch. |
bn.microsoft |
Microsoft Analyzer für Bangla. |
ca.lucene |
Lucene Analyzer für Katalanisch. |
ca.microsoft |
Microsoft Analyzer für Katalanisch. |
cs.lucene |
Lucene Analyzer für Tschechisch. |
cs.microsoft |
Microsoft Analyzer für Tschechisch. |
da.lucene |
Lucene Analyzer für Dänisch. |
da.microsoft |
Microsoft Analyzer für Dänisch. |
de.lucene |
Lucene Analyzer für Deutsch. |
de.microsoft |
Microsoft Analyzer für Deutsch. |
el.lucene |
Lucene Analyzer für Griechisch. |
el.microsoft |
Microsoft Analyzer für Griechisch. |
en.lucene |
Lucene Analyzer für Englisch. |
en.microsoft |
Microsoft Analyzer für Englisch. |
es.lucene |
Lucene Analyzer für Spanisch. |
es.microsoft |
Microsoft Analyzer für Spanisch. |
et.microsoft |
Microsoft Analyzer für Estland. |
eu.lucene |
Lucene Analyzer für Baskisch. |
fa.lucene |
Lucene Analyzer für Persisch. |
fi.lucene |
Lucene Analyzer für Finnisch. |
fi.microsoft |
Microsoft Analyzer für Finnisch. |
fr.lucene |
Lucene Analyzer für Französisch. |
fr.microsoft |
Microsoft Analyzer für Französisch. |
ga.lucene |
Lucene Analyzer für Irisch. |
gl.lucene |
Lucene Analyzer für Galizien. |
gu.microsoft |
Microsoft Analyzer für Gujarati. |
he.microsoft |
Microsoft Analyzer für Hebräisch. |
hi.lucene |
Lucene Analyzer für Hindi. |
hi.microsoft |
Microsoft Analyzer für Hindi. |
hr.microsoft |
Microsoft Analyzer für Kroatisch. |
hu.lucene |
Lucene Analyzer für Ungarisch. |
hu.microsoft |
Microsoft Analyzer für Ungarisch. |
hy.lucene |
Lucene Analyzer für Armenier. |
id.lucene |
Lucene Analyzer für Indonesisch. |
id.microsoft |
Microsoft Analyzer für Indonesien (Bahasa). |
is.microsoft |
Microsoft Analyzer für Island. |
it.lucene |
Lucene Analyzer für Italienisch. |
it.microsoft |
Microsoft Analyzer für Italienisch. |
ja.lucene |
Lucene Analyzer für Japanisch. |
ja.microsoft |
Microsoft Analyzer für Japanisch. |
keyword |
Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
Microsoft Analyzer für Kannada. |
ko.lucene |
Lucene Analyzer für Koreanisch. |
ko.microsoft |
Microsoft Analyzer für Koreanisch. |
lt.microsoft |
Microsoft Analyzer für Litauisch. |
lv.lucene |
Lucene Analyzer für Lettisch. |
lv.microsoft |
Microsoft Analyzer für Lettisch. |
ml.microsoft |
Microsoft Analyzer für Malayalam. |
mr.microsoft |
Microsoft Analyzer für Marathi. |
ms.microsoft |
Microsoft Analyzer für Malaiisch (Lateinisch). |
nb.microsoft |
Microsoft Analyzer für Norwegisch (Bokmål). |
nl.lucene |
Lucene Analyzer für Niederländisch. |
nl.microsoft |
Microsoft Analyzer für Niederländisch. |
no.lucene |
Lucene Analyzer für Norwegisch. |
pa.microsoft |
Microsoft Analyzer für Punjabi. |
pattern |
Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
Lucene Analyzer für Polnisch. |
pl.microsoft |
Microsoft Analyzer für Polnisch. |
pt-BR.lucene |
Lucene Analyzer für Portugiesisch (Brasilien). |
pt-BR.microsoft |
Microsoft Analyzer für Portugiesisch (Brasilien). |
pt-PT.lucene |
Lucene Analyzer für Portugiesisch (Portugal). |
pt-PT.microsoft |
Microsoft Analyzer für Portugiesisch (Portugal). |
ro.lucene |
Lucene Analyzer für Rumänisch. |
ro.microsoft |
Microsoft Analyzer für Rumänisch. |
ru.lucene |
Lucene Analyzer für Russisch. |
ru.microsoft |
Microsoft Analyzer für Russisch. |
simple |
Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
Microsoft Analyzer für Slowakisch. |
sl.microsoft |
Microsoft Analyzer für Slowenisch. |
sr-cyrillic.microsoft |
Microsoft Analyzer für Serbisch (Kyrillisch). |
sr-latin.microsoft |
Microsoft Analyzer für Serbisch (Lateinisch). |
standard.lucene |
Standard Lucene Analyzer. |
standardasciifolding.lucene |
Standard ASCII Folding Lucene Analyzer. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
Lucene Analyzer für Schwedisch. |
sv.microsoft |
Microsoft Analyzer für Schwedisch. |
ta.microsoft |
Microsoft Analyzer für Tamil. |
te.microsoft |
Microsoft Analyzer für Telugu. |
th.lucene |
Lucene Analyzer für Thai. |
th.microsoft |
Microsoft Analyzer für Thailändisch. |
tr.lucene |
Lucene Analyzer für Türkisch. |
tr.microsoft |
Microsoft Analyzer für Türkisch. |
uk.microsoft |
Microsoft Analyzer für Ukrainisch. |
ur.microsoft |
Microsoft Analyzer für Urdu. |
vi.microsoft |
Microsoft Analyzer für Vietnamesisch. |
whitespace |
Ein Analyzer, der den Leerraumtokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
Lucene Analyzer für Chinesisch (vereinfacht). |
zh-Hans.microsoft |
Microsoft Analyzer für Chinesisch (vereinfacht). |
zh-Hant.lucene |
Lucene Analyzer für Chinesisch (traditionell). |
zh-Hant.microsoft |
Microsoft Analyzer für Chinesisch (traditionell). |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.