Indexes - Analyze
アナライザーがテキストをトークンに分割する方法を示します。
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-10-01-Preview
URI パラメーター
名前 | / | 必須 | 型 | 説明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
検索サービスのエンドポイント URL。 |
index
|
path | True |
string |
アナライザーをテストするインデックスの名前。 |
api-version
|
query | True |
string |
クライアント API のバージョン。 |
要求ヘッダー
名前 | 必須 | 型 | 説明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
デバッグに役立つ要求と共に送信された追跡 ID。 |
要求本文
名前 | 必須 | 型 | 説明 |
---|---|---|---|
text | True |
string |
トークンに分割するテキスト。 |
analyzer |
指定したテキストを中断するために使用するアナライザーの名前。 |
||
charFilters |
指定したテキストを区切るときに使用する文字フィルターのオプションリスト。 |
||
normalizer |
指定したテキストを正規化するために使用するノーマライザーの名前。 |
||
tokenFilters |
指定したテキストを中断するときに使用するトークン フィルターのオプションリスト。 |
||
tokenizer |
指定したテキストを区切るために使用するトークナイザーの名前。 |
応答
名前 | 型 | 説明 |
---|---|---|
200 OK | ||
Other Status Codes |
エラー応答。 |
例
SearchServiceIndexAnalyze
要求のサンプル
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-10-01-Preview
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
応答のサンプル
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
定義
名前 | 説明 |
---|---|
Analyzed |
アナライザーによって返されるトークンに関する情報。 |
Analyze |
そのテキストをトークンに分割するために使用されるテキストコンポーネントと分析コンポーネントを指定します。 |
Analyze |
テキストでアナライザーをテストした結果。 |
Char |
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。 |
Search |
API のエラー条件について説明します。 |
Token |
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。 |
AnalyzedTokenInfo
アナライザーによって返されるトークンに関する情報。
名前 | 型 | 説明 |
---|---|---|
endOffset |
integer |
入力テキスト内のトークンの最後の文字のインデックス。 |
position |
integer |
他のトークンに対する入力テキスト内のトークンの位置。 入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 などです。 使用されるアナライザーによっては、一部のトークンの位置が同じになる場合があります (たとえば、トークンが互いのシノニムである場合)。 |
startOffset |
integer |
入力テキスト内のトークンの最初の文字のインデックス。 |
token |
string |
アナライザーによって返されるトークン。 |
AnalyzeRequest
そのテキストをトークンに分割するために使用されるテキストコンポーネントと分析コンポーネントを指定します。
名前 | 型 | 説明 |
---|---|---|
analyzer |
指定したテキストを分割するために使用するアナライザーの名前。 |
|
charFilters |
指定したテキストを分割するときに使用する文字フィルターの省略可能な一覧。 |
|
normalizer |
指定されたテキストを正規化するために使用するノーマライザーの名前。 |
|
text |
string |
トークンに分割するテキスト。 |
tokenFilters |
指定されたテキストを分割するときに使用するトークン フィルターの省略可能な一覧。 |
|
tokenizer |
指定されたテキストを分割するために使用するトークナイザーの名前。 |
AnalyzeResult
テキストでアナライザーをテストした結果。
名前 | 型 | 説明 |
---|---|---|
tokens |
要求で指定されたアナライザーによって返されるトークンの一覧。 |
CharFilterName
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
html_strip |
string |
HTML コンストラクトを取り除こうとする文字フィルター。 「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html」を参照してください。 |
LexicalAnalyzerName
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
ar.lucene |
string |
アラビア語用 Lucene アナライザー。 |
ar.microsoft |
string |
アラビア語用 Microsoft アナライザー。 |
bg.lucene |
string |
ブルガリア語用 Lucene アナライザー。 |
bg.microsoft |
string |
ブルガリア語用 Microsoft アナライザー。 |
bn.microsoft |
string |
Bangla 用 Microsoft アナライザー。 |
ca.lucene |
string |
カタロニア語用 Lucene アナライザー。 |
ca.microsoft |
string |
カタロニア語用 Microsoft アナライザー。 |
cs.lucene |
string |
チェコ語用 Lucene アナライザー。 |
cs.microsoft |
string |
チェコ語用 Microsoft アナライザー。 |
da.lucene |
string |
デンマーク語用 Lucene アナライザー。 |
da.microsoft |
string |
デンマーク語用 Microsoft アナライザー。 |
de.lucene |
string |
ドイツ語用 Lucene アナライザー。 |
de.microsoft |
string |
ドイツ語用 Microsoft アナライザー。 |
el.lucene |
string |
ギリシャ語用 Lucene アナライザー。 |
el.microsoft |
string |
ギリシャ語用 Microsoft アナライザー。 |
en.lucene |
string |
英語用 Lucene アナライザー。 |
en.microsoft |
string |
英語用 Microsoft アナライザー。 |
es.lucene |
string |
スペイン語用 Lucene アナライザー。 |
es.microsoft |
string |
スペイン語用 Microsoft アナライザー。 |
et.microsoft |
string |
エストニア語用 Microsoft アナライザー。 |
eu.lucene |
string |
バスク語用 Lucene アナライザー。 |
fa.lucene |
string |
ペルシャ語用 Lucene アナライザー。 |
fi.lucene |
string |
フィンランド語用 Lucene アナライザー。 |
fi.microsoft |
string |
フィンランド語用 Microsoft アナライザー。 |
fr.lucene |
string |
フランス語用 Lucene アナライザー。 |
fr.microsoft |
string |
フランス語用 Microsoft アナライザー。 |
ga.lucene |
string |
アイルランド語用 Lucene アナライザー。 |
gl.lucene |
string |
ガリシア語用 Lucene アナライザー。 |
gu.microsoft |
string |
Gujarati 用 Microsoft アナライザー。 |
he.microsoft |
string |
ヘブライ語用 Microsoft アナライザー。 |
hi.lucene |
string |
ヒンディー語用 Lucene アナライザー。 |
hi.microsoft |
string |
ヒンディー語用 Microsoft アナライザー。 |
hr.microsoft |
string |
クロアチア語用 Microsoft アナライザー。 |
hu.lucene |
string |
ハンガリー語用 Lucene アナライザー。 |
hu.microsoft |
string |
ハンガリー語用 Microsoft アナライザー。 |
hy.lucene |
string |
アルメニア語用 Lucene アナライザー。 |
id.lucene |
string |
インドネシア語用 Lucene アナライザー。 |
id.microsoft |
string |
インドネシア語 (Bahasa) 用 Microsoft アナライザー。 |
is.microsoft |
string |
アイスランド語用 Microsoft アナライザー。 |
it.lucene |
string |
イタリア語用 Lucene アナライザー。 |
it.microsoft |
string |
イタリア語用 Microsoft アナライザー。 |
ja.lucene |
string |
日本語用 Lucene アナライザー。 |
ja.microsoft |
string |
日本語用 Microsoft アナライザー。 |
keyword |
string |
フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、製品名などのデータで役立ちます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html」を参照してください。 |
kn.microsoft |
string |
カンナダ用 Microsoft アナライザー。 |
ko.lucene |
string |
韓国語用 Lucene アナライザー。 |
ko.microsoft |
string |
韓国語用 Microsoft アナライザー。 |
lt.microsoft |
string |
リトアニア語用 Microsoft アナライザー。 |
lv.lucene |
string |
ラトビア語用 Lucene アナライザー。 |
lv.microsoft |
string |
ラトビア語用 Microsoft アナライザー。 |
ml.microsoft |
string |
マラヤーラム用 Microsoft アナライザー。 |
mr.microsoft |
string |
Marathi 用 Microsoft アナライザー。 |
ms.microsoft |
string |
マレー語 (ラテン) 用 Microsoft アナライザー。 |
nb.microsoft |
string |
ノルウェー語 (Bokmål) 用 Microsoft アナライザー。 |
nl.lucene |
string |
オランダ語用 Lucene アナライザー。 |
nl.microsoft |
string |
オランダ語用 Microsoft アナライザー。 |
no.lucene |
string |
ノルウェー語用 Lucene アナライザー。 |
pa.microsoft |
string |
Punjabi 用 Microsoft アナライザー。 |
pattern |
string |
正規表現のパターンを使用してテキストを用語に柔軟に分割します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html」を参照してください。 |
pl.lucene |
string |
ポーランド語用 Lucene アナライザー。 |
pl.microsoft |
string |
ポーランド語用 Microsoft アナライザー。 |
pt-BR.lucene |
string |
ポルトガル語 (ブラジル) 用 Lucene アナライザー。 |
pt-BR.microsoft |
string |
ポルトガル語 (ブラジル) 用 Microsoft アナライザー。 |
pt-PT.lucene |
string |
ポルトガル語 (ポルトガル) 用 Lucene アナライザー。 |
pt-PT.microsoft |
string |
ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。 |
ro.lucene |
string |
ルーマニア語用 Lucene アナライザー。 |
ro.microsoft |
string |
ルーマニア語用の Microsoft アナライザー。 |
ru.lucene |
string |
ロシア語用 Lucene アナライザー。 |
ru.microsoft |
string |
ロシア語用 Microsoft アナライザー。 |
simple |
string |
非文字でテキストが分割され、それらが小文字に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html」を参照してください。 |
sk.microsoft |
string |
スロバキア語用 Microsoft アナライザー。 |
sl.microsoft |
string |
スロベニア語用 Microsoft アナライザー。 |
sr-cyrillic.microsoft |
string |
セルビア語 (キリル) 用 Microsoft アナライザー。 |
sr-latin.microsoft |
string |
セルビア語 (ラテン) 用の Microsoft アナライザー。 |
standard.lucene |
string |
Standard Lucene アナライザー。 |
standardasciifolding.lucene |
string |
Standard ASCII フォールディング Lucene アナライザー。 「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers」を参照してください。 |
stop |
string |
テキストを文字以外で分割します。小文字とストップワードのトークン フィルターを適用します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html」を参照してください。 |
sv.lucene |
string |
スウェーデン語用 Lucene アナライザー。 |
sv.microsoft |
string |
スウェーデン語用 Microsoft アナライザー。 |
ta.microsoft |
string |
Tamil 用 Microsoft アナライザー。 |
te.microsoft |
string |
テルグ語用 Microsoft アナライザー。 |
th.lucene |
string |
タイ語用 Lucene アナライザー。 |
th.microsoft |
string |
タイ語用 Microsoft アナライザー。 |
tr.lucene |
string |
トルコ語用 Lucene アナライザー。 |
tr.microsoft |
string |
トルコ語用 Microsoft アナライザー。 |
uk.microsoft |
string |
ウクライナ語用 Microsoft アナライザー。 |
ur.microsoft |
string |
Urdu 用 Microsoft アナライザー。 |
vi.microsoft |
string |
ベトナム語用 Microsoft アナライザー。 |
whitespace |
string |
空白文字トークナイザーを使用するアナライザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html」を参照してください。 |
zh-Hans.lucene |
string |
Lucene analyzer for Chinese (簡体字)。 |
zh-Hans.microsoft |
string |
Microsoft Analyzer for Chinese (簡体字)。 |
zh-Hant.lucene |
string |
Lucene analyzer for Chinese (繁体字)。 |
zh-Hant.microsoft |
string |
Microsoft Analyzer for Chinese (繁体字)。 |
LexicalNormalizerName
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
asciifolding |
string |
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット、数字、および記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html」を参照してください。 |
elision |
string |
省略記号が削除されます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html」を参照してください。 |
lowercase |
string |
トークン テキストを小文字に正規化します。 「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html」を参照してください。 |
standard |
string |
標準ノーマライザー。小文字と asciifolding で構成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html」を参照してください。 |
uppercase |
string |
トークン テキストを大文字に正規化します。 「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html」を参照してください。 |
LexicalTokenizerName
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
SearchError
API のエラー条件について説明します。
名前 | 型 | 説明 |
---|---|---|
code |
string |
サーバー定義のエラー コードのセットの 1 つ。 |
details |
この報告されたエラーの原因となった特定のエラーに関する詳細の配列。 |
|
message |
string |
エラーの人間が判読できる表現。 |
TokenFilterName
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。