Indexes - Analyze
アナライザーがテキストをトークンに分割する方法を示します。
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-11-01-preview
URI パラメーター
名前 | / | 必須 | 型 | 説明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
検索サービスのエンドポイント URL。 |
index
|
path | True |
string |
アナライザーをテストするインデックスの名前。 |
api-version
|
query | True |
string |
クライアント API のバージョン。 |
要求ヘッダー
名前 | 必須 | 型 | 説明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
デバッグに役立つ要求と共に送信される追跡 ID。 |
要求本文
名前 | 必須 | 型 | 説明 |
---|---|---|---|
text | True |
string |
トークンに分割するテキスト。 |
analyzer |
指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。 |
||
charFilters |
指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。 |
||
normalizer |
指定したテキストの正規化に使用するノーマライザーの名前。 |
||
tokenFilters |
指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。 |
||
tokenizer |
指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。 |
応答
名前 | 型 | 説明 |
---|---|---|
200 OK | ||
Other Status Codes |
エラー応答。 |
例
SearchServiceIndexAnalyze
要求のサンプル
POST https://previewexampleservice.search.windows.net/indexes('preview-test')/search.analyze?api-version=2024-11-01-preview
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
応答のサンプル
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
定義
名前 | 説明 |
---|---|
Analyzed |
アナライザーによって返されるトークンに関する情報。 |
Analyze |
そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。 |
Analyze |
テキストでアナライザーをテストした結果。 |
Char |
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。 |
Error |
リソース管理エラーの追加情報。 |
Error |
エラーの詳細。 |
Error |
エラー応答 |
Lexical |
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。 |
Token |
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。 |
AnalyzedTokenInfo
アナライザーによって返されるトークンに関する情報。
名前 | 型 | 説明 |
---|---|---|
endOffset |
integer |
入力テキスト内のトークンの最後の文字のインデックス。 |
position |
integer |
他のトークンに対する入力テキスト内のトークンの位置。 入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 です。 使用されるアナライザーによっては、一部のトークンが同じ位置にある場合があります (たとえば、トークンが互いのシノニムである場合)。 |
startOffset |
integer |
入力テキスト内のトークンの最初の文字のインデックス。 |
token |
string |
アナライザーによって返されるトークン。 |
AnalyzeRequest
そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。
名前 | 型 | 説明 |
---|---|---|
analyzer |
指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。 |
|
charFilters |
指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。 |
|
normalizer |
指定したテキストの正規化に使用するノーマライザーの名前。 |
|
text |
string |
トークンに分割するテキスト。 |
tokenFilters |
指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。 |
|
tokenizer |
指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。 |
AnalyzeResult
テキストでアナライザーをテストした結果。
名前 | 型 | 説明 |
---|---|---|
tokens |
要求で指定されたアナライザーによって返されるトークンの一覧。 |
CharFilterName
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
html_strip |
string |
HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください |
ErrorAdditionalInfo
リソース管理エラーの追加情報。
名前 | 型 | 説明 |
---|---|---|
info |
object |
追加情報。 |
type |
string |
追加情報の種類。 |
ErrorDetail
エラーの詳細。
名前 | 型 | 説明 |
---|---|---|
additionalInfo |
エラーの追加情報。 |
|
code |
string |
エラー コード。 |
details |
エラーの詳細。 |
|
message |
string |
エラー メッセージ。 |
target |
string |
エラーターゲット。 |
ErrorResponse
エラー応答
名前 | 型 | 説明 |
---|---|---|
error |
エラー オブジェクト。 |
LexicalAnalyzerName
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
ar.lucene |
string |
アラビア語用 Lucene アナライザー。 |
ar.microsoft |
string |
アラビア語用 Microsoft アナライザー。 |
bg.lucene |
string |
ブルガリア語用ルセンアナライザー。 |
bg.microsoft |
string |
ブルガリア語用 Microsoft アナライザー。 |
bn.microsoft |
string |
Bangla 用 Microsoft アナライザー。 |
ca.lucene |
string |
カタロニア語用 Lucene アナライザー。 |
ca.microsoft |
string |
カタロニア語用 Microsoft アナライザー。 |
cs.lucene |
string |
チェコ語用 Lucene アナライザー。 |
cs.microsoft |
string |
チェコ語用 Microsoft アナライザー。 |
da.lucene |
string |
デンマーク語用 Lucene アナライザー。 |
da.microsoft |
string |
デンマーク語用 Microsoft アナライザー。 |
de.lucene |
string |
ドイツ語用 Lucene アナライザー。 |
de.microsoft |
string |
ドイツ語用 Microsoft アナライザー。 |
el.lucene |
string |
ギリシャ語用 Lucene アナライザー。 |
el.microsoft |
string |
ギリシャ語用 Microsoft アナライザー。 |
en.lucene |
string |
英語用 Lucene アナライザー。 |
en.microsoft |
string |
英語用 Microsoft アナライザー。 |
es.lucene |
string |
スペイン語用 Lucene アナライザー。 |
es.microsoft |
string |
スペイン語用 Microsoft アナライザー。 |
et.microsoft |
string |
エストニア語用 Microsoft アナライザー。 |
eu.lucene |
string |
バスク用 Lucene アナライザー。 |
fa.lucene |
string |
ペルシア語用 Lucene アナライザー。 |
fi.lucene |
string |
フィンランド語用 Lucene アナライザー。 |
fi.microsoft |
string |
フィンランド語用 Microsoft アナライザー。 |
fr.lucene |
string |
フランス語用 Lucene アナライザー。 |
fr.microsoft |
string |
フランス語用 Microsoft アナライザー。 |
ga.lucene |
string |
アイルランド語用 Lucene アナライザー。 |
gl.lucene |
string |
ガリシア語用 Lucene アナライザー。 |
gu.microsoft |
string |
Gujarati 用 Microsoft アナライザー。 |
he.microsoft |
string |
ヘブライ語用 Microsoft アナライザー。 |
hi.lucene |
string |
ヒンディー語用 Lucene アナライザー。 |
hi.microsoft |
string |
ヒンディー語用 Microsoft アナライザー。 |
hr.microsoft |
string |
クロアチア語用 Microsoft アナライザー。 |
hu.lucene |
string |
ハンガリー語用 Lucene アナライザー。 |
hu.microsoft |
string |
ハンガリー語用 Microsoft アナライザー。 |
hy.lucene |
string |
アルメニア語用 Lucene アナライザー。 |
id.lucene |
string |
インドネシア語用 Lucene アナライザー。 |
id.microsoft |
string |
インドネシア語 (Bahasa) 用 Microsoft アナライザー。 |
is.microsoft |
string |
アイスランドの Microsoft アナライザー。 |
it.lucene |
string |
イタリア語用 Lucene アナライザー。 |
it.microsoft |
string |
イタリア語用 Microsoft アナライザー。 |
ja.lucene |
string |
日本語用 Lucene アナライザー。 |
ja.microsoft |
string |
日本語用 Microsoft アナライザー。 |
keyword |
string |
フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください |
kn.microsoft |
string |
カンナダ用 Microsoft アナライザー。 |
ko.lucene |
string |
韓国語用 Lucene アナライザー。 |
ko.microsoft |
string |
韓国語用 Microsoft アナライザー。 |
lt.microsoft |
string |
リトアニア語用 Microsoft アナライザー。 |
lv.lucene |
string |
ラトビア語用 Lucene アナライザー。 |
lv.microsoft |
string |
ラトビア語用 Microsoft アナライザー。 |
ml.microsoft |
string |
マラヤーラム用 Microsoft アナライザー。 |
mr.microsoft |
string |
Marathi 用 Microsoft アナライザー。 |
ms.microsoft |
string |
マレー語 (ラテン) 用 Microsoft アナライザー。 |
nb.microsoft |
string |
ノルウェー語 (Bokmål) 用 Microsoft アナライザー。 |
nl.lucene |
string |
オランダ語用 Lucene アナライザー。 |
nl.microsoft |
string |
オランダ語用 Microsoft アナライザー。 |
no.lucene |
string |
ノルウェー語用 Lucene アナライザー。 |
pa.microsoft |
string |
Punjabi 用 Microsoft アナライザー。 |
pattern |
string |
正規表現パターンを使用して、テキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください |
pl.lucene |
string |
ポーランド語用 Lucene アナライザー。 |
pl.microsoft |
string |
ポーランド語用 Microsoft アナライザー。 |
pt-BR.lucene |
string |
ポルトガル語 (ブラジル) 用 Lucene アナライザー。 |
pt-BR.microsoft |
string |
ポルトガル語 (ブラジル) 用 Microsoft アナライザー。 |
pt-PT.lucene |
string |
ポルトガル語 (ポルトガル) 用 Lucene アナライザー。 |
pt-PT.microsoft |
string |
ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。 |
ro.lucene |
string |
ルーマニア語用 Lucene アナライザー。 |
ro.microsoft |
string |
ルーマニア語用 Microsoft アナライザー。 |
ru.lucene |
string |
ロシア語用 Lucene アナライザー。 |
ru.microsoft |
string |
ロシア語用 Microsoft アナライザー。 |
simple |
string |
テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください |
sk.microsoft |
string |
スロバキア語用 Microsoft アナライザー。 |
sl.microsoft |
string |
スロベニア語用 Microsoft アナライザー。 |
sr-cyrillic.microsoft |
string |
セルビア語 (キリル) 用 Microsoft アナライザー。 |
sr-latin.microsoft |
string |
セルビア語 (ラテン) 用 Microsoft アナライザー。 |
standard.lucene |
string |
標準 Lucene アナライザー。 |
standardasciifolding.lucene |
string |
標準 ASCII フォールディング Lucene アナライザー。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください |
stop |
string |
テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください |
sv.lucene |
string |
スウェーデン語用 Lucene アナライザー。 |
sv.microsoft |
string |
スウェーデン語用 Microsoft アナライザー。 |
ta.microsoft |
string |
Tamil 用 Microsoft アナライザー。 |
te.microsoft |
string |
Telugu 用 Microsoft アナライザー。 |
th.lucene |
string |
タイ語用 Lucene アナライザー。 |
th.microsoft |
string |
タイ語用 Microsoft アナライザー。 |
tr.lucene |
string |
トルコ語用 Lucene アナライザー。 |
tr.microsoft |
string |
トルコ語用 Microsoft アナライザー。 |
uk.microsoft |
string |
ウクライナ語用 Microsoft アナライザー。 |
ur.microsoft |
string |
Urdu 用 Microsoft アナライザー。 |
vi.microsoft |
string |
ベトナム語用 Microsoft アナライザー。 |
whitespace |
string |
空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください |
zh-Hans.lucene |
string |
中国語 (簡体字) 用 Lucene アナライザー。 |
zh-Hans.microsoft |
string |
Microsoft Analyzer for Chinese (簡体字)。 |
zh-Hant.lucene |
string |
中国語 (繁体字) 用 Lucene アナライザー。 |
zh-Hant.microsoft |
string |
Microsoft analyzer for Chinese (繁体字)。 |
LexicalNormalizerName
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
asciifolding |
string |
最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください |
elision |
string |
エリジオンを削除します。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください |
lowercase |
string |
トークン テキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください |
standard |
string |
小文字と asciifolding で構成される標準ノーマライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください |
uppercase |
string |
トークン テキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください |
LexicalTokenizerName
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
TokenFilterName
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。