Indexes - Analyze

リファレンス

サービス:: Search Service

API バージョン:: 2024-07-01

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI パラメーター

名前	/	必須	型	説明
endpoint	path	True	string	検索サービスのエンドポイント URL。
indexName	path	True	string	アナライザーをテストするインデックスの名前。
api-version	query	True	string	クライアント API のバージョン。

要求ヘッダー

名前	必須	型	説明
x-ms-client-request-id		string (uuid)	デバッグに役立つ要求と共に送信される追跡 ID。

要求本文

名前	必須	型	説明
text	True	string	トークンに分割するテキスト。
analyzer		LexicalAnalyzerName	指定されたテキストを中断するために使用するアナライザーの名前。このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。
charFilters		CharFilterName[]	指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
tokenFilters		TokenFilterName[]	指定されたテキストを中断するときに使用するトークンフィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
tokenizer		LexicalTokenizerName	指定されたテキストを区切るために使用するトークナイザーの名前。このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。

応答

名前	型	説明
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	エラー応答。

例

SearchServiceIndexAnalyze

要求のサンプル

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

応答のサンプル

状態コード:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前	説明
AnalyzedTokenInfo	アナライザーによって返されるトークンに関する情報。
AnalyzeRequest	そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。
AnalyzeResult	テキストでアナライザーをテストした結果。
CharFilterName	検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
ErrorAdditionalInfo	リソース管理エラーの追加情報。
ErrorDetail	エラーの詳細。
ErrorResponse	エラー応答
LexicalAnalyzerName	検索エンジンでサポートされているすべてのテキストアナライザーの名前を定義します。
LexicalTokenizerName	検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
TokenFilterName	検索エンジンでサポートされているすべてのトークンフィルターの名前を定義します。

AnalyzedTokenInfo

Object

アナライザーによって返されるトークンに関する情報。

名前	型	説明
endOffset	integer (int32)	入力テキスト内のトークンの最後の文字のインデックス。
position	integer (int32)	他のトークンに対する入力テキスト内のトークンの位置。入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 です。使用されるアナライザーによっては、一部のトークンが同じ位置にある場合があります (たとえば、トークンが互いのシノニムである場合)。
startOffset	integer (int32)	入力テキスト内のトークンの最初の文字のインデックス。
token	string	アナライザーによって返されるトークン。

AnalyzeRequest

Object

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

名前	型	説明
analyzer	LexicalAnalyzerName	指定されたテキストを中断するために使用するアナライザーの名前。このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。
charFilters	CharFilterName[]	指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
text	string	トークンに分割するテキスト。
tokenFilters	TokenFilterName[]	指定されたテキストを中断するときに使用するトークンフィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
tokenizer	LexicalTokenizerName	指定されたテキストを区切るために使用するトークナイザーの名前。このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。

AnalyzeResult

Object

テキストでアナライザーをテストした結果。

名前	型	説明
tokens	AnalyzedTokenInfo[]	要求で指定されたアナライザーによって返されるトークンの一覧。

CharFilterName

列挙

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

値	説明
html_strip	HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください

ErrorAdditionalInfo

Object

リソース管理エラーの追加情報。

名前	型	説明
info	object	追加情報。
type	string	追加情報の種類。

ErrorDetail

Object

エラーの詳細。

名前	型	説明
additionalInfo	ErrorAdditionalInfo[]	エラーの追加情報。
code	string	エラーコード。
details	ErrorDetail[]	エラーの詳細。
message	string	エラーメッセージ。
target	string	エラーターゲット。

ErrorResponse

Object

エラー応答

名前	型	説明
error	ErrorDetail	エラーオブジェクト。

LexicalAnalyzerName

列挙

検索エンジンでサポートされているすべてのテキストアナライザーの名前を定義します。

値	説明
ar.lucene	アラビア語用 Lucene アナライザー。
ar.microsoft	アラビア語用 Microsoft アナライザー。
bg.lucene	ブルガリア語用ルセンアナライザー。
bg.microsoft	ブルガリア語用 Microsoft アナライザー。
bn.microsoft	Bangla 用 Microsoft アナライザー。
ca.lucene	カタロニア語用 Lucene アナライザー。
ca.microsoft	カタロニア語用 Microsoft アナライザー。
cs.lucene	チェコ語用 Lucene アナライザー。
cs.microsoft	チェコ語用 Microsoft アナライザー。
da.lucene	デンマーク語用 Lucene アナライザー。
da.microsoft	デンマーク語用 Microsoft アナライザー。
de.lucene	ドイツ語用 Lucene アナライザー。
de.microsoft	ドイツ語用 Microsoft アナライザー。
el.lucene	ギリシャ語用 Lucene アナライザー。
el.microsoft	ギリシャ語用 Microsoft アナライザー。
en.lucene	英語用 Lucene アナライザー。
en.microsoft	英語用 Microsoft アナライザー。
es.lucene	スペイン語用 Lucene アナライザー。
es.microsoft	スペイン語用 Microsoft アナライザー。
et.microsoft	エストニア語用 Microsoft アナライザー。
eu.lucene	バスク用 Lucene アナライザー。
fa.lucene	ペルシア語用 Lucene アナライザー。
fi.lucene	フィンランド語用 Lucene アナライザー。
fi.microsoft	フィンランド語用 Microsoft アナライザー。
fr.lucene	フランス語用 Lucene アナライザー。
fr.microsoft	フランス語用 Microsoft アナライザー。
ga.lucene	アイルランド語用 Lucene アナライザー。
gl.lucene	ガリシア語用 Lucene アナライザー。
gu.microsoft	Gujarati 用 Microsoft アナライザー。
he.microsoft	ヘブライ語用 Microsoft アナライザー。
hi.lucene	ヒンディー語用 Lucene アナライザー。
hi.microsoft	ヒンディー語用 Microsoft アナライザー。
hr.microsoft	クロアチア語用 Microsoft アナライザー。
hu.lucene	ハンガリー語用 Lucene アナライザー。
hu.microsoft	ハンガリー語用 Microsoft アナライザー。
hy.lucene	アルメニア語用 Lucene アナライザー。
id.lucene	インドネシア語用 Lucene アナライザー。
id.microsoft	インドネシア語 (Bahasa) 用 Microsoft アナライザー。
is.microsoft	アイスランドの Microsoft アナライザー。
it.lucene	イタリア語用 Lucene アナライザー。
it.microsoft	イタリア語用 Microsoft アナライザー。
ja.lucene	日本語用 Lucene アナライザー。
ja.microsoft	日本語用 Microsoft アナライザー。
keyword	フィールドの内容全体を 1 つのトークンとして扱います。これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください
kn.microsoft	カンナダ用 Microsoft アナライザー。
ko.lucene	韓国語用 Lucene アナライザー。
ko.microsoft	韓国語用 Microsoft アナライザー。
lt.microsoft	リトアニア語用 Microsoft アナライザー。
lv.lucene	ラトビア語用 Lucene アナライザー。
lv.microsoft	ラトビア語用 Microsoft アナライザー。
ml.microsoft	マラヤーラム用 Microsoft アナライザー。
mr.microsoft	Marathi 用 Microsoft アナライザー。
ms.microsoft	マレー語 (ラテン) 用 Microsoft アナライザー。
nb.microsoft	ノルウェー語 (Bokmål) 用 Microsoft アナライザー。
nl.lucene	オランダ語用 Lucene アナライザー。
nl.microsoft	オランダ語用 Microsoft アナライザー。
no.lucene	ノルウェー語用 Lucene アナライザー。
pa.microsoft	Punjabi 用 Microsoft アナライザー。
pattern	正規表現パターンを使用して、テキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください
pl.lucene	ポーランド語用 Lucene アナライザー。
pl.microsoft	ポーランド語用 Microsoft アナライザー。
pt-BR.lucene	ポルトガル語 (ブラジル) 用 Lucene アナライザー。
pt-BR.microsoft	ポルトガル語 (ブラジル) 用 Microsoft アナライザー。
pt-PT.lucene	ポルトガル語 (ポルトガル) 用 Lucene アナライザー。
pt-PT.microsoft	ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。
ro.lucene	ルーマニア語用 Lucene アナライザー。
ro.microsoft	ルーマニア語用 Microsoft アナライザー。
ru.lucene	ロシア語用 Lucene アナライザー。
ru.microsoft	ロシア語用 Microsoft アナライザー。
simple	テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください
sk.microsoft	スロバキア語用 Microsoft アナライザー。
sl.microsoft	スロベニア語用 Microsoft アナライザー。
sr-cyrillic.microsoft	セルビア語 (キリル) 用 Microsoft アナライザー。
sr-latin.microsoft	セルビア語 (ラテン) 用 Microsoft アナライザー。
standard.lucene	標準 Lucene アナライザー。
standardasciifolding.lucene	標準 ASCII フォールディング Lucene アナライザー。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください
stop	テキストを文字以外で除算します。小文字とストップワードのトークンフィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください
sv.lucene	スウェーデン語用 Lucene アナライザー。
sv.microsoft	スウェーデン語用 Microsoft アナライザー。
ta.microsoft	Tamil 用 Microsoft アナライザー。
te.microsoft	Telugu 用 Microsoft アナライザー。
th.lucene	タイ語用 Lucene アナライザー。
th.microsoft	タイ語用 Microsoft アナライザー。
tr.lucene	トルコ語用 Lucene アナライザー。
tr.microsoft	トルコ語用 Microsoft アナライザー。
uk.microsoft	ウクライナ語用 Microsoft アナライザー。
ur.microsoft	Urdu 用 Microsoft アナライザー。
vi.microsoft	ベトナム語用 Microsoft アナライザー。
whitespace	空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください
zh-Hans.lucene	中国語 (簡体字) 用 Lucene アナライザー。
zh-Hans.microsoft	Microsoft Analyzer for Chinese (簡体字)。
zh-Hant.lucene	中国語 (繁体字) 用 Lucene アナライザー。
zh-Hant.microsoft	Microsoft analyzer for Chinese (繁体字)。

LexicalTokenizerName

列挙

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

値	説明
classic	ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html を参照してください
edgeNGram	エッジからの入力を特定のサイズの n グラムにトークン化します。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html を参照してください
keyword_v2	入力全体を 1 つのトークンとして出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html を参照してください
letter	テキストを文字以外で分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html を参照してください
lowercase	テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html を参照してください
microsoft_language_stemming_tokenizer	言語固有のルールを使用してテキストを分割し、単語を基本フォームに減らします。
microsoft_language_tokenizer	言語固有のルールを使用してテキストを分割します。
nGram	指定したサイズの n グラムに入力をトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html を参照してください
path_hierarchy_v2	パスに似た階層のトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html を参照してください
pattern	正規表現パターンマッチングを使用して個別のトークンを構築するトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html を参照してください
standard_v2	標準 Lucene アナライザー;標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html を参照してください
uax_url_email	URL と電子メールを 1 つのトークンとしてトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html を参照してください
whitespace	空白文字でテキストを分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html を参照してください

TokenFilterName

列挙

検索エンジンでサポートされているすべてのトークンフィルターの名前を定義します。

値	説明
apostrophe	アポストロフィの後のすべての文字 (アポストロフィ自体を含む) を除去します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html を参照してください
arabic_normalization	アラビア語のノーマライザーを適用して序数を正規化するトークンフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html を参照してください
asciifolding	最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください
cjk_bigram	標準トークナイザーから生成される CJK 用語のビグラムを形成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html を参照してください
cjk_width	CJK の幅の違いを正規化します。フルwidth ASCIIバリアントを同等の基本的なラテン語に、半角カタカナバリアントを同等のかなに折りたたみます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html を参照してください
classic	頭字語から英語の所有物とドットを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html を参照してください
common_grams	インデックス作成中に頻繁に発生する用語のビグラムを構築します。単一の用語もインデックスが作成され、バイグラムが重なっています。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html を参照してください
edgeNGram_v2	入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html を参照してください
elision	エリジオンを削除します。たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください
german_normalization	German2 スノーボールアルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html を参照してください
hindi_normalization	ヒンディー語のテキストを正規化して、スペルバリエーションの違いをいくつか削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html を参照してください
indic_normalization	インド言語でのテキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html を参照してください
keyword_repeat	各受信トークンを 2 回、キーワードとして 1 回、非キーワードとして 1 回出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html を参照してください
kstem	英語のハイパフォーマンス kstem フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html を参照してください
length	長すぎる単語または短すぎる単語を削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html を参照してください
limit	インデックス作成中のトークンの数を制限します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html を参照してください
lowercase	トークンテキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください
nGram_v2	指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html を参照してください
persian_normalization	ペルシア語の正規化を適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html を参照してください
phonetic	ふりがなのトークンを作成します。 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html を参照してください
porter_stem	Porter ステミングアルゴリズムを使用してトークンストリームを変換します。 http://tartarus.org/~martin/PorterStemmer を参照してください
reverse	トークン文字列を逆にします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください
scandinavian_folding	スカンジナビア文字 åÅäæÄÆ->a と ööøØ->o. また、二重母音 aa、ae、ao、oe、oo の使用を区別し、最初の母音だけを残します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html を参照してください
scandinavian_normalization	交換可能なスカンジナビア文字の使用を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html を参照してください
shingle	トークンの組み合わせを 1 つのトークンとして作成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html を参照してください
snowball	Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html を参照してください
sorani_normalization	Sorani テキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html を参照してください
stemmer	言語固有のステミングフィルター。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters を参照してください
stopwords	トークンストリームからストップワードを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html を参照してください
trim	トークンから先頭と末尾の空白をトリミングします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html を参照してください
truncate	用語を特定の長さに切り捨てます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html を参照してください
unique	前のトークンと同じテキストを持つトークンを除外します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html を参照してください
uppercase	トークンテキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください
word_delimiter	単語をサブワードに分割し、サブワードグループに対してオプションの変換を実行します。

次の方法で共有

Indexes - Analyze

URI パラメーター

要求ヘッダー

要求本文

応答

例

SearchServiceIndexAnalyze

要求のサンプル

応答のサンプル

定義

AnalyzedTokenInfo

AnalyzeRequest

AnalyzeResult

CharFilterName

ErrorAdditionalInfo

ErrorDetail

ErrorResponse

LexicalAnalyzerName

LexicalTokenizerName

TokenFilterName

その他のリソース