次の方法で共有


Indexes - Analyze

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI パラメーター

名前 / 必須 説明
endpoint
path True

string

検索サービスのエンドポイント URL。

indexName
path True

string

アナライザーをテストするインデックスの名前。

api-version
query True

string

クライアント API のバージョン。

要求ヘッダー

名前 必須 説明
x-ms-client-request-id

string (uuid)

デバッグに役立つ要求と共に送信される追跡 ID。

要求本文

名前 必須 説明
text True

string

トークンに分割するテキスト。

analyzer

LexicalAnalyzerName

指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenFilters

TokenFilterName[]

指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

応答

名前 説明
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

エラー応答。

SearchServiceIndexAnalyze

要求のサンプル

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

応答のサンプル

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前 説明
AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

AnalyzeResult

テキストでアナライザーをテストした結果。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

ErrorAdditionalInfo

リソース管理エラーの追加情報。

ErrorDetail

エラーの詳細。

ErrorResponse

エラー応答

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前 説明
endOffset

integer (int32)

入力テキスト内のトークンの最後の文字のインデックス。

position

integer (int32)

他のトークンに対する入力テキスト内のトークンの位置。 入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 です。 使用されるアナライザーによっては、一部のトークンが同じ位置にある場合があります (たとえば、トークンが互いのシノニムである場合)。

startOffset

integer (int32)

入力テキスト内のトークンの最初の文字のインデックス。

token

string

アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

名前 説明
analyzer

LexicalAnalyzerName

指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

text

string

トークンに分割するテキスト。

tokenFilters

TokenFilterName[]

指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前 説明
tokens

AnalyzedTokenInfo[]

要求で指定されたアナライザーによって返されるトークンの一覧。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

説明
html_strip

HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください

ErrorAdditionalInfo

リソース管理エラーの追加情報。

名前 説明
info

object

追加情報。

type

string

追加情報の種類。

ErrorDetail

エラーの詳細。

名前 説明
additionalInfo

ErrorAdditionalInfo[]

エラーの追加情報。

code

string

エラー コード。

details

ErrorDetail[]

エラーの詳細。

message

string

エラー メッセージ。

target

string

エラーターゲット。

ErrorResponse

エラー応答

名前 説明
error

ErrorDetail

エラー オブジェクト。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

説明
ar.lucene

アラビア語用 Lucene アナライザー。

ar.microsoft

アラビア語用 Microsoft アナライザー。

bg.lucene

ブルガリア語用ルセンアナライザー。

bg.microsoft

ブルガリア語用 Microsoft アナライザー。

bn.microsoft

Bangla 用 Microsoft アナライザー。

ca.lucene

カタロニア語用 Lucene アナライザー。

ca.microsoft

カタロニア語用 Microsoft アナライザー。

cs.lucene

チェコ語用 Lucene アナライザー。

cs.microsoft

チェコ語用 Microsoft アナライザー。

da.lucene

デンマーク語用 Lucene アナライザー。

da.microsoft

デンマーク語用 Microsoft アナライザー。

de.lucene

ドイツ語用 Lucene アナライザー。

de.microsoft

ドイツ語用 Microsoft アナライザー。

el.lucene

ギリシャ語用 Lucene アナライザー。

el.microsoft

ギリシャ語用 Microsoft アナライザー。

en.lucene

英語用 Lucene アナライザー。

en.microsoft

英語用 Microsoft アナライザー。

es.lucene

スペイン語用 Lucene アナライザー。

es.microsoft

スペイン語用 Microsoft アナライザー。

et.microsoft

エストニア語用 Microsoft アナライザー。

eu.lucene

バスク用 Lucene アナライザー。

fa.lucene

ペルシア語用 Lucene アナライザー。

fi.lucene

フィンランド語用 Lucene アナライザー。

fi.microsoft

フィンランド語用 Microsoft アナライザー。

fr.lucene

フランス語用 Lucene アナライザー。

fr.microsoft

フランス語用 Microsoft アナライザー。

ga.lucene

アイルランド語用 Lucene アナライザー。

gl.lucene

ガリシア語用 Lucene アナライザー。

gu.microsoft

Gujarati 用 Microsoft アナライザー。

he.microsoft

ヘブライ語用 Microsoft アナライザー。

hi.lucene

ヒンディー語用 Lucene アナライザー。

hi.microsoft

ヒンディー語用 Microsoft アナライザー。

hr.microsoft

クロアチア語用 Microsoft アナライザー。

hu.lucene

ハンガリー語用 Lucene アナライザー。

hu.microsoft

ハンガリー語用 Microsoft アナライザー。

hy.lucene

アルメニア語用 Lucene アナライザー。

id.lucene

インドネシア語用 Lucene アナライザー。

id.microsoft

インドネシア語 (Bahasa) 用 Microsoft アナライザー。

is.microsoft

アイスランドの Microsoft アナライザー。

it.lucene

イタリア語用 Lucene アナライザー。

it.microsoft

イタリア語用 Microsoft アナライザー。

ja.lucene

日本語用 Lucene アナライザー。

ja.microsoft

日本語用 Microsoft アナライザー。

keyword

フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください

kn.microsoft

カンナダ用 Microsoft アナライザー。

ko.lucene

韓国語用 Lucene アナライザー。

ko.microsoft

韓国語用 Microsoft アナライザー。

lt.microsoft

リトアニア語用 Microsoft アナライザー。

lv.lucene

ラトビア語用 Lucene アナライザー。

lv.microsoft

ラトビア語用 Microsoft アナライザー。

ml.microsoft

マラヤーラム用 Microsoft アナライザー。

mr.microsoft

Marathi 用 Microsoft アナライザー。

ms.microsoft

マレー語 (ラテン) 用 Microsoft アナライザー。

nb.microsoft

ノルウェー語 (Bokmål) 用 Microsoft アナライザー。

nl.lucene

オランダ語用 Lucene アナライザー。

nl.microsoft

オランダ語用 Microsoft アナライザー。

no.lucene

ノルウェー語用 Lucene アナライザー。

pa.microsoft

Punjabi 用 Microsoft アナライザー。

pattern

正規表現パターンを使用して、テキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください

pl.lucene

ポーランド語用 Lucene アナライザー。

pl.microsoft

ポーランド語用 Microsoft アナライザー。

pt-BR.lucene

ポルトガル語 (ブラジル) 用 Lucene アナライザー。

pt-BR.microsoft

ポルトガル語 (ブラジル) 用 Microsoft アナライザー。

pt-PT.lucene

ポルトガル語 (ポルトガル) 用 Lucene アナライザー。

pt-PT.microsoft

ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。

ro.lucene

ルーマニア語用 Lucene アナライザー。

ro.microsoft

ルーマニア語用 Microsoft アナライザー。

ru.lucene

ロシア語用 Lucene アナライザー。

ru.microsoft

ロシア語用 Microsoft アナライザー。

simple

テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください

sk.microsoft

スロバキア語用 Microsoft アナライザー。

sl.microsoft

スロベニア語用 Microsoft アナライザー。

sr-cyrillic.microsoft

セルビア語 (キリル) 用 Microsoft アナライザー。

sr-latin.microsoft

セルビア語 (ラテン) 用 Microsoft アナライザー。

standard.lucene

標準 Lucene アナライザー。

standardasciifolding.lucene

標準 ASCII フォールディング Lucene アナライザー。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください

stop

テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください

sv.lucene

スウェーデン語用 Lucene アナライザー。

sv.microsoft

スウェーデン語用 Microsoft アナライザー。

ta.microsoft

Tamil 用 Microsoft アナライザー。

te.microsoft

Telugu 用 Microsoft アナライザー。

th.lucene

タイ語用 Lucene アナライザー。

th.microsoft

タイ語用 Microsoft アナライザー。

tr.lucene

トルコ語用 Lucene アナライザー。

tr.microsoft

トルコ語用 Microsoft アナライザー。

uk.microsoft

ウクライナ語用 Microsoft アナライザー。

ur.microsoft

Urdu 用 Microsoft アナライザー。

vi.microsoft

ベトナム語用 Microsoft アナライザー。

whitespace

空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください

zh-Hans.lucene

中国語 (簡体字) 用 Lucene アナライザー。

zh-Hans.microsoft

Microsoft Analyzer for Chinese (簡体字)。

zh-Hant.lucene

中国語 (繁体字) 用 Lucene アナライザー。

zh-Hant.microsoft

Microsoft analyzer for Chinese (繁体字)。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

説明
classic

ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html を参照してください

edgeNGram

エッジからの入力を特定のサイズの n グラムにトークン化します。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html を参照してください

keyword_v2

入力全体を 1 つのトークンとして出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html を参照してください

letter

テキストを文字以外で分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html を参照してください

lowercase

テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html を参照してください

microsoft_language_stemming_tokenizer

言語固有のルールを使用してテキストを分割し、単語を基本フォームに減らします。

microsoft_language_tokenizer

言語固有のルールを使用してテキストを分割します。

nGram

指定したサイズの n グラムに入力をトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html を参照してください

path_hierarchy_v2

パスに似た階層のトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html を参照してください

pattern

正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html を参照してください

standard_v2

標準 Lucene アナライザー;標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html を参照してください

uax_url_email

URL と電子メールを 1 つのトークンとしてトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html を参照してください

whitespace

空白文字でテキストを分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html を参照してください

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

説明
apostrophe

アポストロフィの後のすべての文字 (アポストロフィ自体を含む) を除去します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html を参照してください

arabic_normalization

アラビア語のノーマライザーを適用して序数を正規化するトークン フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html を参照してください

asciifolding

最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください

cjk_bigram

標準トークナイザーから生成される CJK 用語のビグラムを形成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html を参照してください

cjk_width

CJK の幅の違いを正規化します。 フルwidth ASCIIバリアントを同等の基本的なラテン語に、半角カタカナバリアントを同等のかなに折りたたみます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html を参照してください

classic

頭字語から英語の所有物とドットを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html を参照してください

common_grams

インデックス作成中に頻繁に発生する用語のビグラムを構築します。 単一の用語もインデックスが作成され、バイグラムが重なっています。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html を参照してください

edgeNGram_v2

入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html を参照してください

elision

エリジオンを削除します。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください

german_normalization

German2 スノーボール アルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html を参照してください

hindi_normalization

ヒンディー語のテキストを正規化して、スペル バリエーションの違いをいくつか削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html を参照してください

indic_normalization

インド言語でのテキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html を参照してください

keyword_repeat

各受信トークンを 2 回、キーワードとして 1 回、非キーワードとして 1 回出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html を参照してください

kstem

英語のハイ パフォーマンス kstem フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html を参照してください

length

長すぎる単語または短すぎる単語を削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html を参照してください

limit

インデックス作成中のトークンの数を制限します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html を参照してください

lowercase

トークン テキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください

nGram_v2

指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html を参照してください

persian_normalization

ペルシア語の正規化を適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html を参照してください

phonetic

ふりがなのトークンを作成します。 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html を参照してください

porter_stem

Porter ステミング アルゴリズムを使用してトークン ストリームを変換します。 http://tartarus.org/~martin/PorterStemmer を参照してください

reverse

トークン文字列を逆にします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください

scandinavian_folding

スカンジナビア文字 åÅäæÄÆ->a と ööøØ->o. また、二重母音 aa、ae、ao、oe、oo の使用を区別し、最初の母音だけを残します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html を参照してください

scandinavian_normalization

交換可能なスカンジナビア文字の使用を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html を参照してください

shingle

トークンの組み合わせを 1 つのトークンとして作成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html を参照してください

snowball

Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html を参照してください

sorani_normalization

Sorani テキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html を参照してください

stemmer

言語固有のステミング フィルター。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters を参照してください

stopwords

トークン ストリームからストップ ワードを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html を参照してください

trim

トークンから先頭と末尾の空白をトリミングします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html を参照してください

truncate

用語を特定の長さに切り捨てます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html を参照してください

unique

前のトークンと同じテキストを持つトークンを除外します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html を参照してください

uppercase

トークン テキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください

word_delimiter

単語をサブワードに分割し、サブワード グループに対してオプションの変換を実行します。