Indexes - Analyze

リファレンス

サービス:: Search Service

API バージョン:: 2023-10-01-Preview

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-10-01-Preview

URI パラメーター

名前	/	必須	型	説明
endpoint	path	True	string	検索サービスのエンドポイント URL。
indexName	path	True	string	アナライザーをテストするインデックスの名前。
api-version	query	True	string	クライアント API のバージョン。

要求ヘッダー

名前	必須	型	説明
x-ms-client-request-id		string uuid	デバッグに役立つ要求と共に送信された追跡 ID。

要求本文

名前	必須	型	説明
text	True	string	トークンに分割するテキスト。
analyzer		LexicalAnalyzerName	指定したテキストを中断するために使用するアナライザーの名前。
charFilters		CharFilterName[]	指定したテキストを区切るときに使用する文字フィルターのオプションリスト。
normalizer		LexicalNormalizerName	指定したテキストを正規化するために使用するノーマライザーの名前。
tokenFilters		TokenFilterName[]	指定したテキストを中断するときに使用するトークンフィルターのオプションリスト。
tokenizer		LexicalTokenizerName	指定したテキストを区切るために使用するトークナイザーの名前。

応答

名前	型	説明
200 OK	AnalyzeResult
Other Status Codes	SearchError	エラー応答。

例

SearchServiceIndexAnalyze

要求のサンプル

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-10-01-Preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

応答のサンプル

状態コード:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前	説明
AnalyzedTokenInfo	アナライザーによって返されるトークンに関する情報。
AnalyzeRequest	そのテキストをトークンに分割するために使用されるテキストコンポーネントと分析コンポーネントを指定します。
AnalyzeResult	テキストでアナライザーをテストした結果。
CharFilterName	検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
LexicalAnalyzerName	検索エンジンでサポートされているすべてのテキストアナライザーの名前を定義します。
LexicalNormalizerName	検索エンジンでサポートされているすべてのテキストノーマライザーの名前を定義します。
LexicalTokenizerName	検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
SearchError	API のエラー条件について説明します。
TokenFilterName	検索エンジンでサポートされているすべてのトークンフィルターの名前を定義します。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前	型	説明
endOffset	integer	入力テキスト内のトークンの最後の文字のインデックス。
position	integer	他のトークンに対する入力テキスト内のトークンの位置。入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 などです。使用されるアナライザーによっては、一部のトークンの位置が同じになる場合があります (たとえば、トークンが互いのシノニムである場合)。
startOffset	integer	入力テキスト内のトークンの最初の文字のインデックス。
token	string	アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストコンポーネントと分析コンポーネントを指定します。

名前	型	説明
analyzer	LexicalAnalyzerName	指定したテキストを分割するために使用するアナライザーの名前。
charFilters	CharFilterName[]	指定したテキストを分割するときに使用する文字フィルターの省略可能な一覧。
normalizer	LexicalNormalizerName	指定されたテキストを正規化するために使用するノーマライザーの名前。
text	string	トークンに分割するテキスト。
tokenFilters	TokenFilterName[]	指定されたテキストを分割するときに使用するトークンフィルターの省略可能な一覧。
tokenizer	LexicalTokenizerName	指定されたテキストを分割するために使用するトークナイザーの名前。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前	型	説明
tokens	AnalyzedTokenInfo[]	要求で指定されたアナライザーによって返されるトークンの一覧。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

名前	型	説明
html_strip	string	HTML コンストラクトを取り除こうとする文字フィルター。「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html」を参照してください。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキストアナライザーの名前を定義します。

名前	型	説明
ar.lucene	string	アラビア語用 Lucene アナライザー。
ar.microsoft	string	アラビア語用 Microsoft アナライザー。
bg.lucene	string	ブルガリア語用 Lucene アナライザー。
bg.microsoft	string	ブルガリア語用 Microsoft アナライザー。
bn.microsoft	string	Bangla 用 Microsoft アナライザー。
ca.lucene	string	カタロニア語用 Lucene アナライザー。
ca.microsoft	string	カタロニア語用 Microsoft アナライザー。
cs.lucene	string	チェコ語用 Lucene アナライザー。
cs.microsoft	string	チェコ語用 Microsoft アナライザー。
da.lucene	string	デンマーク語用 Lucene アナライザー。
da.microsoft	string	デンマーク語用 Microsoft アナライザー。
de.lucene	string	ドイツ語用 Lucene アナライザー。
de.microsoft	string	ドイツ語用 Microsoft アナライザー。
el.lucene	string	ギリシャ語用 Lucene アナライザー。
el.microsoft	string	ギリシャ語用 Microsoft アナライザー。
en.lucene	string	英語用 Lucene アナライザー。
en.microsoft	string	英語用 Microsoft アナライザー。
es.lucene	string	スペイン語用 Lucene アナライザー。
es.microsoft	string	スペイン語用 Microsoft アナライザー。
et.microsoft	string	エストニア語用 Microsoft アナライザー。
eu.lucene	string	バスク語用 Lucene アナライザー。
fa.lucene	string	ペルシャ語用 Lucene アナライザー。
fi.lucene	string	フィンランド語用 Lucene アナライザー。
fi.microsoft	string	フィンランド語用 Microsoft アナライザー。
fr.lucene	string	フランス語用 Lucene アナライザー。
fr.microsoft	string	フランス語用 Microsoft アナライザー。
ga.lucene	string	アイルランド語用 Lucene アナライザー。
gl.lucene	string	ガリシア語用 Lucene アナライザー。
gu.microsoft	string	Gujarati 用 Microsoft アナライザー。
he.microsoft	string	ヘブライ語用 Microsoft アナライザー。
hi.lucene	string	ヒンディー語用 Lucene アナライザー。
hi.microsoft	string	ヒンディー語用 Microsoft アナライザー。
hr.microsoft	string	クロアチア語用 Microsoft アナライザー。
hu.lucene	string	ハンガリー語用 Lucene アナライザー。
hu.microsoft	string	ハンガリー語用 Microsoft アナライザー。
hy.lucene	string	アルメニア語用 Lucene アナライザー。
id.lucene	string	インドネシア語用 Lucene アナライザー。
id.microsoft	string	インドネシア語 (Bahasa) 用 Microsoft アナライザー。
is.microsoft	string	アイスランド語用 Microsoft アナライザー。
it.lucene	string	イタリア語用 Lucene アナライザー。
it.microsoft	string	イタリア語用 Microsoft アナライザー。
ja.lucene	string	日本語用 Lucene アナライザー。
ja.microsoft	string	日本語用 Microsoft アナライザー。
keyword	string	フィールドの内容全体を 1 つのトークンとして扱います。これは、郵便番号、ID、製品名などのデータで役立ちます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html」を参照してください。
kn.microsoft	string	カンナダ用 Microsoft アナライザー。
ko.lucene	string	韓国語用 Lucene アナライザー。
ko.microsoft	string	韓国語用 Microsoft アナライザー。
lt.microsoft	string	リトアニア語用 Microsoft アナライザー。
lv.lucene	string	ラトビア語用 Lucene アナライザー。
lv.microsoft	string	ラトビア語用 Microsoft アナライザー。
ml.microsoft	string	マラヤーラム用 Microsoft アナライザー。
mr.microsoft	string	Marathi 用 Microsoft アナライザー。
ms.microsoft	string	マレー語 (ラテン) 用 Microsoft アナライザー。
nb.microsoft	string	ノルウェー語 (Bokmål) 用 Microsoft アナライザー。
nl.lucene	string	オランダ語用 Lucene アナライザー。
nl.microsoft	string	オランダ語用 Microsoft アナライザー。
no.lucene	string	ノルウェー語用 Lucene アナライザー。
pa.microsoft	string	Punjabi 用 Microsoft アナライザー。
pattern	string	正規表現のパターンを使用してテキストを用語に柔軟に分割します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html」を参照してください。
pl.lucene	string	ポーランド語用 Lucene アナライザー。
pl.microsoft	string	ポーランド語用 Microsoft アナライザー。
pt-BR.lucene	string	ポルトガル語 (ブラジル) 用 Lucene アナライザー。
pt-BR.microsoft	string	ポルトガル語 (ブラジル) 用 Microsoft アナライザー。
pt-PT.lucene	string	ポルトガル語 (ポルトガル) 用 Lucene アナライザー。
pt-PT.microsoft	string	ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。
ro.lucene	string	ルーマニア語用 Lucene アナライザー。
ro.microsoft	string	ルーマニア語用の Microsoft アナライザー。
ru.lucene	string	ロシア語用 Lucene アナライザー。
ru.microsoft	string	ロシア語用 Microsoft アナライザー。
simple	string	非文字でテキストが分割され、それらが小文字に変換されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html」を参照してください。
sk.microsoft	string	スロバキア語用 Microsoft アナライザー。
sl.microsoft	string	スロベニア語用 Microsoft アナライザー。
sr-cyrillic.microsoft	string	セルビア語 (キリル) 用 Microsoft アナライザー。
sr-latin.microsoft	string	セルビア語 (ラテン) 用の Microsoft アナライザー。
standard.lucene	string	Standard Lucene アナライザー。
standardasciifolding.lucene	string	Standard ASCII フォールディング Lucene アナライザー。「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers」を参照してください。
stop	string	テキストを文字以外で分割します。小文字とストップワードのトークンフィルターを適用します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html」を参照してください。
sv.lucene	string	スウェーデン語用 Lucene アナライザー。
sv.microsoft	string	スウェーデン語用 Microsoft アナライザー。
ta.microsoft	string	Tamil 用 Microsoft アナライザー。
te.microsoft	string	テルグ語用 Microsoft アナライザー。
th.lucene	string	タイ語用 Lucene アナライザー。
th.microsoft	string	タイ語用 Microsoft アナライザー。
tr.lucene	string	トルコ語用 Lucene アナライザー。
tr.microsoft	string	トルコ語用 Microsoft アナライザー。
uk.microsoft	string	ウクライナ語用 Microsoft アナライザー。
ur.microsoft	string	Urdu 用 Microsoft アナライザー。
vi.microsoft	string	ベトナム語用 Microsoft アナライザー。
whitespace	string	空白文字トークナイザーを使用するアナライザー。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html」を参照してください。
zh-Hans.lucene	string	Lucene analyzer for Chinese (簡体字)。
zh-Hans.microsoft	string	Microsoft Analyzer for Chinese (簡体字)。
zh-Hant.lucene	string	Lucene analyzer for Chinese (繁体字)。
zh-Hant.microsoft	string	Microsoft Analyzer for Chinese (繁体字)。

LexicalNormalizerName

検索エンジンでサポートされているすべてのテキストノーマライザーの名前を定義します。

名前	型	説明
asciifolding	string	最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット、数字、および記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html」を参照してください。
elision	string	省略記号が削除されます。たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html」を参照してください。
lowercase	string	トークンテキストを小文字に正規化します。「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html」を参照してください。
standard	string	標準ノーマライザー。小文字と asciifolding で構成されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html」を参照してください。
uppercase	string	トークンテキストを大文字に正規化します。「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html」を参照してください。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

名前	型	説明
classic	string	ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html」を参照してください。
edgeNGram	string	エッジからの入力を、指定されたサイズの n グラムにトークン化します。「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html」を参照してください。
keyword_v2	string	入力全体が 1 つのトークンとして生成されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html」を参照してください。
letter	string	非文字でテキストを分割します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html」を参照してください。
lowercase	string	非文字でテキストが分割され、それらが小文字に変換されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html」を参照してください。
microsoft_language_stemming_tokenizer	string	言語固有のルールを使用してテキストが分割され、基本フォームに単語が減らされます。
microsoft_language_tokenizer	string	言語固有のルールを使用してテキストが分割されます。
nGram	string	入力が指定サイズの n グラムにトークン化されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html」を参照してください。
path_hierarchy_v2	string	パスのような階層のトークナイザー。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html」を参照してください。
pattern	string	正規表現パターンマッチングを使用して個別のトークンを構築するトークナイザー。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html」を参照してください。
standard_v2	string	Standard Lucene アナライザー。標準のトークナイザー、小文字のフィルター、および停止フィルターで構成されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html」を参照してください。
uax_url_email	string	URL と電子メールが 1 つのトークンとしてトークン化されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html」を参照してください。
whitespace	string	空白文字によりテキストが分割されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html」を参照してください。

SearchError

API のエラー条件について説明します。

名前	型	説明
code	string	サーバー定義のエラーコードのセットの 1 つ。
details	SearchError[]	この報告されたエラーの原因となった特定のエラーに関する詳細の配列。
message	string	エラーの人間が判読できる表現。

TokenFilterName

検索エンジンでサポートされているすべてのトークンフィルターの名前を定義します。

名前	型	説明
apostrophe	string	アポストロフィ以降 (アポストロフィ自体を含む) のすべての文字が除去されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html」を参照してください。
arabic_normalization	string	アラビア語ノーマライザーを適用して正書法を正規化するトークンフィルター。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html」を参照してください。
asciifolding	string	最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット文字、数値文字、およびシンボリック Unicode 文字を、ASCII に相当する文字 (存在する場合) に変換します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html」を参照してください。
cjk_bigram	string	標準トークナイザーから生成される CJK 用語のビッグラムを形成します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html」を参照してください。
cjk_width	string	CJK の幅の違いが正規化されます。全角 ASCII バリアントを同等の基本的なラテン語に、半角カタカナのバリアントを同等のかなに折りたたみます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html」を参照してください。
classic	string	英語の所有物とドットを頭字語から削除します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html」を参照してください。
common_grams	string	インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html」を参照してください。
edgeNGram_v2	string	入力トークンの前面または背面から始まる、指定されたサイズの n-gram を生成します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html」を参照してください。
elision	string	省略記号が削除されます。たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html」を参照してください。
german_normalization	string	German2 スノーボールアルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html」を参照してください。
hindi_normalization	string	ヒンディー語のテキストが正規化され、スペルのバリエーションの違いが削除されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html」を参照してください。
indic_normalization	string	インドの言語でのテキストの Unicode 表現が正規化されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html」を参照してください。
keyword_repeat	string	各受信トークンを 2 回、キーワード (keyword)として 1 回、非キーワード (keyword)として 1 回出力します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html」を参照してください。
kstem	string	英語用の高パフォーマンスの kstem フィルター。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html」を参照してください。
length	string	長すぎる単語または短すぎる単語が削除されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html」を参照してください。
limit	string	インデックス付けの間に、トークンの数が制限されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html」を参照してください。
lowercase	string	トークンのテキストが小文字に正規化されます。「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html」を参照してください。
nGram_v2	string	指定サイズの n グラムが生成されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html」を参照してください。
persian_normalization	string	ペルシャ語の正規化が適用されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html」を参照してください。
phonetic	string	音声一致用のトークンが作成されます。「https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html」を参照してください。
porter_stem	string	Porter ステミングアルゴリズムを使用してトークンストリームを変換します。「http://tartarus.org/~martin/PorterStemmer」を参照してください。
reverse	string	トークンの文字列が反転されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html」を参照してください。
scandinavian_folding	string	スカンジナビア語の文字が åÅäæÄÆ->a および öÖøØ->o にフォールドされます。また、重母音 aa、ae、ao、oe、oo の使用を判別し、最初の 1 つだけが残されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html」を参照してください。
scandinavian_normalization	string	交換可能なスカンジナビア語の文字の使用を正規化します。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html」を参照してください。
shingle	string	トークンの組み合わせが 1 つのトークンとして作成されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html」を参照してください。
snowball	string	Snowball で生成されたステマーを使用して単語をステミングするフィルター。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html」を参照してください。
sorani_normalization	string	ソラニー語テキストの Unicode 表現が正規化されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html」を参照してください。
stemmer	string	言語固有のステミングフィルター。「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters」を参照してください。
stopwords	string	トークンストリームからストップワードが削除されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html」を参照してください。
trim	string	先頭と末尾の空白文字がトークンからトリミングされます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html」を参照してください。
truncate	string	用語を特定の長さに切り捨てます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html」を参照してください。
unique	string	前のトークンと同じテキストのトークンが除外されます。「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html」を参照してください。
uppercase	string	トークンのテキストが大文字に正規化されます。「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html」を参照してください。
word_delimiter	string	単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。

次の方法で共有