LuceneStandardTokenizer interface
Unicode テキスト セグメント化ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。
プロパティ
max |
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 既定値: 255。 |
name | トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
odatatype | ポリモーフィック識別子 |
プロパティの詳細
maxTokenLength
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 既定値: 255。
maxTokenLength?: number
プロパティ値
number
name
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。
name: string
プロパティ値
string
odatatype
ポリモーフィック識別子
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
プロパティ値
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"