LuceneStandardTokenizer interface

遵循 Unicode 文字分割規則來分解文字。此 Tokenizer 是使用 Apache Lucene 實作。

屬性

maxTokenLength	權杖長度上限。預設值為 255。超過長度上限的權杖會進行分割。可使用的權杖長度上限為 300 個字元。預設值：255。
name	Tokenizer 的名稱。名稱必須包含字母、數字、空格、虛線或底線，同時開頭必須是英數字元，而且不得超過 128 個字元。
odatatype	多型辨別器

權杖長度上限。預設值為 255。超過長度上限的權杖會進行分割。可使用的權杖長度上限為 300 個字元。預設值：255。

maxTokenLength?: number

number

Tokenizer 的名稱。名稱必須包含字母、數字、空格、虛線或底線，同時開頭必須是英數字元，而且不得超過 128 個字元。

name: string

string

多型辨別器

odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"

"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"