LuceneStandardTokenizer interface
遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 實作。
屬性
max |
權杖長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的權杖長度上限為 300 個字元。 預設值:255。 |
name | Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
odatatype | 多型辨別器 |
屬性詳細資料
maxTokenLength
權杖長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的權杖長度上限為 300 個字元。 預設值:255。
maxTokenLength?: number
屬性值
number
name
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。
name: string
屬性值
string
odatatype
多型辨別器
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
屬性值
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"