PatternTokenizer interface

使用 RegEx 模式比對來建構不同權杖的 Tokenizer。此 Tokenizer 是使用 Apache Lucene 來實作。

屬性

flags	正則運算式旗標。可能的值包括：'CANON_EQ'、'CASE_INSENSITIVE'、'COMMENTS'、'DOTALL'、'LITERAL'、'MULTILINE'、'UNICODE_CASE'、'UNIX_LINES'
group	正則運算式模式中相符群組的以零起始序數，以擷取到標記中。如果您想要使用整個模式將輸入分割成權杖，而不論相符的群組為何，請使用 -1。預設值為 -1。預設值：-1。
name	Tokenizer 的名稱。名稱必須包含字母、數字、空格、虛線或底線，同時開頭必須是英數字元，而且不得超過 128 個字元。
odatatype	多型鑒別子
pattern	符合標記分隔符號的正則運算式模式。預設值是符合一或多個空白字元的運算式。預設值：`\W+`。

正則運算式旗標。可能的值包括：'CANON_EQ'、'CASE_INSENSITIVE'、'COMMENTS'、'DOTALL'、'LITERAL'、'MULTILINE'、'UNICODE_CASE'、'UNIX_LINES'

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

正則運算式模式中相符群組的以零起始序數，以擷取到標記中。如果您想要使用整個模式將輸入分割成權杖，而不論相符的群組為何，請使用 -1。預設值為 -1。預設值：-1。

group?: number

number

Tokenizer 的名稱。名稱必須包含字母、數字、空格、虛線或底線，同時開頭必須是英數字元，而且不得超過 128 個字元。

name: string

string

多型鑒別子

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

"#Microsoft.Azure.Search.PatternTokenizer"

符合標記分隔符號的正則運算式模式。預設值是符合一或多個空白字元的運算式。預設值：\W+。

pattern?: string

string