PatternTokenizer interface
使用 RegEx 模式比對來建構不同權杖的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 來實作。
屬性
flags | 正則運算式旗標。 可能的值包括:'CANON_EQ'、'CASE_INSENSITIVE'、'COMMENTS'、'DOTALL'、'LITERAL'、'MULTILINE'、'UNICODE_CASE'、'UNIX_LINES' |
group | 正則運算式模式中相符群組的以零起始序數,以擷取到標記中。 如果您想要使用整個模式將輸入分割成權杖,而不論相符的群組為何,請使用 -1。 預設值為 -1。 預設值:-1。 |
name | Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
odatatype | 多型鑒別子 |
pattern | 符合標記分隔符號的正則運算式模式。 預設值是符合一或多個空白字元的運算式。 預設值: |
屬性詳細資料
flags
正則運算式旗標。 可能的值包括:'CANON_EQ'、'CASE_INSENSITIVE'、'COMMENTS'、'DOTALL'、'LITERAL'、'MULTILINE'、'UNICODE_CASE'、'UNIX_LINES'
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
屬性值
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
正則運算式模式中相符群組的以零起始序數,以擷取到標記中。 如果您想要使用整個模式將輸入分割成權杖,而不論相符的群組為何,請使用 -1。 預設值為 -1。 預設值:-1。
group?: number
屬性值
number
name
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。
name: string
屬性值
string
odatatype
多型鑒別子
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
屬性值
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
符合標記分隔符號的正則運算式模式。 預設值是符合一或多個空白字元的運算式。 預設值:\W+
。
pattern?: string
屬性值
string