PatternTokenizer interface
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert.
Eigenschaften
flags | Kennzeichnungen für reguläre Ausdrücke. Mögliche Werte sind: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES" |
group | Die nullbasierte Ordnungszahl der übereinstimmenden Gruppe im Muster des regulären Ausdrucks zum Extrahieren in Token. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe unabhängig von übereinstimmenden Gruppen in Token aufzuteilen. Der Standardwert ist -1. Standardwert: -1. |
name | Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
odatatype | Polymorpher Diskriminator |
pattern | Ein Muster für reguläre Ausdrücke zum Abgleichen von Tokentrennzeichen. Der Standardwert ist ein Ausdruck, der einem oder mehreren Leerzeichen entspricht. Standardwert: |
Details zur Eigenschaft
flags
Kennzeichnungen für reguläre Ausdrücke. Mögliche Werte sind: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Eigenschaftswert
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Die nullbasierte Ordnungszahl der übereinstimmenden Gruppe im Muster des regulären Ausdrucks zum Extrahieren in Token. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe unabhängig von übereinstimmenden Gruppen in Token aufzuteilen. Der Standardwert ist -1. Standardwert: -1.
group?: number
Eigenschaftswert
number
name
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt.
name: string
Eigenschaftswert
string
odatatype
Polymorpher Diskriminator
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Eigenschaftswert
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Ein Muster für reguläre Ausdrücke zum Abgleichen von Tokentrennzeichen. Der Standardwert ist ein Ausdruck, der einem oder mehreren Leerzeichen entspricht. Standardwert: \W+
.
pattern?: string
Eigenschaftswert
string