PatternTokenizer interface
Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Właściwości
flags | Flagi wyrażeń regularnych. Możliwe wartości to: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES" |
group | Porządkowy na podstawie zera pasującej grupy we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny niezależnie od pasujących grup. Wartość domyślna to -1. Wartość domyślna: -1. |
name | Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
odatatype | Dyskryminujący polimorficzny |
pattern | Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem odstępu. Wartość domyślna: |
Szczegóły właściwości
flags
Flagi wyrażeń regularnych. Możliwe wartości to: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Wartość właściwości
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Porządkowy na podstawie zera pasującej grupy we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny niezależnie od pasujących grup. Wartość domyślna to -1. Wartość domyślna: -1.
group?: number
Wartość właściwości
number
name
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.
name: string
Wartość właściwości
string
odatatype
Dyskryminujący polimorficzny
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Wartość właściwości
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem odstępu. Wartość domyślna: \W+
.
pattern?: string
Wartość właściwości
string