PatternTokenizer interface
Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokenizern implementeras med Apache Lucene.
Egenskaper
flags | Flaggor för reguljära uttryck. Möjliga värden är: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES" |
group | Den nollbaserade ordningstalet för matchande grupp i mönstret för reguljära uttryck för att extrahera till token. Använd -1 om du vill använda hela mönstret för att dela indata i token, oavsett matchande grupper. Standardvärdet är -1. Standardvärde: -1. |
name | Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
odatatype | Polymorft diskriminerande |
pattern | Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera blankstegstecken. Standardvärde: |
Egenskapsinformation
flags
Flaggor för reguljära uttryck. Möjliga värden är: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Egenskapsvärde
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Den nollbaserade ordningstalet för matchande grupp i mönstret för reguljära uttryck för att extrahera till token. Använd -1 om du vill använda hela mönstret för att dela indata i token, oavsett matchande grupper. Standardvärdet är -1. Standardvärde: -1.
group?: number
Egenskapsvärde
number
name
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.
name: string
Egenskapsvärde
string
odatatype
Polymorft diskriminerande
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Egenskapsvärde
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera blankstegstecken. Standardvärde: \W+
.
pattern?: string
Egenskapsvärde
string