Dela via


PatternTokenizer interface

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Den här tokenizern implementeras med Apache Lucene.

Egenskaper

flags

Flaggor för reguljära uttryck. Möjliga värden är: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

group

Den nollbaserade ordningstalet för matchande grupp i mönstret för reguljära uttryck för att extrahera till token. Använd -1 om du vill använda hela mönstret för att dela indata i token, oavsett matchande grupper. Standardvärdet är -1. Standardvärde: -1.

name

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

odatatype

Polymorft diskriminerande

pattern

Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera blankstegstecken. Standardvärde: \W+.

Egenskapsinformation

flags

Flaggor för reguljära uttryck. Möjliga värden är: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

Egenskapsvärde

("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

group

Den nollbaserade ordningstalet för matchande grupp i mönstret för reguljära uttryck för att extrahera till token. Använd -1 om du vill använda hela mönstret för att dela indata i token, oavsett matchande grupper. Standardvärdet är -1. Standardvärde: -1.

group?: number

Egenskapsvärde

number

name

Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken.

name: string

Egenskapsvärde

string

odatatype

Polymorft diskriminerande

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Egenskapsvärde

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera blankstegstecken. Standardvärde: \W+.

pattern?: string

Egenskapsvärde

string