Partager via


PatternTokenizer interface

Tokenizer qui utilise le modèle regex correspondant pour construire des jetons distincts. Ce tokenizer est implémenté à l’aide d’Apache Lucene.

Propriétés

flags

Indicateurs d’expression régulière. Les valeurs possibles sont les suivantes : « CANON_EQ », « CASE_INSENSITIVE », « COMMENTS », « DOTALL », « LITTÉRAL », « MULTILINE », « UNICODE_CASE », « UNIX_LINES »

group

Ordinal de base zéro du groupe correspondant dans le modèle d’expression régulière à extraire dans des jetons. Utilisez -1 si vous souhaitez utiliser l’ensemble du modèle pour fractionner l’entrée en jetons, indépendamment des groupes correspondants. La valeur par défaut est -1. Valeur par défaut : -1.

name

Nom du tokenizer. Il ne doit contenir que des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement, ne peut commencer et se terminer que par des caractères alphanumériques et est limité à 128 caractères.

odatatype

Discriminateur polymorphe

pattern

Modèle d’expression régulière pour faire correspondre les séparateurs de jetons. La valeur par défaut est une expression qui correspond à un ou plusieurs espaces blancs. Valeur par défaut : \W+.

Détails de la propriété

flags

Indicateurs d’expression régulière. Les valeurs possibles sont les suivantes : « CANON_EQ », « CASE_INSENSITIVE », « COMMENTS », « DOTALL », « LITTÉRAL », « MULTILINE », « UNICODE_CASE », « UNIX_LINES »

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

Valeur de propriété

("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

group

Ordinal de base zéro du groupe correspondant dans le modèle d’expression régulière à extraire dans des jetons. Utilisez -1 si vous souhaitez utiliser l’ensemble du modèle pour fractionner l’entrée en jetons, indépendamment des groupes correspondants. La valeur par défaut est -1. Valeur par défaut : -1.

group?: number

Valeur de propriété

number

name

Nom du tokenizer. Il ne doit contenir que des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement, ne peut commencer et se terminer que par des caractères alphanumériques et est limité à 128 caractères.

name: string

Valeur de propriété

string

odatatype

Discriminateur polymorphe

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Valeur de propriété

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Modèle d’expression régulière pour faire correspondre les séparateurs de jetons. La valeur par défaut est une expression qui correspond à un ou plusieurs espaces blancs. Valeur par défaut : \W+.

pattern?: string

Valeur de propriété

string