PatternTokenizer interface
Tokenizer qui utilise le modèle regex correspondant pour construire des jetons distincts. Ce tokenizer est implémenté à l’aide d’Apache Lucene.
Propriétés
flags | Indicateurs d’expression régulière. Les valeurs possibles sont les suivantes : « CANON_EQ », « CASE_INSENSITIVE », « COMMENTS », « DOTALL », « LITTÉRAL », « MULTILINE », « UNICODE_CASE », « UNIX_LINES » |
group | Ordinal de base zéro du groupe correspondant dans le modèle d’expression régulière à extraire dans des jetons. Utilisez -1 si vous souhaitez utiliser l’ensemble du modèle pour fractionner l’entrée en jetons, indépendamment des groupes correspondants. La valeur par défaut est -1. Valeur par défaut : -1. |
name | Nom du tokenizer. Il ne doit contenir que des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement, ne peut commencer et se terminer que par des caractères alphanumériques et est limité à 128 caractères. |
odatatype | Discriminateur polymorphe |
pattern | Modèle d’expression régulière pour faire correspondre les séparateurs de jetons. La valeur par défaut est une expression qui correspond à un ou plusieurs espaces blancs. Valeur par défaut : |
Détails de la propriété
flags
Indicateurs d’expression régulière. Les valeurs possibles sont les suivantes : « CANON_EQ », « CASE_INSENSITIVE », « COMMENTS », « DOTALL », « LITTÉRAL », « MULTILINE », « UNICODE_CASE », « UNIX_LINES »
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Valeur de propriété
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Ordinal de base zéro du groupe correspondant dans le modèle d’expression régulière à extraire dans des jetons. Utilisez -1 si vous souhaitez utiliser l’ensemble du modèle pour fractionner l’entrée en jetons, indépendamment des groupes correspondants. La valeur par défaut est -1. Valeur par défaut : -1.
group?: number
Valeur de propriété
number
name
Nom du tokenizer. Il ne doit contenir que des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement, ne peut commencer et se terminer que par des caractères alphanumériques et est limité à 128 caractères.
name: string
Valeur de propriété
string
odatatype
Discriminateur polymorphe
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Valeur de propriété
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Modèle d’expression régulière pour faire correspondre les séparateurs de jetons. La valeur par défaut est une expression qui correspond à un ou plusieurs espaces blancs. Valeur par défaut : \W+
.
pattern?: string
Valeur de propriété
string