LuceneStandardTokenizer interface
Décompose le texte en suivant les règles de segmentation du texte Unicode. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Propriétés
max |
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton qui peut être utilisée est de 300 caractères. Valeur par défaut : 255. |
name | Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
odatatype | Discriminateur polymorphe |
Détails de la propriété
maxTokenLength
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton qui peut être utilisée est de 300 caractères. Valeur par défaut : 255.
maxTokenLength?: number
Valeur de propriété
number
name
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères.
name: string
Valeur de propriété
string
odatatype
Discriminateur polymorphe
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
Valeur de propriété
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"