LuceneStandardTokenizer interface
Teilt Text gemäß den Regeln für Unicode-Textsegmentierung auf. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Eigenschaften
max |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Standardwert: 255. |
name | Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
odatatype | Polymorpher Diskriminator |
Details zur Eigenschaft
maxTokenLength
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Standardwert: 255.
maxTokenLength?: number
Eigenschaftswert
number
name
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.
name: string
Eigenschaftswert
string
odatatype
Polymorpher Diskriminator
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
Eigenschaftswert
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"