MicrosoftLanguageTokenizer interface
Dividiert Text mithilfe sprachspezifischer Regeln.
- Extends
Eigenschaften
is |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Bei Verwendung als Suchtokenizer auf "true" festgelegt, wird "false" festgelegt, wenn er als Indizierungstokenizer verwendet wird. Der Standardwert ist "false". |
language | Die zu verwendende Sprache. Der Standardwert ist Englisch. |
max |
Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf dem maximalen Tokenlängensatz geteilt. Der Standardwert ist 255. |
odatatype | Polymorphe Diskriminator, der die verschiedenen Typen angibt, die dieses Objekt sein kann |
Geerbte Eigenschaften
name | Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
Details zur Eigenschaft
isSearchTokenizer
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Bei Verwendung als Suchtokenizer auf "true" festgelegt, wird "false" festgelegt, wenn er als Indizierungstokenizer verwendet wird. Der Standardwert ist "false".
isSearchTokenizer?: boolean
Eigenschaftswert
boolean
language
Die zu verwendende Sprache. Der Standardwert ist Englisch.
language?: MicrosoftTokenizerLanguage
Eigenschaftswert
maxTokenLength
Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf dem maximalen Tokenlängensatz geteilt. Der Standardwert ist 255.
maxTokenLength?: number
Eigenschaftswert
number
odatatype
Polymorphe Diskriminator, der die verschiedenen Typen angibt, die dieses Objekt sein kann
odatatype: "#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"
Eigenschaftswert
"#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"
Geerbte Eigenschaftsdetails
name
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt.
name: string
Eigenschaftswert
string
geerbt vonBaseLexicalTokenizer.name