MicrosoftLanguageTokenizer interface
Verdeelt tekst met taalspecifieke regels.
- Uitbreiding
Eigenschappen
is |
Een waarde die aangeeft hoe de tokenizer wordt gebruikt. Ingesteld op true als deze wordt gebruikt als de zoektokenizer, ingesteld op onwaar als deze wordt gebruikt als de indexeringstokenizer. De standaardwaarde is onwaar. |
language | De taal die moet worden gebruikt. De standaardwaarde is Engels. |
max |
De maximale tokenlengte. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. Tokens die langer zijn dan 300 tekens worden eerst gesplitst in tokens van lengte 300 en vervolgens wordt elk van deze tokens gesplitst op basis van de maximale lengte van het token. De standaardwaarde is 255. |
odatatype | Polymorf discriminator, waarmee de verschillende typen dit object kunnen worden opgegeven |
Overgenomen eigenschappen
name | De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
Eigenschapdetails
isSearchTokenizer
Een waarde die aangeeft hoe de tokenizer wordt gebruikt. Ingesteld op true als deze wordt gebruikt als de zoektokenizer, ingesteld op onwaar als deze wordt gebruikt als de indexeringstokenizer. De standaardwaarde is onwaar.
isSearchTokenizer?: boolean
Waarde van eigenschap
boolean
language
De taal die moet worden gebruikt. De standaardwaarde is Engels.
language?: MicrosoftTokenizerLanguage
Waarde van eigenschap
maxTokenLength
De maximale tokenlengte. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. Tokens die langer zijn dan 300 tekens worden eerst gesplitst in tokens van lengte 300 en vervolgens wordt elk van deze tokens gesplitst op basis van de maximale lengte van het token. De standaardwaarde is 255.
maxTokenLength?: number
Waarde van eigenschap
number
odatatype
Polymorf discriminator, waarmee de verschillende typen dit object kunnen worden opgegeven
odatatype: "#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"
Waarde van eigenschap
"#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"
Details van overgenomen eigenschap
name
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten.
name: string
Waarde van eigenschap
string
overgenomen vanBaseLexicalTokenizer.name