CustomAnalyzer interface
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za rozdělení textu do tokenů a filtry pro úpravu tokenů vygenerovaných tokenizátorem.
Vlastnosti
char |
Seznam filtrů znaků, které se používají k přípravě vstupního textu před jeho zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
name | Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
odatatype | Polymorfní diskriminace |
token |
Seznam filtrů tokenů používaných k odfiltrování nebo úpravě tokenů vygenerovaných tokenizátorem. Můžete například zadat filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
tokenizer |
Název tokenizátoru, který se má použít k rozdělení souvislého textu na posloupnost tokenů, jako je rozdělení věty na slova. KnownTokenizerNames je výčet obsahující předdefinované názvy tokenizátorů. |
Podrobnosti vlastnosti
charFilters
Seznam filtrů znaků, které se používají k přípravě vstupního textu před jeho zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.
charFilters?: string[]
Hodnota vlastnosti
string[]
name
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.
name: string
Hodnota vlastnosti
string
odatatype
Polymorfní diskriminace
odatatype: "#Microsoft.Azure.Search.CustomAnalyzer"
Hodnota vlastnosti
"#Microsoft.Azure.Search.CustomAnalyzer"
tokenFilters
Seznam filtrů tokenů používaných k odfiltrování nebo úpravě tokenů vygenerovaných tokenizátorem. Můžete například zadat filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.
tokenFilters?: string[]
Hodnota vlastnosti
string[]
tokenizerName
Název tokenizátoru, který se má použít k rozdělení souvislého textu na posloupnost tokenů, jako je rozdělení věty na slova. KnownTokenizerNames je výčet obsahující předdefinované názvy tokenizátorů.
tokenizerName: string
Hodnota vlastnosti
string