Sdílet prostřednictvím


LuceneStandardTokenizer interface

Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

Vlastnosti

maxTokenLength

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Výchozí hodnota: 255.

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

odatatype

Polymorfní diskriminátor

Podrobnosti vlastnosti

maxTokenLength

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Výchozí hodnota: 255.

maxTokenLength?: number

Hodnota vlastnosti

number

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

name: string

Hodnota vlastnosti

string

odatatype

Polymorfní diskriminátor

odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"

Hodnota vlastnosti

"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"