Indexes - Analyze

Referência

Serviço:: Search Service

Versão da API:: 2024-05-01-preview

Mostra como um analisador divide texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Parâmetros do URI

Name	Em	Necessário	Tipo	Description
endpoint	path	True	string	O URL do ponto final do serviço de pesquisa.
indexName	path	True	string	O nome do índice para o qual pode testar um analisador.
api-version	query	True	string	Versão da API de Cliente.

Cabeçalho do Pedido

Name	Necessário	Tipo	Description
x-ms-client-request-id		string uuid	O ID de controlo enviado com o pedido para ajudar na depuração.

Corpo do Pedido

Name	Necessário	Tipo	Description
text	True	string	O texto a dividir em tokens.
analyzer		LexicalAnalyzerName	O nome do analisador a utilizar para quebrar o texto especificado.
charFilters		CharFilterName[]	Uma lista opcional de filtros de carateres a utilizar ao quebrar o texto especificado.
normalizer		LexicalNormalizerName	O nome do normalizador a utilizar para normalizar o texto especificado.
tokenFilters		TokenFilterName[]	Uma lista opcional de filtros de tokens a utilizar ao quebrar o texto especificado.
tokenizer		LexicalTokenizerName	O nome do tokenizer a utilizar para quebrar o texto especificado.

Respostas

Name	Tipo	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Pedido de amostra

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta da amostra

Código de estado:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Name	Description
AnalyzedTokenInfo	Informações sobre um token devolvido por um analisador.
AnalyzeRequest	Especifica alguns componentes de texto e análise utilizados para dividir esse texto em tokens.
AnalyzeResult	O resultado do teste de um analisador em texto.
CharFilterName	Define os nomes de todos os filtros de carateres suportados pelo motor de busca.
ErrorAdditionalInfo	Informações adicionais sobre o erro de gestão de recursos.
ErrorDetail	O detalhe do erro.
ErrorResponse	Resposta a erros
LexicalAnalyzerName	Define os nomes de todos os analisadores de texto suportados pelo motor de busca.
LexicalNormalizerName	Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.
LexicalTokenizerName	Define os nomes de todos os tokenizers suportados pelo motor de busca.
TokenFilterName	Define os nomes de todos os filtros de token suportados pelo motor de busca.

AnalyzedTokenInfo

Informações sobre um token devolvido por um analisador.

Name	Tipo	Description
endOffset	integer	O índice do último caráter do token no texto de entrada.
position	integer	A posição do token no texto de entrada relativamente a outros tokens. O primeiro token no texto de entrada tem a posição 0, o seguinte tem a posição 1, etc. Dependendo do analisador utilizado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinónimos uns dos outros.
startOffset	integer	O índice do primeiro caráter do token no texto de entrada.
token	string	O token devolvido pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise utilizados para dividir esse texto em tokens.

Name	Tipo	Description
analyzer	LexicalAnalyzerName	O nome do analisador a utilizar para quebrar o texto especificado.
charFilters	CharFilterName[]	Uma lista opcional de filtros de carateres a utilizar ao quebrar o texto especificado.
normalizer	LexicalNormalizerName	O nome do normalizador a utilizar para normalizar o texto especificado.
text	string	O texto a dividir em tokens.
tokenFilters	TokenFilterName[]	Uma lista opcional de filtros de tokens a utilizar ao quebrar o texto especificado.
tokenizer	LexicalTokenizerName	O nome do tokenizer a utilizar para quebrar o texto especificado.

AnalyzeResult

O resultado do teste de um analisador em texto.

Name	Tipo	Description
tokens	AnalyzedTokenInfo[]	A lista de tokens devolvidos pelo analisador especificado no pedido.

CharFilterName

Define os nomes de todos os filtros de carateres suportados pelo motor de busca.

Name	Tipo	Description
html_strip	string	Um filtro de carateres que tenta remover construções HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Informações adicionais sobre o erro de gestão de recursos.

Name	Tipo	Description
info	object	As informações adicionais.
type	string	O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Name	Tipo	Description
additionalInfo	ErrorAdditionalInfo[]	As informações adicionais do erro.
code	string	O código de erro.
details	ErrorDetail[]	Os detalhes do erro.
message	string	A mensagem de erro.
target	string	O destino do erro.

ErrorResponse

Resposta a erros

Name	Tipo	Description
error	ErrorDetail	O objeto de erro.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo motor de busca.

Name	Tipo	Description
ar.lucene	string	Lucene analyzer para árabe.
ar.microsoft	string	Analisador da Microsoft para árabe.
bg.lucene	string	Analisador lucene para búlgaro.
bg.microsoft	string	Analisador da Microsoft para búlgaro.
bn.microsoft	string	Analisador da Microsoft para Bangla.
ca.lucene	string	Lucene analyzer para catalão.
ca.microsoft	string	Analisador da Microsoft para catalão.
cs.lucene	string	Analisador lucene para checo.
cs.microsoft	string	Analisador da Microsoft para checo.
da.lucene	string	Analisador lucene para dinamarquês.
da.microsoft	string	Analisador da Microsoft para dinamarquês.
de.lucene	string	Lucene analyzer para alemão.
de.microsoft	string	Analisador da Microsoft para alemão.
el.lucene	string	Lucene analyzer para grego.
el.microsoft	string	Analisador da Microsoft para grego.
en.lucene	string	Lucene analyzer para inglês.
en.microsoft	string	Analisador da Microsoft para inglês.
es.lucene	string	Analisador lucene para espanhol.
es.microsoft	string	Analisador da Microsoft para espanhol.
et.microsoft	string	Analisador da Microsoft para estónio.
eu.lucene	string	Analisador lucene para basco.
fa.lucene	string	Analisador lucene para persa.
fi.lucene	string	Analisador lucene para finlandês.
fi.microsoft	string	Analisador da Microsoft para finlandês.
fr.lucene	string	Analisador lucene para francês.
fr.microsoft	string	Analisador da Microsoft para francês.
ga.lucene	string	Lucene analyzer para irlandês.
gl.lucene	string	Analisador lucene para galego.
gu.microsoft	string	Analisador da Microsoft para o Gujarati.
he.microsoft	string	Analisador da Microsoft para hebraico.
hi.lucene	string	Lucene analyzer para Hindi.
hi.microsoft	string	Analisador da Microsoft para Hindi.
hr.microsoft	string	Analisador da Microsoft para croata.
hu.lucene	string	Lucene analyzer para húngaro.
hu.microsoft	string	Analisador da Microsoft para húngaro.
hy.lucene	string	Analisador lucene para arménio.
id.lucene	string	Analisador lucene para indonésio.
id.microsoft	string	Analisador da Microsoft para indonésio (Bahasa).
is.microsoft	string	Analisador da Microsoft para islandês.
it.lucene	string	Lucene analyzer para italiano.
it.microsoft	string	Analisador da Microsoft para italiano.
ja.lucene	string	Analisador lucene para japonês.
ja.microsoft	string	Analisador da Microsoft para japonês.
keyword	string	Trata todo o conteúdo de um campo como um token único. Isto é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Analisador da Microsoft para Kannada.
ko.lucene	string	Lucene analyzer para coreano.
ko.microsoft	string	Analisador da Microsoft para coreano.
lt.microsoft	string	Analisador da Microsoft para lituano.
lv.lucene	string	Lucene analyzer para letão.
lv.microsoft	string	Analisador da Microsoft para letão.
ml.microsoft	string	Analisador da Microsoft para Malayalam.
mr.microsoft	string	Analisador da Microsoft para Marathi.
ms.microsoft	string	Analisador da Microsoft para Malaio (Latim).
nb.microsoft	string	Analisador da Microsoft para norueguês (Bokmål).
nl.lucene	string	Lucene analyzer para neerlandês.
nl.microsoft	string	Analisador da Microsoft para neerlandês.
no.lucene	string	Lucene analyzer para norueguês.
pa.microsoft	string	Analisador da Microsoft para Punjabi.
pattern	string	Separa de forma flexível o texto em termos através de um padrão de expressão regular. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Lucene analyzer para polaco.
pl.microsoft	string	Analisador da Microsoft para polaco.
pt-BR.lucene	string	Analisador lucene para português (Brasil).
pt-BR.microsoft	string	Analisador da Microsoft para português (Brasil).
pt-PT.lucene	string	Analisador lucene para português (Portugal).
pt-PT.microsoft	string	Analisador da Microsoft para português (Portugal).
ro.lucene	string	Lucene analyzer para romeno.
ro.microsoft	string	Analisador da Microsoft para romeno.
ru.lucene	string	Analisador lucene para russo.
ru.microsoft	string	Analisador da Microsoft para russo.
simple	string	Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Analisador da Microsoft para eslovaco.
sl.microsoft	string	Analisador da Microsoft para esloveno.
sr-cyrillic.microsoft	string	Analisador da Microsoft para sérvio (cirílico).
sr-latin.microsoft	string	Analisador da Microsoft para sérvio (latim).
standard.lucene	string	Analisador Lucene Padrão.
standardasciifolding.lucene	string	Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Lucene analyzer para sueco.
sv.microsoft	string	Analisador da Microsoft para sueco.
ta.microsoft	string	Analisador da Microsoft para Tamil.
te.microsoft	string	Microsoft Analyzer para Telugu.
th.lucene	string	Lucene analyzer para tailandês.
th.microsoft	string	Analisador da Microsoft para tailandês.
tr.lucene	string	Analisador lucene para turco.
tr.microsoft	string	Analisador da Microsoft para turco.
uk.microsoft	string	Analisador da Microsoft para ucraniano.
ur.microsoft	string	Microsoft Analyzer para Urdu.
vi.microsoft	string	Analisador da Microsoft para vietnamita.
whitespace	string	Um analisador que utiliza o tokenizer de espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Analisador lucene para chinês (simplificado).
zh-Hans.microsoft	string	Analisador da Microsoft para chinês (simplificado).
zh-Hant.lucene	string	Analisador lucene para chinês (tradicional).
zh-Hant.microsoft	string	Analisador da Microsoft para chinês (tradicional).

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.

Name	Tipo	Description
asciifolding	string	Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	string	Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	string	Normaliza o texto do token em minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	string	Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	string	Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Define os nomes de todos os tokenizers suportados pelo motor de busca.

Name	Tipo	Description
classic	string	Tokenador baseado em gramática adequado para processar a maioria dos documentos em língua europeia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokeniza a entrada de uma extremidade em n-gramas dos tamanhos especificados. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Emite toda a entrada como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Divide o texto em não letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Divide o texto com regras específicas do idioma e reduz as palavras aos formulários base.
microsoft_language_tokenizer	string	Divide o texto com regras específicas do idioma.
nGram	string	Tokeniza a entrada em n-gramas dos tamanhos especificados. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizer para hierarquias semelhantes a caminhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokenize urls e e-mails como um token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Divide o texto no espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo motor de busca.

Name	Tipo	Description
apostrophe	string	Tira todos os carateres após um apóstrofo (incluindo o próprio apóstrofo). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Um filtro de token que aplica o normalizador árabe para normalizar a ortografia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliza as diferenças de largura do CJK. Dobra variantes ASCII de largura completa no latim básico equivalente e variantes katakana de meia largura no Kana equivalente. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Remove possessivos ingleses e pontos de acrónimos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliza os personagens alemães de acordo com a heurística do algoritmo de bola de neve German2. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliza a representação Unicode do texto em idiomas indianos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Emite cada token de entrada duas vezes, uma vez como palavra-chave e uma vez como não palavra-chave. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Um filtro de kstem de elevado desempenho para inglês. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Remove palavras demasiado longas ou demasiado curtas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Limita o número de tokens durante a indexação. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normaliza o texto do token para minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Gera n-gramas dos tamanhos especificados. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Aplica a normalização para persa. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Create tokens para correspondências fonéticas. Veja https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Utiliza o algoritmo de detenção Porter para transformar o fluxo de tokens. Veja http://tartarus.org/~martin/PorterStemmer
reverse	string	Inverte a cadeia de token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Dobra carateres escandinavos åÅäæÄÆ-a> e öÖøØ-o>. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliza a utilização dos personagens escandinavos intercambiáveis. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Cria combinações de tokens como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliza a representação Unicode do texto Sorani. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Filtro de decorrido específico da linguagem. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Remove palavras paradas de um fluxo de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Corta o espaço em branco à esquerda e à direita dos tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Trunca os termos para um comprimento específico. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtra tokens com o mesmo texto que o token anterior. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normaliza o texto do token para maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras.

Partilhar via