Compartilhar via


Indexes - Analyze

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Parâmetros de URI

Nome Em Obrigatório Tipo Description
endpoint
path True

string

A URL do ponto de extremidade do serviço de pesquisa.

indexName
path True

string

O nome do índice para o qual testar um analisador.

api-version
query True

string

Versão da API do cliente.

Cabeçalho da solicitação

Nome Obrigatório Tipo Description
x-ms-client-request-id

string

uuid

A ID de rastreamento enviada com a solicitação para ajudar na depuração.

Corpo da solicitação

Nome Obrigatório Tipo Description
text True

string

O texto a ser dividido em tokens.

analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para interromper o texto fornecido.

charFilters

CharFilterName[]

Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado.

normalizer

LexicalNormalizerName

O nome do normalizador a ser usado para normalizar o texto fornecido.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido.

tokenizer

LexicalTokenizerName

O nome do tokenizer a ser usado para quebrar o texto fornecido.

Respostas

Nome Tipo Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Solicitação de exemplo

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta de exemplo

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Nome Description
AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

AnalyzeResult

O resultado de testar um analisador no texto.

CharFilterName

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

ErrorAdditionalInfo

As informações adicionais do erro de gerenciamento de recursos.

ErrorDetail

O detalhe do erro.

ErrorResponse

Resposta de erro

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.

LexicalTokenizerName

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

TokenFilterName

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

Nome Tipo Description
endOffset

integer

O índice do último caractere do token no texto de entrada.

position

integer

A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.

startOffset

integer

O índice do primeiro caractere do token no texto de entrada.

token

string

O token retornado pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Nome Tipo Description
analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para interromper o texto fornecido.

charFilters

CharFilterName[]

Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado.

normalizer

LexicalNormalizerName

O nome do normalizador a ser usado para normalizar o texto fornecido.

text

string

O texto a ser dividido em tokens.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido.

tokenizer

LexicalTokenizerName

O nome do tokenizer a ser usado para quebrar o texto fornecido.

AnalyzeResult

O resultado de testar um analisador no texto.

Nome Tipo Description
tokens

AnalyzedTokenInfo[]

A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
html_strip

string

Um filtro de caracteres que tenta remover constructos HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

As informações adicionais do erro de gerenciamento de recursos.

Nome Tipo Description
info

object

As informações adicionais.

type

string

O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Nome Tipo Description
additionalInfo

ErrorAdditionalInfo[]

As informações adicionais do erro.

code

string

O código de erro.

details

ErrorDetail[]

Os detalhes do erro.

message

string

A mensagem de erro.

target

string

O destino do erro.

ErrorResponse

Resposta de erro

Nome Tipo Description
error

ErrorDetail

O objeto de erro.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
ar.lucene

string

Analisador Lucene para árabe.

ar.microsoft

string

Analisador da Microsoft para árabe.

bg.lucene

string

Analisador Lucene para búlgaro.

bg.microsoft

string

Analisador da Microsoft para búlgaro.

bn.microsoft

string

Analisador da Microsoft para Bangla.

ca.lucene

string

Analisador lucene para catalão.

ca.microsoft

string

Analisador da Microsoft para Catalão.

cs.lucene

string

Analisador lucene para tcheco.

cs.microsoft

string

Analisador da Microsoft para Tcheco.

da.lucene

string

Analisador Lucene para dinamarquês.

da.microsoft

string

Analisador da Microsoft para dinamarquês.

de.lucene

string

Analisador Lucene para alemão.

de.microsoft

string

Analisador da Microsoft para alemão.

el.lucene

string

Analisador Lucene para grego.

el.microsoft

string

Analisador da Microsoft para grego.

en.lucene

string

Analisador Lucene para inglês.

en.microsoft

string

Analisador da Microsoft para inglês.

es.lucene

string

Analisador Lucene para espanhol.

es.microsoft

string

Analisador da Microsoft para espanhol.

et.microsoft

string

Analisador da Microsoft para estoniano.

eu.lucene

string

Analisador Lucene para Basco.

fa.lucene

string

Analisador Lucene para persa.

fi.lucene

string

Analisador Lucene para finlandês.

fi.microsoft

string

Analisador da Microsoft para finlandês.

fr.lucene

string

Analisador Lucene para francês.

fr.microsoft

string

Analisador da Microsoft para francês.

ga.lucene

string

Analisador Lucene para irlandês.

gl.lucene

string

Analisador Lucene para Galego.

gu.microsoft

string

Analisador da Microsoft para Gujarati.

he.microsoft

string

Analisador da Microsoft para hebraico.

hi.lucene

string

Analisador Lucene para Hindi.

hi.microsoft

string

Analisador da Microsoft para Hindi.

hr.microsoft

string

Analisador da Microsoft para croata.

hu.lucene

string

Analisador Lucene para húngaro.

hu.microsoft

string

Analisador da Microsoft para húngaro.

hy.lucene

string

Analisador Lucene para armênio.

id.lucene

string

Analisador Lucene para indonésio.

id.microsoft

string

Analisador da Microsoft para Indonésio (Bahasa).

is.microsoft

string

Analisador da Microsoft para islandês.

it.lucene

string

Analisador Lucene para italiano.

it.microsoft

string

Analisador da Microsoft para italiano.

ja.lucene

string

Analisador Lucene para japonês.

ja.microsoft

string

Analisador da Microsoft para japonês.

keyword

string

Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analisador da Microsoft para Kannada.

ko.lucene

string

Analisador Lucene para coreano.

ko.microsoft

string

Analisador da Microsoft para coreano.

lt.microsoft

string

Analisador da Microsoft para lituano.

lv.lucene

string

Analisador Lucene para letão.

lv.microsoft

string

Analisador da Microsoft para letão.

ml.microsoft

string

Analisador da Microsoft para Malayalam.

mr.microsoft

string

Analisador da Microsoft para Marathi.

ms.microsoft

string

Analisador da Microsoft para malaio (latino).

nb.microsoft

string

Analisador da Microsoft para norueguês (Bokmål).

nl.lucene

string

Analisador Lucene para holandês.

nl.microsoft

string

Analisador da Microsoft para holandês.

no.lucene

string

Analisador Lucene para norueguês.

pa.microsoft

string

Analisador da Microsoft para Punjabi.

pattern

string

Separa texto em termos de forma flexível por meio de um padrão de expressão regular. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analisador Lucene para polonês.

pl.microsoft

string

Analisador da Microsoft para polonês.

pt-BR.lucene

string

Analisador lucene para português (Brasil).

pt-BR.microsoft

string

Analisador da Microsoft para português (Brasil).

pt-PT.lucene

string

Analisador lucene para português (Portugal).

pt-PT.microsoft

string

Analisador da Microsoft para Português (Portugal).

ro.lucene

string

Analisador Lucene para romeno.

ro.microsoft

string

Analisador da Microsoft para romeno.

ru.lucene

string

Analisador Lucene para russo.

ru.microsoft

string

Analisador da Microsoft para russo.

simple

string

Divide o texto em não letras e converte em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analisador da Microsoft para Eslovaco.

sl.microsoft

string

Analisador da Microsoft para esloveno.

sr-cyrillic.microsoft

string

Analisador da Microsoft para sérvio (cirílico).

sr-latin.microsoft

string

Analisador da Microsoft para sérvio (latino).

standard.lucene

string

Analisador Lucene Padrão.

standardasciifolding.lucene

string

Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide o texto em não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analisador Lucene para sueco.

sv.microsoft

string

Analisador da Microsoft para sueco.

ta.microsoft

string

Analisador da Microsoft para Tamil.

te.microsoft

string

Analisador da Microsoft para Telugu.

th.lucene

string

Analisador Lucene para tailandês.

th.microsoft

string

Analisador da Microsoft para tailandês.

tr.lucene

string

Analisador Lucene para turco.

tr.microsoft

string

Analisador da Microsoft para turco.

uk.microsoft

string

Analisador da Microsoft para ucraniano.

ur.microsoft

string

Analisador da Microsoft para Urdu.

vi.microsoft

string

Analisador da Microsoft para vietnamita.

whitespace

string

Um analisador que usa o criador de token whitespace. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analisador lucene para chinês (simplificado).

zh-Hans.microsoft

string

Analisador da Microsoft para chinês (simplificado).

zh-Hant.lucene

string

Analisador lucene para chinês (tradicional).

zh-Hant.microsoft

string

Analisador da Microsoft para chinês (tradicional).

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
asciifolding

string

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

Normaliza o texto do token em letras minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
classic

string

Tokenizer baseado em gramática que é adequado para processar a maioria dos documentos de idioma europeu. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emite a entrada inteira como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide o texto em não letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide o texto em não letras e converte em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide o texto usando regras específicas de idioma e reduz palavras para seus formulários base.

microsoft_language_tokenizer

string

Divide o texto usando regras específicas de idioma.

nGram

string

Cria tokens de entrada em n-gramas de determinados tamanhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Criador de token para hierarquias de caminho. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer que usa a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro minúsculo e filtro de parada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Cria tokens de urls e emails como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide o texto em espaços em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
apostrophe

string

Remove todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Um filtro de token que aplica o normalizador em árabe para normalizar a ortografia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliza as diferenças de largura CJK. Dobra as variantes ASCII de largura total nas variantes equivalentes do latim básico e katakana de meia largura no Kana equivalente. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Remove possessivos em inglês e de acrônimos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construa bigramas para termos que ocorrem com frequência durante a indexação. Termos únicos ainda são indexados também, com bigramas sobrepostos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Gera n-gramas dos tamanhos fornecidos a partir da frente ou da parte traseira de um token de entrada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliza caracteres alemães de acordo com a heurística do algoritmo de bola de neve alemão2. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliza a representação Unicode do texto nos idiomas indianos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emite cada token de entrada duas vezes, uma vez como palavra-chave e uma vez como não palavra-chave. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Um filtro kstem de alto desempenho para o inglês. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Remove palavras muito longas ou muito curtas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita o número de tokens durante a indexação. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliza o texto do token para letras minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Gera n-gramas de determinados tamanhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Aplica a normalização para persa. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Crie tokens para correspondências fonéticas. Veja https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Usa o algoritmo de lematização Porter para transformar o fluxo de token. Veja http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte a cadeia de caracteres do token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Dobra os caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, SOL, oe e oo, deixando apenas o primeiro deles. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliza o uso de caracteres escandinavos intercambiáveis. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Cria combinações de tokens como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Um filtro que deriva palavras usando um lematizador gerado por Bola de Neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliza a representação Unicode de texto Sorani. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro de lematização específico da linguagem. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Remove palavras irrelevantes de um fluxo de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Corta o espaço em branco à esquerda e à direita de uma cadeia de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunca os termos para um comprimento específico. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra os tokens com o mesmo texto como o token anterior. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliza o texto do token para letras maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras.