Compartir a través de


Indexes - Analyze

Muestra cómo un analizador divide el texto en tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parámetros de identificador URI

Nombre En Requerido Tipo Description
endpoint
path True

string

Dirección URL del punto de conexión del servicio de búsqueda.

indexName
path True

string

Nombre del índice para el que se va a probar un analizador.

api-version
query True

string

Versión de api de cliente.

Encabezado de la solicitud

Nombre Requerido Tipo Description
x-ms-client-request-id

string

uuid

Identificador de seguimiento enviado con la solicitud para ayudar con la depuración.

Cuerpo de la solicitud

Nombre Requerido Tipo Description
text True

string

Texto que se va a dividir en tokens.

analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

charFilters

CharFilterName[]

Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenFilters

TokenFilterName[]

Una lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

Respuestas

Nombre Tipo Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Respuesta de error.

Ejemplos

SearchServiceIndexAnalyze

Solicitud de ejemplo

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Respuesta de muestra

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definiciones

Nombre Description
AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

AnalyzeResult

Resultado de probar un analizador en el texto.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

ErrorAdditionalInfo

Información adicional sobre el error de administración de recursos.

ErrorDetail

Detalle del error.

ErrorResponse

Respuesta de error

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

Nombre Tipo Description
endOffset

integer

Índice del último carácter del token en el texto de entrada.

position

integer

Posición del token en el texto de entrada en relación con otros tokens. El primer token del texto de entrada tiene la posición 0, la siguiente tiene la posición 1, etc. Dependiendo del analizador usado, algunos tokens podrían tener la misma posición, por ejemplo, si son sinónimos entre sí.

startOffset

integer

Índice del primer carácter del token en el texto de entrada.

token

string

Token devuelto por el analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

Nombre Tipo Description
analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

charFilters

CharFilterName[]

Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

text

string

Texto que se va a dividir en tokens.

tokenFilters

TokenFilterName[]

Una lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

AnalyzeResult

Resultado de probar un analizador en el texto.

Nombre Tipo Description
tokens

AnalyzedTokenInfo[]

Lista de tokens devueltos por el analizador especificado en la solicitud.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

Nombre Tipo Description
html_strip

string

Filtro de caracteres que intenta quitar construcciones HTML. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Información adicional sobre el error de administración de recursos.

Nombre Tipo Description
info

object

Información adicional.

type

string

Tipo de información adicional.

ErrorDetail

Detalle del error.

Nombre Tipo Description
additionalInfo

ErrorAdditionalInfo[]

Información adicional del error.

code

string

Código de error.

details

ErrorDetail[]

Detalles del error.

message

string

Mensaje de error.

target

string

Destino del error.

ErrorResponse

Respuesta de error

Nombre Tipo Description
error

ErrorDetail

Objeto de error.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

Nombre Tipo Description
ar.lucene

string

Analizador de Lucene para árabe.

ar.microsoft

string

Analizador de Microsoft para árabe.

bg.lucene

string

Analizador de Lucene para Búlgaro.

bg.microsoft

string

Analizador de Microsoft para búlgaro.

bn.microsoft

string

Analizador de Microsoft para Bangla.

ca.lucene

string

Analizador de Lucene para Catalán.

ca.microsoft

string

Analizador de Microsoft para catalán.

cs.lucene

string

Analizador de Lucene para Checo.

cs.microsoft

string

Analizador de Microsoft para Checo.

da.lucene

string

Analizador de Lucene para danés.

da.microsoft

string

Analizador de Microsoft para danés.

de.lucene

string

Analizador de Lucene para alemán.

de.microsoft

string

Analizador de Microsoft para alemán.

el.lucene

string

Analizador de Lucene para griego.

el.microsoft

string

Analizador de Microsoft para griego.

en.lucene

string

Analizador de Lucene para inglés.

en.microsoft

string

Analizador de Microsoft para inglés.

es.lucene

string

Analizador de Lucene para español.

es.microsoft

string

Analizador de Microsoft para español.

et.microsoft

string

Analizador de Microsoft para Estonia.

eu.lucene

string

Analizador de Lucene para Euskera.

fa.lucene

string

Analizador de Lucene para persa.

fi.lucene

string

Analizador de Lucene para finés.

fi.microsoft

string

Analizador de Microsoft para finés.

fr.lucene

string

Analizador de Lucene para francés.

fr.microsoft

string

Analizador de Microsoft para francés.

ga.lucene

string

Analizador de Lucene para irlandés.

gl.lucene

string

Analizador de Lucene para Gallega.

gu.microsoft

string

Analizador de Microsoft para Gujarati.

he.microsoft

string

Analizador de Microsoft para hebreo.

hi.lucene

string

Analizador de Lucene para hindi.

hi.microsoft

string

Analizador de Microsoft para hindi.

hr.microsoft

string

Analizador de Microsoft para croata.

hu.lucene

string

Analizador de Lucene para húngaro.

hu.microsoft

string

Analizador de Microsoft para húngaro.

hy.lucene

string

Analizador de Lucene para Armenio.

id.lucene

string

Analizador de Lucene para Indonesia.

id.microsoft

string

Analizador de Microsoft para Indonesia (Bahasa).

is.microsoft

string

Analizador de Microsoft para Islandés.

it.lucene

string

Analizador de Lucene para italiano.

it.microsoft

string

Analizador de Microsoft para italiano.

ja.lucene

string

Analizador de Lucene para japonés.

ja.microsoft

string

Analizador de Microsoft para japonés.

keyword

string

Trata todo el contenido de un campo como un solo token. Esto es útil para datos como códigos postales, identificadores y algunos nombres de producto. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analizador de Microsoft para Kannada.

ko.lucene

string

Analizador de Lucene para coreano.

ko.microsoft

string

Analizador de Microsoft para coreano.

lt.microsoft

string

Analizador de Microsoft para Lituano.

lv.lucene

string

Analizador de Lucene para Letón.

lv.microsoft

string

Analizador de Microsoft para Letonia.

ml.microsoft

string

Analizador de Microsoft para Malayalam.

mr.microsoft

string

Analizador de Microsoft para Marathi.

ms.microsoft

string

Analizador de Microsoft para malayo (latino).

nb.microsoft

string

Analizador de Microsoft para noruego (Bokmål).

nl.lucene

string

Analizador de Lucene para neerlandés.

nl.microsoft

string

Analizador de Microsoft para neerlandés.

no.lucene

string

Analizador de Lucene para Noruego.

pa.microsoft

string

Analizador de Microsoft para Punjabi.

pattern

string

Separa de forma flexible el texto en términos a través de un patrón de expresión regular. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analizador de Lucene para polaco.

pl.microsoft

string

Analizador de Microsoft para polaco.

pt-BR.lucene

string

Analizador de Lucene para portugués (Brasil).

pt-BR.microsoft

string

Analizador de Microsoft para portugués (Brasil).

pt-PT.lucene

string

Analizador de Lucene para portugués (Portugal).

pt-PT.microsoft

string

Analizador de Microsoft para portugués (Portugal).

ro.lucene

string

Analizador de Lucene para rumano.

ro.microsoft

string

Analizador de Microsoft para rumano.

ru.lucene

string

Analizador de Lucene para ruso.

ru.microsoft

string

Analizador de Microsoft para ruso.

simple

string

Divide el texto en minúsculas y los convierte en minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analizador de Microsoft para Eslovaco.

sl.microsoft

string

Analizador de Microsoft para esloveno.

sr-cyrillic.microsoft

string

Analizador de Microsoft para serbio (cirílico).

sr-latin.microsoft

string

Analizador de Microsoft para serbio (latino).

standard.lucene

string

Analizador estándar de Lucene.

standardasciifolding.lucene

string

Analizador estándar de Lucene plegado ASCII. Consulte https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabras irrelevantes. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analizador de Lucene para sueco.

sv.microsoft

string

Analizador de Microsoft para sueco.

ta.microsoft

string

Analizador de Microsoft para Tamil.

te.microsoft

string

Analizador de Microsoft para Telugu.

th.lucene

string

Analizador de Lucene para Tailandés.

th.microsoft

string

Analizador de Microsoft para tailandés.

tr.lucene

string

Analizador de Lucene para turco.

tr.microsoft

string

Analizador de Microsoft para turco.

uk.microsoft

string

Analizador de Microsoft para Ucrania.

ur.microsoft

string

Analizador de Microsoft para Urdu.

vi.microsoft

string

Analizador de Microsoft para vietnamita.

whitespace

string

Analizador que usa el tokenizador de espacio en blanco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analizador de Lucene para chino (simplificado).

zh-Hans.microsoft

string

Analizador de Microsoft para chino (simplificado).

zh-Hant.lucene

string

Analizador de Lucene para chino (tradicional).

zh-Hant.microsoft

string

Analizador de Microsoft para chino (tradicional).

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

Nombre Tipo Description
classic

string

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniza la entrada de un borde en n gramos de los tamaños especificados. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emite toda la entrada como un solo token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide el texto en no letras. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide el texto en minúsculas y los convierte en minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formularios base.

microsoft_language_tokenizer

string

Divide el texto mediante reglas específicas del idioma.

nGram

string

Tokeniza la entrada en n-gramas de los tamaños especificados. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizador para jerarquías similares a la ruta de acceso. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer que usa la coincidencia de patrones regex para construir tokens distintos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokeniza las direcciones URL y los correos electrónicos como un token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide el texto en espacios en blanco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

Nombre Tipo Description
apostrophe

string

Tira todos los caracteres después de un apóstrofo (incluido el apóstrofo en sí). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtro de token que aplica el normalizador árabe para normalizar la ortografía. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliza las diferencias de ancho de CJK. Plega las variantes ASCII de fullwidth en el latino básico equivalente y las variantes katakana de ancho medio en el kana equivalente. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Quita los posesivos en inglés y los puntos de los acrónimos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construya bigrams para términos que se producen con frecuencia durante la indexación. Los términos únicos todavía se indexan también, con bigrams superpuestos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliza el texto en hindi para eliminar algunas diferencias en las variaciones ortográficas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliza la representación Unicode del texto en idiomas indios. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emite cada token entrante dos veces, una como palabra clave y una vez como palabra clave no clave. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Filtro kstem de alto rendimiento para inglés. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Quita las palabras que son demasiado largas o demasiado cortas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita el número de tokens durante la indexación. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliza el texto del token en minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Genera n-gramas de los tamaños especificados. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Aplica la normalización para persa. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Cree tokens para coincidencias fonéticas. Consulte https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Usa el algoritmo de lematización porter para transformar la secuencia de tokens. Consulte http://tartarus.org/~martin/PorterStemmer

reverse

string

Invierte la cadena del token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Dobla caracteres escandinavos åÅäæÄÆ->a y öÖøØ->o. También discrimina el uso de vocales dobles aa, ae, ao, oe y oo, dejando solo el primero. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliza el uso de los caracteres escandinavos intercambiables. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Crea combinaciones de tokens como un único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtro que deriva las palabras mediante un lematizador generado por Snowball. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliza la representación Unicode del texto Sorani. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro de lematización específico del idioma. Consulte https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Quita las palabras irrelevantes de una secuencia de tokens. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Recorta el espacio en blanco inicial y final de los tokens. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunca los términos a una longitud específica. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra los tokens con el mismo texto que el token anterior. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliza el texto del token en mayúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divide palabras en subpalabras y realiza transformaciones opcionales en grupos de subwords.