Condividi tramite


Indexes - Analyze

Illustra come un analizzatore suddivide il testo in token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametri dell'URI

Nome In Necessario Tipo Descrizione
endpoint
path True

string

URL dell'endpoint del servizio di ricerca.

indexName
path True

string

Nome dell'indice per il quale testare un analizzatore.

api-version
query True

string

Versione dell'API client.

Intestazione della richiesta

Nome Necessario Tipo Descrizione
x-ms-client-request-id

string (uuid)

ID di rilevamento inviato con la richiesta per facilitare il debug.

Corpo della richiesta

Nome Necessario Tipo Descrizione
text True

string

Testo da suddividere in token.

analyzer

LexicalAnalyzerName

Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

charFilters

CharFilterName[]

Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

tokenFilters

TokenFilterName[]

Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

tokenizer

LexicalTokenizerName

Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

Risposte

Nome Tipo Descrizione
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Risposta di errore.

Esempio

SearchServiceIndexAnalyze

Esempio di richiesta

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Risposta di esempio

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definizioni

Nome Descrizione
AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

ErrorAdditionalInfo

Informazioni aggiuntive sull'errore di gestione delle risorse.

ErrorDetail

Dettagli dell'errore.

ErrorResponse

Risposta di errore

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

LexicalTokenizerName

Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.

TokenFilterName

Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.

AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

Nome Tipo Descrizione
endOffset

integer (int32)

Indice dell'ultimo carattere del token nel testo di input.

position

integer (int32)

Posizione del token nel testo di input rispetto ad altri token. Il primo token nel testo di input ha la posizione 0, il successivo ha la posizione 1 e così via. A seconda dell'analizzatore usato, alcuni token potrebbero avere la stessa posizione, ad esempio se sono sinonimi l'uno dell'altro.

startOffset

integer (int32)

Indice del primo carattere del token nel testo di input.

token

string

Token restituito dall'analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

Nome Tipo Descrizione
analyzer

LexicalAnalyzerName

Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

charFilters

CharFilterName[]

Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

text

string

Testo da suddividere in token.

tokenFilters

TokenFilterName[]

Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.

tokenizer

LexicalTokenizerName

Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

Nome Tipo Descrizione
tokens

AnalyzedTokenInfo[]

Elenco di token restituiti dall'analizzatore specificato nella richiesta.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

Valore Descrizione
html_strip

Filtro di caratteri che tenta di rimuovere i costrutti HTML. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Informazioni aggiuntive sull'errore di gestione delle risorse.

Nome Tipo Descrizione
info

object

Informazioni aggiuntive.

type

string

Tipo di informazioni aggiuntive.

ErrorDetail

Dettagli dell'errore.

Nome Tipo Descrizione
additionalInfo

ErrorAdditionalInfo[]

Informazioni aggiuntive sull'errore.

code

string

Codice di errore.

details

ErrorDetail[]

Dettagli dell'errore.

message

string

Messaggio di errore.

target

string

Destinazione dell'errore.

ErrorResponse

Risposta di errore

Nome Tipo Descrizione
error

ErrorDetail

Oggetto error.

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

Valore Descrizione
ar.lucene

Analizzatore Lucene per l'arabo.

ar.microsoft

Analizzatore Microsoft per l'arabo.

bg.lucene

Analizzatore Lucene per bulgaro.

bg.microsoft

Analizzatore Microsoft per bulgaro.

bn.microsoft

Analizzatore Microsoft per Bangla.

ca.lucene

Analizzatore Lucene per catalano.

ca.microsoft

Analizzatore Microsoft per catalano.

cs.lucene

Analizzatore Lucene per ceco.

cs.microsoft

Analizzatore Microsoft per ceco.

da.lucene

Analizzatore Lucene per danese.

da.microsoft

Analizzatore Microsoft per danese.

de.lucene

Analizzatore Lucene per tedesco.

de.microsoft

Analizzatore Microsoft per tedesco.

el.lucene

Analizzatore Lucene per greco.

el.microsoft

Analizzatore Microsoft per greco.

en.lucene

Analizzatore Lucene per l'inglese.

en.microsoft

Analizzatore Microsoft per la lingua inglese.

es.lucene

Analizzatore Lucene per spagnolo.

es.microsoft

Analizzatore Microsoft per spagnolo.

et.microsoft

Analizzatore Microsoft per Estonian.

eu.lucene

Analizzatore Lucene per basco.

fa.lucene

Analizzatore Lucene per persiano.

fi.lucene

Analizzatore Lucene per finlandese.

fi.microsoft

Analizzatore Microsoft per il finlandese.

fr.lucene

Analizzatore Lucene per francese.

fr.microsoft

Analizzatore Microsoft per francese.

ga.lucene

Analizzatore Lucene per irlandese.

gl.lucene

Analizzatore Lucene per La Galizia.

gu.microsoft

Analizzatore Microsoft per Gujarati.

he.microsoft

Analizzatore Microsoft per l'ebraico.

hi.lucene

Analizzatore Lucene per Hindi.

hi.microsoft

Analizzatore Microsoft per Hindi.

hr.microsoft

Analizzatore Microsoft per croato.

hu.lucene

Analizzatore Lucene per ungherese.

hu.microsoft

Analizzatore Microsoft per ungherese.

hy.lucene

Analizzatore Lucene per armeno.

id.lucene

Analizzatore Lucene per indonesiano.

id.microsoft

Analizzatore Microsoft per Indonesiano (Bahasa).

is.microsoft

Analizzatore Microsoft per islandese.

it.lucene

Analizzatore Lucene per italiano.

it.microsoft

Analizzatore Microsoft per italiano.

ja.lucene

Analizzatore Lucene per il giapponese.

ja.microsoft

Analizzatore Microsoft per il giapponese.

keyword

Considera l'intero contenuto di un campo come un singolo token. Ciò è utile per i dati, ad esempio i codici postali, gli ID e alcuni nomi di prodotto. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

Analizzatore Microsoft per Kannada.

ko.lucene

Analizzatore Lucene per coreano.

ko.microsoft

Analizzatore Microsoft per coreano.

lt.microsoft

Analizzatore Microsoft per lituano.

lv.lucene

Analizzatore Lucene per lettone.

lv.microsoft

Analizzatore Microsoft per lettone.

ml.microsoft

Analizzatore Microsoft per Malayalam.

mr.microsoft

Analizzatore Microsoft per Marathi.

ms.microsoft

Analizzatore Microsoft per il malese (alfabeto latino).

nb.microsoft

Analizzatore Microsoft per Norvegese (Bokmål).

nl.lucene

Analizzatore Lucene per olandese.

nl.microsoft

Analizzatore Microsoft per olandese.

no.lucene

Analizzatore Lucene per Norvegese.

pa.microsoft

Analizzatore Microsoft per Punjabi.

pattern

Separa in modo flessibile il testo in termini tramite un criterio di espressione regolare. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

Analizzatore Lucene per polacco.

pl.microsoft

Analizzatore Microsoft per polacco.

pt-BR.lucene

Analizzatore Lucene per portoghese (Brasile).

pt-BR.microsoft

Analizzatore Microsoft per portoghese (Brasile).

pt-PT.lucene

Analizzatore Lucene per portoghese (Portogallo).

pt-PT.microsoft

Analizzatore Microsoft per portoghese (Portogallo).

ro.lucene

Analizzatore Lucene per romeno.

ro.microsoft

Analizzatore Microsoft per romeno.

ru.lucene

Analizzatore Lucene per russo.

ru.microsoft

Analizzatore Microsoft per russo.

simple

Divide il testo in lettere non e li converte in lettere minuscole. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

Analizzatore Microsoft per slovacco.

sl.microsoft

Analizzatore Microsoft per sloveno.

sr-cyrillic.microsoft

Analizzatore Microsoft per serbo (cirillico).

sr-latin.microsoft

Analizzatore Microsoft per serbo (alfabeto latino).

standard.lucene

Analizzatore Lucene standard.

standardasciifolding.lucene

Analizzatore Lucene di riduzione ASCII standard. Fare riferimento a https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

Divide il testo in corrispondenza di lettere non; Applica i filtri di token minuscoli e non significative. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

Analizzatore Lucene per svedese.

sv.microsoft

Analizzatore Microsoft per svedese.

ta.microsoft

Analizzatore Microsoft per Tamil.

te.microsoft

Analizzatore Microsoft per Telugu.

th.lucene

Analizzatore Lucene per Thai.

th.microsoft

Analizzatore Microsoft per thai.

tr.lucene

Analizzatore Lucene per turco.

tr.microsoft

Analizzatore Microsoft per turco.

uk.microsoft

Analizzatore Microsoft per ucraino.

ur.microsoft

Analizzatore Microsoft per Urdu.

vi.microsoft

Analizzatore Microsoft per vietnamiti.

whitespace

Analizzatore che usa il tokenizer di spazi vuoti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

Analizzatore Lucene per il cinese (semplificato).

zh-Hans.microsoft

Analizzatore Microsoft per il cinese (semplificato).

zh-Hant.lucene

Analizzatore Lucene per il cinese (tradizionale).

zh-Hant.microsoft

Analizzatore Microsoft per il cinese (tradizionale).

LexicalTokenizerName

Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.

Valore Descrizione
classic

Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Genera l'intero input come singolo token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Divide il testo in corrispondenza di lettere non. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Divide il testo in lettere non e li converte in lettere minuscole. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base.

microsoft_language_tokenizer

Divide il testo usando regole specifiche della lingua.

nGram

Tokenzza l'input in n-grammi delle dimensioni specificate. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer per gerarchie simili al percorso. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer che usa criteri regex corrispondenti per costruire token distinti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Analizzatore Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenzza url e messaggi di posta elettronica come un token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Divide il testo in corrispondenza degli spazi vuoti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.

Valore Descrizione
apostrophe

Rimuove tutti i caratteri dopo un apostrofo (incluso l'apostrofo stesso). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

Filtro token che applica il normalizzatore arabo per normalizzare l'ortografia. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

Converte caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (blocco Unicode "Latino di base") nei rispettivi equivalenti ASCII, se tali equivalenti esistono. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Forma bigrams dei termini CJK generati dal tokenizer standard. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalizza le differenze di larghezza CJK. Piega le varianti fullwidth ASCII nell'equivalente alfabeto latino di base e le varianti Katakana a metà larghezza nell'equivalente Kana. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Rimuove i possessivi inglesi e i punti dagli acronimi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Costruisci bigram per i termini che si verificano di frequente durante l'indicizzazione. Anche i termini singoli sono indicizzati, con bigrams sovrapposti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Rimuove le elisioni. Ad esempio, "l'avion" (il piano) verrà convertito in "avion" (piano). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalizza i caratteri tedeschi in base all'euristica dell'algoritmo snowball German2. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalizza il testo in hindi per rimuovere alcune differenze nelle varianti ortografiche. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalizza la rappresentazione Unicode del testo nelle lingue indiane. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Genera ogni token in ingresso due volte, una volta come parola chiave e una volta come parola chiave non. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Filtro kstem ad alte prestazioni per l'inglese. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Rimuove parole troppo lunghe o troppo brevi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Limita il numero di token durante l'indicizzazione. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalizza il testo del token in lettere minuscole. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Genera n-grammi delle dimensioni specificate. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Applica la normalizzazione per il persiano. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Creare token per corrispondenze fonetiche. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Usa l'algoritmo stemming Porter per trasformare il flusso di token. Fare riferimento a http://tartarus.org/~martin/PorterStemmer

reverse

Inverte la stringa del token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

Piega i caratteri scandinavi åÅäæÄÆ->a e öÖøØ->o. Inoltre discrimina l'uso di vocali doppie aa, ae, ao, oe e oo, lasciando solo il primo. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

Normalizza l'uso dei caratteri scandinavi intercambiabili. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

Crea combinazioni di token come singolo token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtro che deriva le parole usando uno stemmer generato da Snowball. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalizza la rappresentazione Unicode del testo Sorani. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtro di stemming specifico della lingua. Fare riferimento a https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Rimuove le parole non significative da un flusso di token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Taglia gli spazi vuoti iniziali e finali dai token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Tronca i termini a una lunghezza specifica. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtra i token con lo stesso testo del token precedente. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalizza il testo del token in lettere maiuscole. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Suddivide le parole in parole secondarie ed esegue trasformazioni facoltative nei gruppi di sottoword.