Dela via


Indexes - Analyze

Visar hur en analysator delar upp text i token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI-parametrar

Name I Obligatorisk Typ Description
endpoint
path True

string

Slutpunkts-URL:en för söktjänsten.

indexName
path True

string

Namnet på indexet för vilket en analysator ska testas.

api-version
query True

string

Klient-API-version.

Begärandehuvud

Name Obligatorisk Typ Description
x-ms-client-request-id

string

uuid

Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning.

Begärandetext

Name Obligatorisk Typ Description
text True

string

Texten som ska delas in i token.

analyzer

LexicalAnalyzerName

Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

charFilters

CharFilterName[]

En valfri lista med teckenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer.

tokenFilters

TokenFilterName[]

En valfri lista över tokenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer.

tokenizer

LexicalTokenizerName

Namnet på tokenizern som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en analysator i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

Svar

Name Typ Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Felsvar.

Exempel

SearchServiceIndexAnalyze

Exempelbegäran

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Exempelsvar

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitioner

Name Description
AnalyzedTokenInfo

Information om en token som returneras av en analysator.

AnalyzeRequest

Anger vissa text- och analyskomponenter som används för att dela upp texten i token.

AnalyzeResult

Resultatet av att testa en analysator på text.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

ErrorDetail

Felinformationen.

ErrorResponse

Felsvar

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

AnalyzedTokenInfo

Information om en token som returneras av en analysator.

Name Typ Description
endOffset

integer

Indexet för tokens sista tecken i indatatexten.

position

integer

Tokens position i indatatexten i förhållande till andra token. Den första token i indatatexten har position 0, nästa har position 1 och så vidare. Beroende på vilken analysator som används kan vissa token ha samma position, till exempel om de är synonymer till varandra.

startOffset

integer

Indexet för tokens första tecken i indatatexten.

token

string

Token som returneras av analysatorn.

AnalyzeRequest

Anger vissa text- och analyskomponenter som används för att dela upp texten i token.

Name Typ Description
analyzer

LexicalAnalyzerName

Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

charFilters

CharFilterName[]

En valfri lista med teckenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer.

text

string

Texten som ska delas in i token.

tokenFilters

TokenFilterName[]

En valfri lista över tokenfilter som ska användas när du bryter den angivna texten. Den här parametern kan bara anges när du använder parametern tokenizer.

tokenizer

LexicalTokenizerName

Namnet på tokenizern som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en analysator i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

AnalyzeResult

Resultatet av att testa en analysator på text.

Name Typ Description
tokens

AnalyzedTokenInfo[]

Listan över token som returneras av analysatorn som anges i begäran.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

Name Typ Description
html_strip

string

Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

Name Typ Description
info

object

Ytterligare information.

type

string

Ytterligare informationstyp.

ErrorDetail

Felinformationen.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Ytterligare information om felet.

code

string

Felkoden.

details

ErrorDetail[]

Felinformationen.

message

string

Felmeddelandet.

target

string

Felmålet.

ErrorResponse

Felsvar

Name Typ Description
error

ErrorDetail

Felobjektet.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

Name Typ Description
ar.lucene

string

Lucene analyzer för arabiska.

ar.microsoft

string

Microsoft Analyzer för arabiska.

bg.lucene

string

Lucene analyzer för bulgariska.

bg.microsoft

string

Microsoft Analyzer för Bulgariska.

bn.microsoft

string

Microsoft Analyzer för Bangla.

ca.lucene

string

Lucene analyzer för katalanska.

ca.microsoft

string

Microsoft Analyzer för Katalanska.

cs.lucene

string

Lucene analyzer för tjeckiska.

cs.microsoft

string

Microsoft Analyzer för Tjeckiska.

da.lucene

string

Lucene analyzer för danska.

da.microsoft

string

Microsoft Analyzer för danska.

de.lucene

string

Lucene analyzer för tyska.

de.microsoft

string

Microsoft Analyzer för tyska.

el.lucene

string

Lucene analyzer för grekiska.

el.microsoft

string

Microsoft Analyzer för grekiska.

en.lucene

string

Lucene analyzer för engelska.

en.microsoft

string

Microsoft Analyzer för engelska.

es.lucene

string

Lucene analyzer för spanska.

es.microsoft

string

Microsoft Analyzer för spanska.

et.microsoft

string

Microsoft Analyzer för estniska.

eu.lucene

string

Lucene analyzer för baskiska.

fa.lucene

string

Lucene analyzer för persiska.

fi.lucene

string

Lucene analyzer för finska.

fi.microsoft

string

Microsoft Analyzer för finska.

fr.lucene

string

Lucene analyzer för franska.

fr.microsoft

string

Microsoft Analyzer för franska.

ga.lucene

string

Lucene analyzer för iriska.

gl.lucene

string

Lucene analyzer för Galician.

gu.microsoft

string

Microsoft Analyzer för Gujarati.

he.microsoft

string

Microsoft Analyzer för hebreiska.

hi.lucene

string

Lucene analyzer för Hindi.

hi.microsoft

string

Microsoft Analyzer för Hindi.

hr.microsoft

string

Microsoft Analyzer för kroatiska.

hu.lucene

string

Lucene analyzer för ungerska.

hu.microsoft

string

Microsoft Analyzer för Ungerska.

hy.lucene

string

Lucene analyzer för armeniska.

id.lucene

string

Lucene analyzer för indonesiska.

id.microsoft

string

Microsoft analyzer for Indonesian (Bahasa).

is.microsoft

string

Microsoft Analyzer för isländska.

it.lucene

string

Lucene analyzer för italienska.

it.microsoft

string

Microsoft Analyzer för italienska.

ja.lucene

string

Lucene analyzer för japanska.

ja.microsoft

string

Microsoft Analyzer för japanska.

keyword

string

Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft Analyzer för Kannada.

ko.lucene

string

Lucene analyzer för koreanska.

ko.microsoft

string

Microsoft Analyzer för Koreanska.

lt.microsoft

string

Microsoft Analyzer för litauiska.

lv.lucene

string

Lucene analyzer för lettiska.

lv.microsoft

string

Microsoft Analyzer för lettiska.

ml.microsoft

string

Microsoft Analyzer för Malayalam.

mr.microsoft

string

Microsoft Analyzer för Marathi.

ms.microsoft

string

Microsoft analyzer for Malay (latinsk).

nb.microsoft

string

Microsoft analyzer for Norwegian (Bokmål).

nl.lucene

string

Lucene analyzer för nederländska.

nl.microsoft

string

Microsoft Analyzer för nederländska.

no.lucene

string

Lucene analyzer för norska.

pa.microsoft

string

Microsoft Analyzer för Punjabi.

pattern

string

Flexibelt separerar text i termer via ett reguljärt uttrycksmönster. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene analyzer för polska.

pl.microsoft

string

Microsoft Analyzer för Polska.

pt-BR.lucene

string

Lucene analyzer för portugisiska (Brasilien).

pt-BR.microsoft

string

Microsoft Analyzer för Portugisiska (Brasilien).

pt-PT.lucene

string

Lucene analyzer för portugisiska (Portugal).

pt-PT.microsoft

string

Microsoft Analyzer för Portugisiska (Portugal).

ro.lucene

string

Lucene analyzer för rumänska.

ro.microsoft

string

Microsoft Analyzer för Rumänska.

ru.lucene

string

Lucene analyzer för ryska.

ru.microsoft

string

Microsoft Analyzer för ryska.

simple

string

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer för slovakiska.

sl.microsoft

string

Microsoft Analyzer för slovenska.

sr-cyrillic.microsoft

string

Microsoft analyzer for Serbiska (kyrillisk).

sr-latin.microsoft

string

Microsoft analyzer för serbiska (latinsk).

standard.lucene

string

Standard Lucene analyzer.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene analyzer. Se https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Delar upp text med icke-bokstäver; Tillämpar filter för gemener och stoppordstoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer för svenska.

sv.microsoft

string

Microsoft Analyzer för svenska.

ta.microsoft

string

Microsoft analyzer for Tamil.

te.microsoft

string

Microsoft Analyzer för Telugu.

th.lucene

string

Lucene analyzer för Thai.

th.microsoft

string

Microsoft Analyzer för Thai.

tr.lucene

string

Lucene analyzer för turkiska.

tr.microsoft

string

Microsoft Analyzer för turkiska.

uk.microsoft

string

Microsoft Analyzer för Ukrainska.

ur.microsoft

string

Microsoft Analyzer för Urdu.

vi.microsoft

string

Microsoft Analyzer för vietnamesiska.

whitespace

string

En analysator som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Lucene analyzer för kinesiska (förenklad).

zh-Hans.microsoft

string

Microsoft Analyzer för kinesiska (förenklad).

zh-Hant.lucene

string

Lucene analyzer för kinesiska (traditionell).

zh-Hant.microsoft

string

Microsoft Analyzer för kinesiska (traditionell).

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

Name Typ Description
classic

string

Grammatikbaserad tokenizer som är lämplig för bearbetning av de flesta europeiska dokument. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Delar upp text med icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras basformulär.

microsoft_language_tokenizer

string

Delar upp text med hjälp av språkspecifika regler.

nGram

string

Tokeniserar indata till n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer som använder regex-mönstermatchning för att konstruera distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standard Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokeniserar URL:er och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Delar upp text i blanksteg. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

Name Typ Description
apostrophe

string

Tar bort alla tecken efter en apostrofer (inklusive själva apostrofen). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Ett tokenfilter som tillämpar den arabiska normaliseraren för att normalisera ortografin. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (unicode-blocket basic latin) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliserar skillnader i CJK-bredd. Viker fullwidth ASCII-varianter till motsvarande grundläggande latinska och katakanavarianter med halv bredd i motsvarande Kana. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Tar bort engelska possessives och punkter från förkortningar. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras också, med bigrams överlagrade. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Genererar n-gram av de angivna storlekarna med början framifrån eller på baksidan av en indatatoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliserar tyska tecken enligt heuristiken i den tyska algoritmen för snöboll. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliserar text på hindi för att ta bort vissa skillnader i stavningsvariationer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliserar Unicode-representationen av text på indiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Genererar varje inkommande token två gånger, en gång som nyckelord och en gång som icke-nyckelord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Ett högpresterande kstem-filter för engelska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Tar bort ord som är för långa eller för korta. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Begränsar antalet token vid indexering. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Genererar n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Tillämpar normalisering för persiska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Skapa token för fonetiska matchningar. Se https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Använder Porter-algoritmen för att transformera tokenströmmen. Se http://tartarus.org/~martin/PorterStemmer

reverse

string

Återställer tokensträngen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Viker skandinaviska karaktärer åÅäæÄÆ->a och öÖøØ->o. Det diskriminerar också användningen av dubbla vokaler aa, ae, ao, oe och oo, vilket bara lämnar den första. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliserar användningen av utbytbara skandinaviska tecken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Skapar kombinationer av token som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliserar Unicode-representationen av Sorani-text. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Språkspecifikt härdningsfilter. Se https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Tar bort stoppord från en tokenström. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Trimmar inledande och avslutande blanksteg från token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunkerar termerna till en viss längd. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtrerar bort token med samma text som föregående token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Delar upp ord i underord och utför valfria transformeringar i underordsgrupper.