Поделиться через


Indexes - Analyze

Показывает, как анализатор разбивает текст на маркеры.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

indexName
path True

string

Имя индекса, для которого необходимо протестировать анализатор.

api-version
query True

string

Версия клиентского API.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string

uuid

Идентификатор отслеживания, отправляемый запросом на отладку.

Текст запроса

Имя Обязательно Тип Описание
text True

string

Текст, который нужно разбить на маркеры.

analyzer

LexicalAnalyzerName

Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.

charFilters

CharFilterName[]

Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

tokenFilters

TokenFilterName[]

Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

Ответы

Имя Тип Описание
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Ответ на ошибку.

Примеры

SearchServiceIndexAnalyze

Образец запроса

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Пример ответа

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя Описание
AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

AnalyzeResult

Результат тестирования анализатора на тексте.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Ответ на ошибку

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

Имя Тип Описание
endOffset

integer

Индекс последнего символа маркера в входном тексте.

position

integer

Позиция маркера в входном тексте относительно других маркеров. Первый маркер в входном тексте имеет позицию 0, следующая имеет позицию 1 и т. д. В зависимости от используемого анализатора некоторые маркеры могут иметь одинаковую позицию, например если они являются синонимами друг друга.

startOffset

integer

Индекс первого символа маркера в входном тексте.

token

string

Маркер, возвращаемый анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.

charFilters

CharFilterName[]

Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

text

string

Текст, который нужно разбить на маркеры.

tokenFilters

TokenFilterName[]

Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

AnalyzeResult

Результат тестирования анализатора на тексте.

Имя Тип Описание
tokens

AnalyzedTokenInfo[]

Список маркеров, возвращаемых анализатором, указанным в запросе.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Имя Тип Описание
html_strip

string

Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

object

Дополнительные сведения.

type

string

Дополнительный тип сведений.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Дополнительные сведения об ошибке.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Целевой объект ошибки.

ErrorResponse

Ответ на ошибку

Имя Тип Описание
error

ErrorDetail

Объект ошибки.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Имя Тип Описание
ar.lucene

string

Анализатор Lucene для арабского языка.

ar.microsoft

string

Анализатор Майкрософт для арабского языка.

bg.lucene

string

Анализатор Lucene для Болгарии.

bg.microsoft

string

Анализатор Майкрософт для болгарского.

bn.microsoft

string

Анализатор Майкрософт для Bangla.

ca.lucene

string

Анализатор Lucene для каталонца.

ca.microsoft

string

Анализатор Майкрософт для каталонца.

cs.lucene

string

Анализатор Lucene для Чехии.

cs.microsoft

string

Анализатор Майкрософт для Чехии.

da.lucene

string

Анализатор Lucene для датского языка.

da.microsoft

string

Анализатор Майкрософт для датского языка.

de.lucene

string

Анализатор Lucene для немецкого языка.

de.microsoft

string

Анализатор Майкрософт для немецкого языка.

el.lucene

string

Анализатор Lucene для греческого языка.

el.microsoft

string

Анализатор Майкрософт для греческого языка.

en.lucene

string

Анализатор Lucene для английского языка.

en.microsoft

string

Анализатор Майкрософт для английского языка.

es.lucene

string

Анализатор Lucene для испанского языка.

es.microsoft

string

Анализатор Майкрософт для испанского языка.

et.microsoft

string

Анализатор Майкрософт для Эстонии.

eu.lucene

string

Анализатор Lucene для Баска.

fa.lucene

string

Анализатор Lucene для персидского языка.

fi.lucene

string

Анализатор Lucene для финляндии.

fi.microsoft

string

Анализатор Майкрософт для Финляндии.

fr.lucene

string

Анализатор Lucene для французского языка.

fr.microsoft

string

Анализатор Майкрософт для французского языка.

ga.lucene

string

Анализатор Lucene для ирландских.

gl.lucene

string

Анализатор Lucene для Галисиана.

gu.microsoft

string

Анализатор Майкрософт для Gujarati.

he.microsoft

string

Анализатор Майкрософт для иврита.

hi.lucene

string

Анализатор Lucene для Хинди.

hi.microsoft

string

Анализатор Майкрософт для Хинди.

hr.microsoft

string

Анализатор Майкрософт для хорватского языка.

hu.lucene

string

Анализатор Lucene для венгерского.

hu.microsoft

string

Анализатор Майкрософт для венгерского.

hy.lucene

string

Анализатор Lucene для армян.

id.lucene

string

Анализатор Lucene для Индонезии.

id.microsoft

string

Анализатор Майкрософт для Индонезии (Бахаса).

is.microsoft

string

Анализатор Майкрософт для Исландии.

it.lucene

string

Анализатор Lucene для итальянского языка.

it.microsoft

string

Анализатор Майкрософт для итальянского языка.

ja.lucene

string

Анализатор Lucene для японского языка.

ja.microsoft

string

Анализатор Майкрософт для японского языка.

keyword

string

Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Анализатор Майкрософт для Kannada.

ko.lucene

string

Анализатор Lucene для корейского языка.

ko.microsoft

string

Анализатор Майкрософт для корейского языка.

lt.microsoft

string

Анализатор Майкрософт для Литвы.

lv.lucene

string

Анализатор Lucene для Латышского.

lv.microsoft

string

Анализатор Майкрософт для латышского языка.

ml.microsoft

string

Анализатор Microsoft для Малаялам.

mr.microsoft

string

Анализатор Майкрософт для Маратхи.

ms.microsoft

string

Анализатор Майкрософт для Малая (латиница).

nb.microsoft

string

Анализатор Майкрософт для норвежского языка (Bokmål).

nl.lucene

string

Анализатор Lucene для голландцев.

nl.microsoft

string

Анализатор Майкрософт для голландского языка.

no.lucene

string

Анализатор Lucene для норвежского языка.

pa.microsoft

string

Анализатор Майкрософт для Пенджаби.

pattern

string

Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Анализатор Lucene для польского.

pl.microsoft

string

Анализатор Майкрософт для польского.

pt-BR.lucene

string

Анализатор Lucene для португальского (Бразилия).

pt-BR.microsoft

string

Анализатор Майкрософт для португальского языка (Бразилия).

pt-PT.lucene

string

Анализатор Lucene для португальского (Португалия).

pt-PT.microsoft

string

Анализатор Майкрософт для португальского языка (Португалия).

ro.lucene

string

Анализатор Lucene для румына.

ro.microsoft

string

Анализатор Майкрософт для румына.

ru.lucene

string

Анализатор Lucene для россии.

ru.microsoft

string

Анализатор Майкрософт для русского языка.

simple

string

Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Анализатор Майкрософт для словацких.

sl.microsoft

string

Анализатор Майкрософт для словенцев.

sr-cyrillic.microsoft

string

Анализатор Майкрософт для сербских (кириллица).

sr-latin.microsoft

string

Анализатор Майкрософт для сербских (латиница).

standard.lucene

string

Стандартный анализатор Lucene.

standardasciifolding.lucene

string

Стандартный анализатор ASCII Folding Lucene. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Анализатор Lucene для шведского языка.

sv.microsoft

string

Анализатор Майкрософт для шведского языка.

ta.microsoft

string

Анализатор Майкрософт для Тамила.

te.microsoft

string

Анализатор Майкрософт для Telugu.

th.lucene

string

Анализатор Lucene для тайского языка.

th.microsoft

string

Анализатор Майкрософт для тайского языка.

tr.lucene

string

Анализатор Lucene для турецкого языка.

tr.microsoft

string

Анализатор Майкрософт для турецкого языка.

uk.microsoft

string

Анализатор Майкрософт для украины.

ur.microsoft

string

Анализатор Майкрософт для Urdu.

vi.microsoft

string

Анализатор Майкрософт для вьетнамцев.

whitespace

string

Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Анализатор Lucene для китайского (упрощенное письмо).

zh-Hans.microsoft

string

Анализатор Майкрософт для китайского (упрощенное письмо).

zh-Hant.lucene

string

Анализатор Lucene для китайского (традиционного).

zh-Hant.microsoft

string

Анализатор Майкрософт для китайского (традиционного языка).

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Имя Тип Описание
classic

string

Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.

microsoft_language_tokenizer

string

Делит текст с помощью правил, относящихся к языку.

nGram

string

Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Имя Тип Описание
apostrophe

string

Полоскает все символы после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Фильтр маркеров, который применяет арабский нормализатор для нормализации ортографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Нормализует различия ширины CJK. Сворачивать варианты fullwidth ASCII в эквивалентную базовую латиницу и половину ширины вариантов Katakana в эквивалентную Кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Удаляет англоязычные присяговы и точки из акронимов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Нормализует немецкие символы в соответствии с эвристиками алгоритма снежного шара Германии 2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Нормализует текст в Хинди, чтобы удалить некоторые различия в вариантах орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Нормализует представление текста Юникода на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Выводит каждый входящий токен дважды, один раз в качестве ключевого слова и один раз как не ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Удаляет слова, слишком длинные или слишком короткие. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ограничивает количество маркеров при индексировании. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Нормализует текст маркера в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Создает n-граммы заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Создайте маркеры для фонетических совпадений. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Для преобразования потока маркеров используется алгоритм стебля портера. См. http://tartarus.org/~martin/PorterStemmer

reverse

string

Отменяет строку маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Сворачивать скандинавские символы åÅäääÄÄÄÖ->a и öÖøØ->o. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первый. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Нормализует использование взаимозаменяемых скандинавских символов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Создает сочетания маркеров в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Фильтр, который стебляет слова с помощью созданного сноубола стебля. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Фильтр для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Удаляет слова остановки из потока маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Обрезает начальные и конечные пробелы из маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Усечение терминов до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Фильтрует маркеры с тем же текстом, что и предыдущий маркер. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Нормализует текст маркера в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов.