Indexes - Analyze

Ссылка

Служба:: Search Service

Версия API:: 2023-11-01

Показывает, как анализатор разбивает текст на маркеры.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Параметры URI

Имя	В	Обязательно	Тип	Описание
endpoint	path	True	string	URL-адрес конечной точки службы поиска.
indexName	path	True	string	Имя индекса, для которого тестируется анализатор.
api-version	query	True	string	Версия API клиента.

Заголовок запроса

Имя	Обязательно	Тип	Описание
x-ms-client-request-id		string uuid	Идентификатор отслеживания, отправленный с запросом на помощь в отладке.

Текст запроса

Имя	Обязательно	Тип	Описание
text	True	string	Текст для разбиения на токены.
analyzer		LexicalAnalyzerName	Имя анализатора, используемого для прерывания заданного текста. Если этот параметр не указан, необходимо указать вместо него создатель маркеров. Параметры токенизатора и анализатора являются взаимоисключающими.
charFilters		CharFilterName[]	Необязательный список фильтров символов, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.
tokenFilters		TokenFilterName[]	Необязательный список фильтров маркеров, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.
tokenizer		LexicalTokenizerName	Имя создателя маркеров, используемого для прерывания заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

Ответы

Имя	Тип	Описание
200 OK	AnalyzeResult
Other Status Codes	SearchError	Ответ об ошибке.

Примеры

SearchServiceIndexAnalyze

Образец запроса

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Пример ответа

Код состояния:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя	Описание
AnalyzedTokenInfo	Сведения о маркере, возвращаемом анализатором.
AnalyzeRequest	Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.
AnalyzeResult	Результат тестирования анализатора на тексте.
CharFilterName	Определяет имена всех символьных фильтров, поддерживаемых поисковой системой.
LexicalAnalyzerName	Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.
LexicalTokenizerName	Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.
SearchError	Описывает условие ошибки для API.
TokenFilterName	Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

Имя	Тип	Описание
endOffset	integer	Индекс последнего символа маркера во входном тексте.
position	integer	Позиция маркера во входном тексте относительно других маркеров. Первый маркер во входном тексте имеет позицию 0, следующий — позицию 1 и т. д. В зависимости от используемого анализатора некоторые токены могут иметь одинаковое положение, например, если они являются синонимами друг друга.
startOffset	integer	Индекс первого символа маркера во входном тексте.
token	string	Маркер, возвращаемый анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

Имя	Тип	Описание
analyzer	LexicalAnalyzerName	Имя анализатора, используемого для разбиения заданного текста. Если этот параметр не указан, необходимо указать вместо него создатель маркеров. Параметры токенизатора и анализатора являются взаимоисключающими.
charFilters	CharFilterName[]	Необязательный список символьных фильтров, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.
text	string	Текст для разбиения на токены.
tokenFilters	TokenFilterName[]	Необязательный список фильтров маркеров, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.
tokenizer	LexicalTokenizerName	Имя создателя маркеров, используемое для разбиения заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

AnalyzeResult

Результат тестирования анализатора на тексте.

Имя	Тип	Описание
tokens	AnalyzedTokenInfo[]	Список маркеров, возвращаемых анализатором, указанным в запросе.

CharFilterName

Определяет имена всех символьных фильтров, поддерживаемых поисковой системой.

Имя	Тип	Описание
html_strip	string	Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.

Имя	Тип	Описание
ar.lucene	string	Анализатор Lucene для арабского языка.
ar.microsoft	string	Анализатор Майкрософт для арабского языка.
bg.lucene	string	Анализатор Lucene для болгарского.
bg.microsoft	string	Анализатор Майкрософт для болгарского.
bn.microsoft	string	Анализатор Майкрософт для Bangla.
ca.lucene	string	Анализатор Lucene для каталонского.
ca.microsoft	string	Анализатор Майкрософт для каталонского.
cs.lucene	string	Анализатор Lucene для чешского языка.
cs.microsoft	string	Анализатор Майкрософт для чешского языка.
da.lucene	string	Анализатор Lucene для датского языка.
da.microsoft	string	Анализатор Майкрософт для датского языка.
de.lucene	string	Анализатор Lucene для немецкого языка.
de.microsoft	string	Анализатор Майкрософт для немецкого языка.
el.lucene	string	Анализатор Lucene для греческого языка.
el.microsoft	string	Анализатор Майкрософт для греческого языка.
en.lucene	string	Анализатор Lucene для английского языка.
en.microsoft	string	Анализатор Майкрософт для английского языка.
es.lucene	string	Анализатор Lucene для испанского языка.
es.microsoft	string	Анализатор Майкрософт для испанского языка.
et.microsoft	string	Анализатор Майкрософт для эстонского языка.
eu.lucene	string	Анализатор Lucene для Баскского.
fa.lucene	string	Анализатор Люцена для персидского языка.
fi.lucene	string	Анализатор Lucene для финского языка.
fi.microsoft	string	Анализатор Майкрософт для финского языка.
fr.lucene	string	Анализатор Lucene для французского языка.
fr.microsoft	string	Анализатор Майкрософт для французского языка.
ga.lucene	string	Анализатор Lucene для ирландского.
gl.lucene	string	Анализатор Lucene для Галисии.
gu.microsoft	string	Анализатор Майкрософт для Гуджарати.
he.microsoft	string	Анализатор Майкрософт для иврита.
hi.lucene	string	Анализатор Lucene для хинди.
hi.microsoft	string	Анализатор Майкрософт для хинди.
hr.microsoft	string	Анализатор Майкрософт для хорватского языка.
hu.lucene	string	Анализатор Lucene для венгерского.
hu.microsoft	string	Анализатор Майкрософт для венгерского.
hy.lucene	string	Анализатор Lucene для армянского.
id.lucene	string	Анализатор Lucene для индонезийского языка.
id.microsoft	string	Анализатор Майкрософт для индонезийского языка (Bahasa).
is.microsoft	string	Анализатор Майкрософт для Исландии.
it.lucene	string	Анализатор Lucene для итальянского языка.
it.microsoft	string	Анализатор Майкрософт для итальянского языка.
ja.lucene	string	Анализатор Lucene для японского языка.
ja.microsoft	string	Анализатор Майкрософт для японского языка.
keyword	string	Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Анализатор Майкрософт для Kannada.
ko.lucene	string	Анализатор Lucene для корейского языка.
ko.microsoft	string	Анализатор Майкрософт для корейского языка.
lt.microsoft	string	Анализатор Майкрософт для Литвы.
lv.lucene	string	Анализатор Lucene для латышского языка.
lv.microsoft	string	Анализатор Майкрософт для латышского языка.
ml.microsoft	string	Анализатор Майкрософт для Малаялам.
mr.microsoft	string	Анализатор Майкрософт для Маратхи.
ms.microsoft	string	Анализатор Майкрософт для малайского языка (латиница).
nb.microsoft	string	Анализатор Microsoft для норвежского языка (Букмол).
nl.lucene	string	Анализатор Lucene для голландского языка.
nl.microsoft	string	Анализатор Майкрософт для голландского языка.
no.lucene	string	Анализатор Lucene для норвежского языка.
pa.microsoft	string	Анализатор Майкрософт для Пенджаби.
pattern	string	Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Анализатор Lucene для польского.
pl.microsoft	string	Анализатор Майкрософт для польского.
pt-BR.lucene	string	Анализатор Lucene для португальского языка (Бразилия).
pt-BR.microsoft	string	Анализатор Майкрософт для португальского языка (Бразилия).
pt-PT.lucene	string	Анализатор Lucene для португальского языка (Португалия).
pt-PT.microsoft	string	Анализатор Майкрософт для португальского языка (Португалия).
ro.lucene	string	Анализатор Lucene для румынского языка.
ro.microsoft	string	Анализатор Майкрософт для румынского языка.
ru.lucene	string	Анализатор Lucene для русского языка.
ru.microsoft	string	Анализатор Майкрософт для русского языка.
simple	string	Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Анализатор Майкрософт для словацкого языка.
sl.microsoft	string	Анализатор Майкрософт для словенского языка.
sr-cyrillic.microsoft	string	Анализатор Майкрософт для сербского языка (кириллица).
sr-latin.microsoft	string	Анализатор Майкрософт для сербского языка (латиница).
standard.lucene	string	Стандартный анализатор Lucene.
standardasciifolding.lucene	string	Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Анализатор Lucene для шведского языка.
sv.microsoft	string	Анализатор Майкрософт для шведского языка.
ta.microsoft	string	Анализатор Майкрософт для Тамильского.
te.microsoft	string	Анализатор Майкрософт для Telugu.
th.lucene	string	Анализатор Lucene для тайского языка.
th.microsoft	string	Анализатор Майкрософт для тайского языка.
tr.lucene	string	Анализатор Lucene для турецкого языка.
tr.microsoft	string	Анализатор Майкрософт для турецкого языка.
uk.microsoft	string	Анализатор Майкрософт для украинского языка.
ur.microsoft	string	Анализатор Майкрософт для Urdu.
vi.microsoft	string	Анализатор Майкрософт для вьетнамского.
whitespace	string	Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Анализатор Lucene для китайского языка (упрощенное письмо).
zh-Hans.microsoft	string	Microsoft Analyzer для китайского языка (упрощенное письмо).
zh-Hant.lucene	string	Анализатор Lucene для китайского языка (традиционное письмо).
zh-Hant.microsoft	string	Анализатор Майкрософт для китайского языка (традиционное письмо).

LexicalTokenizerName

Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.

Имя	Тип	Описание
classic	string	Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Маркеризует входные данные из ребра в n граммов заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам.
microsoft_language_tokenizer	string	Разбивает текст на основе правил определенного языка.
nGram	string	Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Стандартный анализатор Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Описывает условие ошибки для API.

Имя	Тип	Описание
code	string	Один из серверных наборов кодов ошибок.
details	SearchError[]	Массив сведений о конкретных ошибках, которые привели к этой сообщаемой ошибке.
message	string	Понятное представление ошибки.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Имя	Тип	Описание
apostrophe	string	Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Преобразует буквенные, числовые и символьные символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Формирует bigrams из терминов CJK, созданных из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентную базовую латиницу, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Удаляет элизии. Например, "l'avion" (плоскость) будет преобразован в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Выдает каждый входящий маркер дважды, один раз как ключевое слово и один раз как ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Нормализует текст в маркере в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm
nGram_v2	string	Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Для преобразования потока маркеров использует алгоритм stemming Porter. См. раздел http://tartarus.org/~martin/PorterStemmer
reverse	string	Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Складывает скандинавские символы ÅäæÄÆ-a> и ööØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Фильтр, который содержит слова с помощью сгенерированного Снежком парадигматического модуля. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Нормализует текст в маркере в верхний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов.

Поделиться через