Indexes - Analyze

Ссылка

Служба:: Search Service

Версия API:: 2024-07-01

Показывает, как анализатор разбивает текст на маркеры.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Параметры URI

Имя	В	Обязательно	Тип	Описание
endpoint	path	True	string	URL-адрес конечной точки службы поиска.
indexName	path	True	string	Имя индекса, для которого необходимо протестировать анализатор.
api-version	query	True	string	Версия клиентского API.

Заголовок запроса

Имя	Обязательно	Тип	Описание
x-ms-client-request-id		string (uuid)	Идентификатор отслеживания, отправляемый запросом на отладку.

Текст запроса

Имя	Обязательно	Тип	Описание
text	True	string	Текст, который нужно разбить на маркеры.
analyzer		LexicalAnalyzerName	Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.
charFilters		CharFilterName[]	Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
tokenFilters		TokenFilterName[]	Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
tokenizer		LexicalTokenizerName	Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

Ответы

Имя	Тип	Описание
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Ответ на ошибку.

Примеры

SearchServiceIndexAnalyze

Образец запроса

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Пример ответа

Код состояния:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя	Описание
AnalyzedTokenInfo	Сведения о маркере, возвращаемом анализатором.
AnalyzeRequest	Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.
AnalyzeResult	Результат тестирования анализатора на тексте.
CharFilterName	Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
ErrorAdditionalInfo	Дополнительные сведения об ошибке управления ресурсами.
ErrorDetail	Сведения об ошибке.
ErrorResponse	Ответ на ошибку
LexicalAnalyzerName	Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.
LexicalTokenizerName	Определяет имена всех токенизаторов, поддерживаемых поисковой системой.
TokenFilterName	Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

AnalyzedTokenInfo

Object

Сведения о маркере, возвращаемом анализатором.

Имя	Тип	Описание
endOffset	integer (int32)	Индекс последнего символа маркера в входном тексте.
position	integer (int32)	Позиция маркера в входном тексте относительно других маркеров. Первый маркер в входном тексте имеет позицию 0, следующая имеет позицию 1 и т. д. В зависимости от используемого анализатора некоторые маркеры могут иметь одинаковую позицию, например если они являются синонимами друг друга.
startOffset	integer (int32)	Индекс первого символа маркера в входном тексте.
token	string	Маркер, возвращаемый анализатором.

AnalyzeRequest

Object

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

Имя	Тип	Описание
analyzer	LexicalAnalyzerName	Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.
charFilters	CharFilterName[]	Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
text	string	Текст, который нужно разбить на маркеры.
tokenFilters	TokenFilterName[]	Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
tokenizer	LexicalTokenizerName	Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

AnalyzeResult

Object

Результат тестирования анализатора на тексте.

Имя	Тип	Описание
tokens	AnalyzedTokenInfo[]	Список маркеров, возвращаемых анализатором, указанным в запросе.

CharFilterName

Перечисление

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Значение	Описание
html_strip	Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Object

Дополнительные сведения об ошибке управления ресурсами.

Имя	Тип	Описание
info	object	Дополнительные сведения.
type	string	Дополнительный тип сведений.

ErrorDetail

Object

Сведения об ошибке.

Имя	Тип	Описание
additionalInfo	ErrorAdditionalInfo[]	Дополнительные сведения об ошибке.
code	string	Код ошибки.
details	ErrorDetail[]	Сведения об ошибке.
message	string	Сообщение об ошибке.
target	string	Целевой объект ошибки.

ErrorResponse

Object

Ответ на ошибку

Имя	Тип	Описание
error	ErrorDetail	Объект ошибки.

LexicalAnalyzerName

Перечисление

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Значение	Описание
ar.lucene	Анализатор Lucene для арабского языка.
ar.microsoft	Анализатор Майкрософт для арабского языка.
bg.lucene	Анализатор Lucene для Болгарии.
bg.microsoft	Анализатор Майкрософт для болгарского.
bn.microsoft	Анализатор Майкрософт для Bangla.
ca.lucene	Анализатор Lucene для каталонца.
ca.microsoft	Анализатор Майкрософт для каталонца.
cs.lucene	Анализатор Lucene для Чехии.
cs.microsoft	Анализатор Майкрософт для Чехии.
da.lucene	Анализатор Lucene для датского языка.
da.microsoft	Анализатор Майкрософт для датского языка.
de.lucene	Анализатор Lucene для немецкого языка.
de.microsoft	Анализатор Майкрософт для немецкого языка.
el.lucene	Анализатор Lucene для греческого языка.
el.microsoft	Анализатор Майкрософт для греческого языка.
en.lucene	Анализатор Lucene для английского языка.
en.microsoft	Анализатор Майкрософт для английского языка.
es.lucene	Анализатор Lucene для испанского языка.
es.microsoft	Анализатор Майкрософт для испанского языка.
et.microsoft	Анализатор Майкрософт для Эстонии.
eu.lucene	Анализатор Lucene для Баска.
fa.lucene	Анализатор Lucene для персидского языка.
fi.lucene	Анализатор Lucene для финляндии.
fi.microsoft	Анализатор Майкрософт для Финляндии.
fr.lucene	Анализатор Lucene для французского языка.
fr.microsoft	Анализатор Майкрософт для французского языка.
ga.lucene	Анализатор Lucene для ирландских.
gl.lucene	Анализатор Lucene для Галисиана.
gu.microsoft	Анализатор Майкрософт для Gujarati.
he.microsoft	Анализатор Майкрософт для иврита.
hi.lucene	Анализатор Lucene для Хинди.
hi.microsoft	Анализатор Майкрософт для Хинди.
hr.microsoft	Анализатор Майкрософт для хорватского языка.
hu.lucene	Анализатор Lucene для венгерского.
hu.microsoft	Анализатор Майкрософт для венгерского.
hy.lucene	Анализатор Lucene для армян.
id.lucene	Анализатор Lucene для Индонезии.
id.microsoft	Анализатор Майкрософт для Индонезии (Бахаса).
is.microsoft	Анализатор Майкрософт для Исландии.
it.lucene	Анализатор Lucene для итальянского языка.
it.microsoft	Анализатор Майкрософт для итальянского языка.
ja.lucene	Анализатор Lucene для японского языка.
ja.microsoft	Анализатор Майкрософт для японского языка.
keyword	Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	Анализатор Майкрософт для Kannada.
ko.lucene	Анализатор Lucene для корейского языка.
ko.microsoft	Анализатор Майкрософт для корейского языка.
lt.microsoft	Анализатор Майкрософт для Литвы.
lv.lucene	Анализатор Lucene для Латышского.
lv.microsoft	Анализатор Майкрософт для латышского языка.
ml.microsoft	Анализатор Microsoft для Малаялам.
mr.microsoft	Анализатор Майкрософт для Маратхи.
ms.microsoft	Анализатор Майкрософт для Малая (латиница).
nb.microsoft	Анализатор Майкрософт для норвежского языка (Bokmål).
nl.lucene	Анализатор Lucene для голландцев.
nl.microsoft	Анализатор Майкрософт для голландского языка.
no.lucene	Анализатор Lucene для норвежского языка.
pa.microsoft	Анализатор Майкрософт для Пенджаби.
pattern	Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	Анализатор Lucene для польского.
pl.microsoft	Анализатор Майкрософт для польского.
pt-BR.lucene	Анализатор Lucene для португальского (Бразилия).
pt-BR.microsoft	Анализатор Майкрософт для португальского языка (Бразилия).
pt-PT.lucene	Анализатор Lucene для португальского (Португалия).
pt-PT.microsoft	Анализатор Майкрософт для португальского языка (Португалия).
ro.lucene	Анализатор Lucene для румына.
ro.microsoft	Анализатор Майкрософт для румына.
ru.lucene	Анализатор Lucene для россии.
ru.microsoft	Анализатор Майкрософт для русского языка.
simple	Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	Анализатор Майкрософт для словацких.
sl.microsoft	Анализатор Майкрософт для словенцев.
sr-cyrillic.microsoft	Анализатор Майкрософт для сербских (кириллица).
sr-latin.microsoft	Анализатор Майкрософт для сербских (латиница).
standard.lucene	Стандартный анализатор Lucene.
standardasciifolding.lucene	Стандартный анализатор ASCII Folding Lucene. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	Анализатор Lucene для шведского языка.
sv.microsoft	Анализатор Майкрософт для шведского языка.
ta.microsoft	Анализатор Майкрософт для Тамила.
te.microsoft	Анализатор Майкрософт для Telugu.
th.lucene	Анализатор Lucene для тайского языка.
th.microsoft	Анализатор Майкрософт для тайского языка.
tr.lucene	Анализатор Lucene для турецкого языка.
tr.microsoft	Анализатор Майкрософт для турецкого языка.
uk.microsoft	Анализатор Майкрософт для украины.
ur.microsoft	Анализатор Майкрософт для Urdu.
vi.microsoft	Анализатор Майкрософт для вьетнамцев.
whitespace	Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	Анализатор Lucene для китайского (упрощенное письмо).
zh-Hans.microsoft	Анализатор Майкрософт для китайского (упрощенное письмо).
zh-Hant.lucene	Анализатор Lucene для китайского (традиционного).
zh-Hant.microsoft	Анализатор Майкрософт для китайского (традиционного языка).

LexicalTokenizerName

Перечисление

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Значение	Описание
classic	Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.
microsoft_language_tokenizer	Делит текст с помощью правил, относящихся к языку.
nGram	Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Перечисление

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Значение	Описание
apostrophe	Полоскает все символы после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	Фильтр маркеров, который применяет арабский нормализатор для нормализации ортографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	Нормализует различия ширины CJK. Сворачивать варианты fullwidth ASCII в эквивалентную базовую латиницу и половину ширины вариантов Katakana в эквивалентную Кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	Удаляет англоязычные присяговы и точки из акронимов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	Нормализует немецкие символы в соответствии с эвристиками алгоритма снежного шара Германии 2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	Нормализует текст в Хинди, чтобы удалить некоторые различия в вариантах орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	Нормализует представление текста Юникода на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	Выводит каждый входящий токен дважды, один раз в качестве ключевого слова и один раз как не ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	Удаляет слова, слишком длинные или слишком короткие. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	Ограничивает количество маркеров при индексировании. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	Нормализует текст маркера в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	Создает n-граммы заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	Создайте маркеры для фонетических совпадений. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	Для преобразования потока маркеров используется алгоритм стебля портера. См. http://tartarus.org/~martin/PorterStemmer
reverse	Отменяет строку маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	Сворачивать скандинавские символы åÅäääÄÄÄÖ->a и öÖøØ->o. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первый. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	Нормализует использование взаимозаменяемых скандинавских символов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	Создает сочетания маркеров в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	Фильтр, который стебляет слова с помощью созданного сноубола стебля. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	Фильтр для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	Удаляет слова остановки из потока маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	Обрезает начальные и конечные пробелы из маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	Усечение терминов до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	Фильтрует маркеры с тем же текстом, что и предыдущий маркер. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	Нормализует текст маркера в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов.

Поделиться через

Indexes - Analyze

Параметры URI

Заголовок запроса

Текст запроса

Ответы

Примеры

SearchServiceIndexAnalyze

Образец запроса

Пример ответа

Определения

AnalyzedTokenInfo

AnalyzeRequest

AnalyzeResult

CharFilterName

ErrorAdditionalInfo

ErrorDetail

ErrorResponse

LexicalAnalyzerName

LexicalTokenizerName

TokenFilterName

Дополнительные ресурсы