Indexes - Analyze

Ссылка

Служба:: Search Service

Версия API:: 2024-07-01

Показывает, как анализатор разбивает текст на маркеры.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Параметры URI

Имя	В	Обязательно	Тип	Описание
endpoint	path	True	string	URL-адрес конечной точки службы поиска.
indexName	path	True	string	Имя индекса, для которого необходимо протестировать анализатор.
api-version	query	True	string	Версия клиентского API.

Заголовок запроса

Имя	Обязательно	Тип	Описание
x-ms-client-request-id		string uuid	Идентификатор отслеживания, отправляемый запросом на отладку.

Текст запроса

Имя	Обязательно	Тип	Описание
text	True	string	Текст, который нужно разбить на маркеры.
analyzer		LexicalAnalyzerName	Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.
charFilters		CharFilterName[]	Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
tokenFilters		TokenFilterName[]	Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
tokenizer		LexicalTokenizerName	Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

Ответы

Имя	Тип	Описание
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Ответ на ошибку.

Примеры

SearchServiceIndexAnalyze

Образец запроса

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Пример ответа

Код состояния:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя	Описание
AnalyzedTokenInfo	Сведения о маркере, возвращаемом анализатором.
AnalyzeRequest	Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.
AnalyzeResult	Результат тестирования анализатора на тексте.
CharFilterName	Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
ErrorAdditionalInfo	Дополнительные сведения об ошибке управления ресурсами.
ErrorDetail	Сведения об ошибке.
ErrorResponse	Ответ на ошибку
LexicalAnalyzerName	Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.
LexicalTokenizerName	Определяет имена всех токенизаторов, поддерживаемых поисковой системой.
TokenFilterName	Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

Имя	Тип	Описание
endOffset	integer	Индекс последнего символа маркера в входном тексте.
position	integer	Позиция маркера в входном тексте относительно других маркеров. Первый маркер в входном тексте имеет позицию 0, следующая имеет позицию 1 и т. д. В зависимости от используемого анализатора некоторые маркеры могут иметь одинаковую позицию, например если они являются синонимами друг друга.
startOffset	integer	Индекс первого символа маркера в входном тексте.
token	string	Маркер, возвращаемый анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

Имя	Тип	Описание
analyzer	LexicalAnalyzerName	Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.
charFilters	CharFilterName[]	Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
text	string	Текст, который нужно разбить на маркеры.
tokenFilters	TokenFilterName[]	Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.
tokenizer	LexicalTokenizerName	Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

AnalyzeResult

Результат тестирования анализатора на тексте.

Имя	Тип	Описание
tokens	AnalyzedTokenInfo[]	Список маркеров, возвращаемых анализатором, указанным в запросе.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Имя	Тип	Описание
html_strip	string	Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя	Тип	Описание
info	object	Дополнительные сведения.
type	string	Дополнительный тип сведений.

ErrorDetail

Сведения об ошибке.

Имя	Тип	Описание
additionalInfo	ErrorAdditionalInfo[]	Дополнительные сведения об ошибке.
code	string	Код ошибки.
details	ErrorDetail[]	Сведения об ошибке.
message	string	Сообщение об ошибке.
target	string	Целевой объект ошибки.

ErrorResponse

Ответ на ошибку

Имя	Тип	Описание
error	ErrorDetail	Объект ошибки.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Имя	Тип	Описание
ar.lucene	string	Анализатор Lucene для арабского языка.
ar.microsoft	string	Анализатор Майкрософт для арабского языка.
bg.lucene	string	Анализатор Lucene для Болгарии.
bg.microsoft	string	Анализатор Майкрософт для болгарского.
bn.microsoft	string	Анализатор Майкрософт для Bangla.
ca.lucene	string	Анализатор Lucene для каталонца.
ca.microsoft	string	Анализатор Майкрософт для каталонца.
cs.lucene	string	Анализатор Lucene для Чехии.
cs.microsoft	string	Анализатор Майкрософт для Чехии.
da.lucene	string	Анализатор Lucene для датского языка.
da.microsoft	string	Анализатор Майкрософт для датского языка.
de.lucene	string	Анализатор Lucene для немецкого языка.
de.microsoft	string	Анализатор Майкрософт для немецкого языка.
el.lucene	string	Анализатор Lucene для греческого языка.
el.microsoft	string	Анализатор Майкрософт для греческого языка.
en.lucene	string	Анализатор Lucene для английского языка.
en.microsoft	string	Анализатор Майкрософт для английского языка.
es.lucene	string	Анализатор Lucene для испанского языка.
es.microsoft	string	Анализатор Майкрософт для испанского языка.
et.microsoft	string	Анализатор Майкрософт для Эстонии.
eu.lucene	string	Анализатор Lucene для Баска.
fa.lucene	string	Анализатор Lucene для персидского языка.
fi.lucene	string	Анализатор Lucene для финляндии.
fi.microsoft	string	Анализатор Майкрософт для Финляндии.
fr.lucene	string	Анализатор Lucene для французского языка.
fr.microsoft	string	Анализатор Майкрософт для французского языка.
ga.lucene	string	Анализатор Lucene для ирландских.
gl.lucene	string	Анализатор Lucene для Галисиана.
gu.microsoft	string	Анализатор Майкрософт для Gujarati.
he.microsoft	string	Анализатор Майкрософт для иврита.
hi.lucene	string	Анализатор Lucene для Хинди.
hi.microsoft	string	Анализатор Майкрософт для Хинди.
hr.microsoft	string	Анализатор Майкрософт для хорватского языка.
hu.lucene	string	Анализатор Lucene для венгерского.
hu.microsoft	string	Анализатор Майкрософт для венгерского.
hy.lucene	string	Анализатор Lucene для армян.
id.lucene	string	Анализатор Lucene для Индонезии.
id.microsoft	string	Анализатор Майкрософт для Индонезии (Бахаса).
is.microsoft	string	Анализатор Майкрософт для Исландии.
it.lucene	string	Анализатор Lucene для итальянского языка.
it.microsoft	string	Анализатор Майкрософт для итальянского языка.
ja.lucene	string	Анализатор Lucene для японского языка.
ja.microsoft	string	Анализатор Майкрософт для японского языка.
keyword	string	Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Анализатор Майкрософт для Kannada.
ko.lucene	string	Анализатор Lucene для корейского языка.
ko.microsoft	string	Анализатор Майкрософт для корейского языка.
lt.microsoft	string	Анализатор Майкрософт для Литвы.
lv.lucene	string	Анализатор Lucene для Латышского.
lv.microsoft	string	Анализатор Майкрософт для латышского языка.
ml.microsoft	string	Анализатор Microsoft для Малаялам.
mr.microsoft	string	Анализатор Майкрософт для Маратхи.
ms.microsoft	string	Анализатор Майкрософт для Малая (латиница).
nb.microsoft	string	Анализатор Майкрософт для норвежского языка (Bokmål).
nl.lucene	string	Анализатор Lucene для голландцев.
nl.microsoft	string	Анализатор Майкрософт для голландского языка.
no.lucene	string	Анализатор Lucene для норвежского языка.
pa.microsoft	string	Анализатор Майкрософт для Пенджаби.
pattern	string	Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Анализатор Lucene для польского.
pl.microsoft	string	Анализатор Майкрософт для польского.
pt-BR.lucene	string	Анализатор Lucene для португальского (Бразилия).
pt-BR.microsoft	string	Анализатор Майкрософт для португальского языка (Бразилия).
pt-PT.lucene	string	Анализатор Lucene для португальского (Португалия).
pt-PT.microsoft	string	Анализатор Майкрософт для португальского языка (Португалия).
ro.lucene	string	Анализатор Lucene для румына.
ro.microsoft	string	Анализатор Майкрософт для румына.
ru.lucene	string	Анализатор Lucene для россии.
ru.microsoft	string	Анализатор Майкрософт для русского языка.
simple	string	Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Анализатор Майкрософт для словацких.
sl.microsoft	string	Анализатор Майкрософт для словенцев.
sr-cyrillic.microsoft	string	Анализатор Майкрософт для сербских (кириллица).
sr-latin.microsoft	string	Анализатор Майкрософт для сербских (латиница).
standard.lucene	string	Стандартный анализатор Lucene.
standardasciifolding.lucene	string	Стандартный анализатор ASCII Folding Lucene. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Анализатор Lucene для шведского языка.
sv.microsoft	string	Анализатор Майкрософт для шведского языка.
ta.microsoft	string	Анализатор Майкрософт для Тамила.
te.microsoft	string	Анализатор Майкрософт для Telugu.
th.lucene	string	Анализатор Lucene для тайского языка.
th.microsoft	string	Анализатор Майкрософт для тайского языка.
tr.lucene	string	Анализатор Lucene для турецкого языка.
tr.microsoft	string	Анализатор Майкрософт для турецкого языка.
uk.microsoft	string	Анализатор Майкрософт для украины.
ur.microsoft	string	Анализатор Майкрософт для Urdu.
vi.microsoft	string	Анализатор Майкрософт для вьетнамцев.
whitespace	string	Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Анализатор Lucene для китайского (упрощенное письмо).
zh-Hans.microsoft	string	Анализатор Майкрософт для китайского (упрощенное письмо).
zh-Hant.lucene	string	Анализатор Lucene для китайского (традиционного).
zh-Hant.microsoft	string	Анализатор Майкрософт для китайского (традиционного языка).

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Имя	Тип	Описание
classic	string	Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.
microsoft_language_tokenizer	string	Делит текст с помощью правил, относящихся к языку.
nGram	string	Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Имя	Тип	Описание
apostrophe	string	Полоскает все символы после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Фильтр маркеров, который применяет арабский нормализатор для нормализации ортографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Нормализует различия ширины CJK. Сворачивать варианты fullwidth ASCII в эквивалентную базовую латиницу и половину ширины вариантов Katakana в эквивалентную Кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Удаляет англоязычные присяговы и точки из акронимов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Нормализует немецкие символы в соответствии с эвристиками алгоритма снежного шара Германии 2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Нормализует текст в Хинди, чтобы удалить некоторые различия в вариантах орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Нормализует представление текста Юникода на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Выводит каждый входящий токен дважды, один раз в качестве ключевого слова и один раз как не ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Удаляет слова, слишком длинные или слишком короткие. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Ограничивает количество маркеров при индексировании. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Нормализует текст маркера в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Создает n-граммы заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Создайте маркеры для фонетических совпадений. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Для преобразования потока маркеров используется алгоритм стебля портера. См. http://tartarus.org/~martin/PorterStemmer
reverse	string	Отменяет строку маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Сворачивать скандинавские символы åÅäääÄÄÄÖ->a и öÖøØ->o. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первый. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Нормализует использование взаимозаменяемых скандинавских символов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Создает сочетания маркеров в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Фильтр, который стебляет слова с помощью созданного сноубола стебля. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Фильтр для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Удаляет слова остановки из потока маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Обрезает начальные и конечные пробелы из маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Усечение терминов до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Фильтрует маркеры с тем же текстом, что и предыдущий маркер. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Нормализует текст маркера в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов.

Поделиться через