Indexes - Analyze
Показывает, как анализатор разбивает текст на маркеры.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
index
|
path | True |
string |
Имя индекса, для которого тестируется анализатор. |
api-version
|
query | True |
string |
Версия API клиента. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправленный с запросом на помощь в отладке. |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
text | True |
string |
Текст для разбиения на токены. |
analyzer |
Имя анализатора, используемого для прерывания заданного текста. Если этот параметр не указан, необходимо указать вместо него создатель маркеров. Параметры токенизатора и анализатора являются взаимоисключающими. |
||
charFilters |
Необязательный список фильтров символов, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer. |
||
tokenFilters |
Необязательный список фильтров маркеров, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer. |
||
tokenizer |
Имя создателя маркеров, используемого для прерывания заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK | ||
Other Status Codes |
Ответ об ошибке. |
Примеры
SearchServiceIndexAnalyze
Образец запроса
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Пример ответа
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Определения
Имя | Описание |
---|---|
Analyzed |
Сведения о маркере, возвращаемом анализатором. |
Analyze |
Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры. |
Analyze |
Результат тестирования анализатора на тексте. |
Char |
Определяет имена всех символьных фильтров, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой. |
Search |
Описывает условие ошибки для API. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
AnalyzedTokenInfo
Сведения о маркере, возвращаемом анализатором.
Имя | Тип | Описание |
---|---|---|
endOffset |
integer |
Индекс последнего символа маркера во входном тексте. |
position |
integer |
Позиция маркера во входном тексте относительно других маркеров. Первый маркер во входном тексте имеет позицию 0, следующий — позицию 1 и т. д. В зависимости от используемого анализатора некоторые токены могут иметь одинаковое положение, например, если они являются синонимами друг друга. |
startOffset |
integer |
Индекс первого символа маркера во входном тексте. |
token |
string |
Маркер, возвращаемый анализатором. |
AnalyzeRequest
Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для разбиения заданного текста. Если этот параметр не указан, необходимо указать вместо него создатель маркеров. Параметры токенизатора и анализатора являются взаимоисключающими. |
|
charFilters |
Необязательный список символьных фильтров, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer. |
|
text |
string |
Текст для разбиения на токены. |
tokenFilters |
Необязательный список фильтров маркеров, используемых при нарушении заданного текста. Этот параметр можно задать только при использовании параметра tokenizer. |
|
tokenizer |
Имя создателя маркеров, используемое для разбиения заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими. |
AnalyzeResult
Результат тестирования анализатора на тексте.
Имя | Тип | Описание |
---|---|---|
tokens |
Список маркеров, возвращаемых анализатором, указанным в запросе. |
CharFilterName
Определяет имена всех символьных фильтров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
LexicalAnalyzerName
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для болгарского. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонского. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонского. |
cs.lucene |
string |
Анализатор Lucene для чешского языка. |
cs.microsoft |
string |
Анализатор Майкрософт для чешского языка. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для эстонского языка. |
eu.lucene |
string |
Анализатор Lucene для Баскского. |
fa.lucene |
string |
Анализатор Люцена для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финского языка. |
fi.microsoft |
string |
Анализатор Майкрософт для финского языка. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландского. |
gl.lucene |
string |
Анализатор Lucene для Галисии. |
gu.microsoft |
string |
Анализатор Майкрософт для Гуджарати. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армянского. |
id.lucene |
string |
Анализатор Lucene для индонезийского языка. |
id.microsoft |
string |
Анализатор Майкрософт для индонезийского языка (Bahasa). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Kannada. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для Литвы. |
lv.lucene |
string |
Анализатор Lucene для латышского языка. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Майкрософт для Малаялам. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для малайского языка (латиница). |
nb.microsoft |
string |
Анализатор Microsoft для норвежского языка (Букмол). |
nl.lucene |
string |
Анализатор Lucene для голландского языка. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Пенджаби. |
pattern |
string |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского языка (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского языка (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румынского языка. |
ro.microsoft |
string |
Анализатор Майкрософт для румынского языка. |
ru.lucene |
string |
Анализатор Lucene для русского языка. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацкого языка. |
sl.microsoft |
string |
Анализатор Майкрософт для словенского языка. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербского языка (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербского языка (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для Тамильского. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украинского языка. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамского. |
whitespace |
string |
Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского языка (упрощенное письмо). |
zh-Hans.microsoft |
string |
Microsoft Analyzer для китайского языка (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского языка (традиционное письмо). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского языка (традиционное письмо). |
LexicalTokenizerName
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризует входные данные из ребра в n граммов заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам. |
microsoft_language_tokenizer |
string |
Разбивает текст на основе правил определенного языка. |
nGram |
string |
Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
SearchError
Описывает условие ошибки для API.
Имя | Тип | Описание |
---|---|---|
code |
string |
Один из серверных наборов кодов ошибок. |
details |
Массив сведений о конкретных ошибках, которые привели к этой сообщаемой ошибке. |
|
message |
string |
Понятное представление ошибки. |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.