Indexes - Analyze
Показывает, как анализатор разбивает текст на маркеры.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
index
|
path | True |
string |
Имя индекса, для которого необходимо протестировать анализатор. |
api-version
|
query | True |
string |
Версия клиентского API. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправляемый запросом на отладку. |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
text | True |
string |
Текст, который нужно разбить на маркеры. |
analyzer |
Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими. |
||
charFilters |
Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора. |
||
tokenFilters |
Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора. |
||
tokenizer |
Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK | ||
Other Status Codes |
Ответ на ошибку. |
Примеры
SearchServiceIndexAnalyze
Образец запроса
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Пример ответа
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Определения
Имя | Описание |
---|---|
Analyzed |
Сведения о маркере, возвращаемом анализатором. |
Analyze |
Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры. |
Analyze |
Результат тестирования анализатора на тексте. |
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
Error |
Дополнительные сведения об ошибке управления ресурсами. |
Error |
Сведения об ошибке. |
Error |
Ответ на ошибку |
Lexical |
Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех токенизаторов, поддерживаемых поисковой системой. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
AnalyzedTokenInfo
Сведения о маркере, возвращаемом анализатором.
Имя | Тип | Описание |
---|---|---|
endOffset |
integer |
Индекс последнего символа маркера в входном тексте. |
position |
integer |
Позиция маркера в входном тексте относительно других маркеров. Первый маркер в входном тексте имеет позицию 0, следующая имеет позицию 1 и т. д. В зависимости от используемого анализатора некоторые маркеры могут иметь одинаковую позицию, например если они являются синонимами друг друга. |
startOffset |
integer |
Индекс первого символа маркера в входном тексте. |
token |
string |
Маркер, возвращаемый анализатором. |
AnalyzeRequest
Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими. |
|
charFilters |
Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора. |
|
text |
string |
Текст, который нужно разбить на маркеры. |
tokenFilters |
Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора. |
|
tokenizer |
Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими. |
AnalyzeResult
Результат тестирования анализатора на тексте.
Имя | Тип | Описание |
---|---|---|
tokens |
Список маркеров, возвращаемых анализатором, указанным в запросе. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Дополнительные сведения об ошибке управления ресурсами.
Имя | Тип | Описание |
---|---|---|
info |
object |
Дополнительные сведения. |
type |
string |
Дополнительный тип сведений. |
ErrorDetail
Сведения об ошибке.
Имя | Тип | Описание |
---|---|---|
additionalInfo |
Дополнительные сведения об ошибке. |
|
code |
string |
Код ошибки. |
details |
Сведения об ошибке. |
|
message |
string |
Сообщение об ошибке. |
target |
string |
Целевой объект ошибки. |
ErrorResponse
Ответ на ошибку
Имя | Тип | Описание |
---|---|---|
error |
Объект ошибки. |
LexicalAnalyzerName
Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для Болгарии. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонца. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонца. |
cs.lucene |
string |
Анализатор Lucene для Чехии. |
cs.microsoft |
string |
Анализатор Майкрософт для Чехии. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для Эстонии. |
eu.lucene |
string |
Анализатор Lucene для Баска. |
fa.lucene |
string |
Анализатор Lucene для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финляндии. |
fi.microsoft |
string |
Анализатор Майкрософт для Финляндии. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландских. |
gl.lucene |
string |
Анализатор Lucene для Галисиана. |
gu.microsoft |
string |
Анализатор Майкрософт для Gujarati. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для Хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для Хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армян. |
id.lucene |
string |
Анализатор Lucene для Индонезии. |
id.microsoft |
string |
Анализатор Майкрософт для Индонезии (Бахаса). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Kannada. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для Литвы. |
lv.lucene |
string |
Анализатор Lucene для Латышского. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Microsoft для Малаялам. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для Малая (латиница). |
nb.microsoft |
string |
Анализатор Майкрософт для норвежского языка (Bokmål). |
nl.lucene |
string |
Анализатор Lucene для голландцев. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Пенджаби. |
pattern |
string |
Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румына. |
ro.microsoft |
string |
Анализатор Майкрософт для румына. |
ru.lucene |
string |
Анализатор Lucene для россии. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацких. |
sl.microsoft |
string |
Анализатор Майкрософт для словенцев. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербских (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербских (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор ASCII Folding Lucene. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для Тамила. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украины. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамцев. |
whitespace |
string |
Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского (упрощенное письмо). |
zh-Hans.microsoft |
string |
Анализатор Майкрософт для китайского (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского (традиционного). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского (традиционного языка). |
LexicalTokenizerName
Определяет имена всех токенизаторов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам. |
microsoft_language_tokenizer |
string |
Делит текст с помощью правил, относящихся к языку. |
nGram |
string |
Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.