Indexes - Create
Создает новый индекс поиска.
POST {endpoint}/indexes?api-version=2023-11-01
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
api-version
|
query | True |
string |
Версия API клиента. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправленный с запросом для помощи в отладке. |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
fields | True |
Поля индекса. |
|
name | True |
string |
Имя индекса. |
@odata.etag |
string |
ETag индекса. |
|
analyzers | LexicalAnalyzer[]: |
Анализаторы для индекса. |
|
charFilters | CharFilter[]: |
Символьные фильтры для индекса. |
|
corsOptions |
Параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
||
defaultScoringProfile |
string |
Имя профиля оценки, используемого, если в запросе нет. Если это свойство не задано и в запросе не указан профиль оценки, будет использоваться оценка по умолчанию (tf-idf). |
|
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования неактивных данных, если требуется полная гарантия того, что никто, даже корпорация Майкрософт, не может расшифровать ваши данные. После шифрования данных они всегда остаются зашифрованными. Служба поиска игнорирует попытки присвоить этому свойству значение NULL. Это свойство можно изменить при необходимости, если требуется сменить ключ шифрования. Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 года или позже. |
||
scoringProfiles |
Профили оценки для индекса. |
||
semantic |
Определяет параметры для индекса поиска, влияющие на семантические возможности. |
||
similarity | Similarity: |
Тип алгоритма сходства, используемого при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен в существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity. |
|
suggesters |
Средства подбора для индекса. |
||
tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
|
tokenizers | LexicalTokenizer[]: |
Создатели маркеров для индекса. |
|
vectorSearch |
Содержит параметры конфигурации, связанные с поиском векторов. |
Ответы
Имя | Тип | Описание |
---|---|---|
201 Created | ||
Other Status Codes |
Ответ об ошибке. |
Примеры
SearchServiceCreateIndex
Образец запроса
POST https://myservice.search.windows.net/indexes?api-version=2023-11-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
Пример ответа
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Определения
Имя | Описание |
---|---|
Ascii |
Преобразует буквенные, числовые и символьные символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Azure |
Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа к ключам шифрования, хранящимся в Azure Key Vault с проверкой подлинности. |
BM25Similarity |
Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщенность термина частоты (управляется параметром k1). |
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
Cjk |
Формирует bigrams из терминов CJK, созданных из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cjk |
Скрипты, которые могут игнорироваться CjkBigramTokenFilter. |
Classic |
Устаревший алгоритм подобия, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF вводит нормализацию статической длины документа, а также координирующих факторов, которые наказывают документы, которые только частично соответствуют поисковым запросам. |
Classic |
Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Common |
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cors |
Определяет параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
Custom |
Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, выдаваемых создателем маркеров. |
Dictionary |
Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Distance |
Определяет функцию, повышающую оценку на основе расстояния от географического расположения. |
Distance |
Предоставляет значения параметров для функции оценки расстояния. |
Edge |
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Указывает, на какой стороне входных данных должна быть создана n-грамма. |
Edge |
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Маркеризует входные данные из ребра в n граммов заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Elision |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразован в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Exhaustive |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
Exhaustive |
Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время запроса, который будет выполнять поиск методом подбора по всему индексу вектора. |
Freshness |
Определяет функцию, повышающую оценку на основе значения поля даты и времени. |
Freshness |
Предоставляет значения параметров для функции оценки актуальности. |
Hnsw |
Содержит параметры, относящиеся к алгоритму HNSW. |
Hnsw |
Содержит параметры конфигурации, относящиеся к алгоритму приблизительных ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью поиска и точностью. |
Keep |
Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Length |
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lexical |
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой. |
Limit |
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lucene |
Стандартный анализатор Apache Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. |
Lucene |
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Lucene |
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Magnitude |
Определяет функцию, повышающую оценки на основе величины числового поля. |
Magnitude |
Предоставляет значения параметров для функции оценки величины. |
Mapping |
Символьный фильтр, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene. |
Microsoft |
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам. |
Microsoft |
Разбивает текст на основе правил определенного языка. |
Microsoft |
Списки языки, поддерживаемые создателем маркеров языка Майкрософт. |
Microsoft |
Списки языки, поддерживаемые создателем маркеров языка Майкрософт. |
NGram |
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Path |
Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Pattern |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene. |
Pattern |
Использует регулярные выражения Java для выдачи нескольких маркеров — по одному для каждой группы отслеживания в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, с учетом входного текста "aa bb aa bb", шаблона "(aa)\s+(bb)" и замены "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Phonetic |
Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter. |
Phonetic |
Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Prioritized |
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. |
Regex |
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов. |
Scoring |
Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки. |
Scoring |
Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов. |
Scoring |
Определяет параметры для индекса поиска, влияющие на оценку в поисковых запросах. |
Search |
Описывает условие ошибки для API. |
Search |
Представляет поле в определении индекса, которое описывает имя, тип данных и поведение поиска поля. |
Search |
Определяет тип данных поля в индексе поиска. |
Search |
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса. |
Search |
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования и расшифровки неактивных данных в службе поиска, таких как индексы и сопоставления синонимов. |
Semantic |
Определяет определенную конфигурацию для использования в контексте семантических возможностей. |
Semantic |
Поле, используемое как часть семантической конфигурации. |
Semantic |
Определяет параметры для индекса поиска, которые влияют на семантические возможности. |
Shingle |
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Фильтр, который содержит слова с помощью сгенерированного Снежком парадигматического модуля. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Язык, используемый для фильтра токенов Snowball. |
Stemmer |
Предоставляет возможность переопределять другие фильтры с помощью настраиваемого заполнения на основе словаря. Любые термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться со стеммерами по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Язык, используемый для фильтра маркеров парадигматического модуля. |
Stop |
Делит текст на небуквенный; Применяет фильтры токена нижнего регистра и токена стоп-слова. Этот анализатор реализуется с помощью Apache Lucene. |
Stopwords |
Определяет предопределенный список стоп-слов для конкретного языка. |
Stopwords |
Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Suggester |
Определяет, как API suggest должен применяться к группе полей в индексе. |
Suggester |
Значение , указывающее возможности средства подбора. |
Synonym |
Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Tag |
Определяет функцию, которая увеличивает количество документов со строковыми значениями, соответствующими заданному списку тегов. |
Tag |
Предоставляет значения параметров для функции оценки тегов. |
Text |
Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повышать оценку в поисковых запросах. |
Token |
Представляет классы символов, с которыми может работать фильтр маркеров. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
Truncate |
Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Uax |
Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Unique |
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Vector |
Содержит параметры конфигурации, связанные с поиском векторов. |
Vector |
Алгоритм, используемый для индексирования и выполнения запросов. |
Vector |
Метрика сходства, используемая для векторного сравнения. |
Vector |
Определяет сочетание конфигураций, используемых при поиске векторов. |
Word |
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
AsciiFoldingTokenFilter
Преобразует буквенные, числовые и символьные символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
preserveOriginal |
boolean |
False |
Значение , указывающее, будет ли сохранен исходный токен. Значение по умолчанию — false. |
AzureActiveDirectoryApplicationCredentials
Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа к ключам шифрования, хранящимся в Azure Key Vault с проверкой подлинности.
Имя | Тип | Описание |
---|---|---|
applicationId |
string |
Идентификатор приложения AAD, которому предоставлены необходимые разрешения на доступ к Key Vault Azure, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD. |
applicationSecret |
string |
Ключ проверки подлинности указанного приложения AAD. |
BM25Similarity
Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщенность термина частоты (управляется параметром k1).
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализована по длине документа. |
k1 |
number |
Это свойство управляет функцией масштабирования между частотой каждого соответствующего термина и конечной оценкой релевантности пары "документ-запрос". По умолчанию используется значение 1,2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты терминов. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Формирует bigrams из терминов CJK, созданных из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreScripts |
Скрипты, которые следует игнорировать. |
||
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
outputUnigrams |
boolean |
False |
Значение, указывающее, следует ли выводить как юниграммы, так и биграмы (если true) или только биграмы (если false). Значение по умолчанию — false. |
CjkBigramTokenFilterScripts
Скрипты, которые могут игнорироваться CjkBigramTokenFilter.
Имя | Тип | Описание |
---|---|---|
han |
string |
Игнорируйте ханьский скрипт при формировании биграмов терминов CJK. |
hangul |
string |
Игнорируйте скрипт хангыль при формировании биграмов терминов CJK. |
hiragana |
string |
Игнорируйте скрипт хираганы при формировании биграмов терминов CJK. |
katakana |
string |
Игнорируйте скрипт Катакана при формировании биграмов терминов CJK. |
ClassicSimilarity
Устаревший алгоритм подобия, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF вводит нормализацию статической длины документа, а также координирующих факторов, которые наказывают документы, которые только частично соответствуют поисковым запросам.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
CommonGramTokenFilter
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
commonWords |
string[] |
Набор общих слов. |
|
ignoreCase |
boolean |
False |
Значение типа , указывающее, будет ли совпадение с общими словами не учитывать регистр. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
queryMode |
boolean |
False |
Значение типа , указывающее, находится ли фильтр маркеров в режиме запроса. В режиме запроса фильтр маркеров создает bigrams, а затем удаляет общие слова и отдельные термины, за которыми следует общее слово. Значение по умолчанию — false. |
CorsOptions
Определяет параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса.
Имя | Тип | Описание |
---|---|---|
allowedOrigins |
string[] |
Список источников, из которых коду JavaScript будет предоставлен доступ к индексу. Может содержать список узлов в формате {protocol}://{полное доменное имя}[:{port#}], или один |
maxAgeInSeconds |
integer |
Продолжительность, в течение которой браузеры должны кэшировать предварительные ответы CORS. Значение по умолчанию — 5 минут. |
CustomAnalyzer
Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, выдаваемых создателем маркеров.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
charFilters |
Список фильтров символов, используемых для подготовки входного текста перед его обработкой создателем маркеров. Например, фильтр может заменить определенные знаки или символы. Фильтры выполняются в том порядке, в котором они перечислены. |
|
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных создателем маркеров. Например, вы можете указать специальный фильтр, который преобразует все символы в нижний регистр. Фильтры выполняются в том порядке, в котором они перечислены. |
|
tokenizer |
Имя создателя маркеров, используемое для разделения непрерывного текста на последовательность маркеров, например разбиение предложения на слова. |
DictionaryDecompounderTokenFilter
Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxSubwordSize |
integer |
15 |
Максимальный размер подсловия. Выводится только подслови, короче, чем это. Значение по умолчанию — 15. Максимум — 300. |
minSubwordSize |
integer |
2 |
Минимальный размер подсловия. Выводятся только подсчитаны более длинные слова. По умолчанию используется значение 2. Максимум — 300. |
minWordSize |
integer |
5 |
Минимальный размер слова. Обрабатываются только слова дольше, чем это. Значение по умолчанию — 5. Максимум — 300. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
onlyLongestMatch |
boolean |
False |
Значение , указывающее, следует ли добавлять в выходные данные только самое длинное соответствующее подсловие. Значение по умолчанию — false. |
wordList |
string[] |
Список слов для сопоставления. |
DistanceScoringFunction
Определяет функцию, повышающую оценку на основе расстояния от географического расположения.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
distance |
Значения параметров для функции оценки расстояния. |
|
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
type |
string:
distance |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
DistanceScoringParameters
Предоставляет значения параметров для функции оценки расстояния.
Имя | Тип | Описание |
---|---|---|
boostingDistance |
number |
Расстояние в километрах от эталонного расположения, где заканчивается диапазон повышения. |
referencePointParameter |
string |
Имя параметра, передаваемого в поисковых запросах для указания расположения ссылки. |
EdgeNGramTokenFilter
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
side | front |
Указывает, с какой стороны входных данных должен быть создан n-грамм. Значение по умолчанию — front. |
EdgeNGramTokenFilterSide
Указывает, на какой стороне входных данных должна быть создана n-грамма.
Имя | Тип | Описание |
---|---|---|
back |
string |
Указывает, что n-грамм должен быть создан из задней части входных данных. |
front |
string |
Указывает, что n-грамма должна быть создана из передней части входных данных. |
EdgeNGramTokenFilterV2
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
side | front |
Указывает, с какой стороны входных данных должен быть создан n-грамм. Значение по умолчанию — front. |
EdgeNGramTokenizer
Маркеризует входные данные из ребра в n граммов заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
tokenChars |
Классы символов для сохранения в маркерах. |
ElisionTokenFilter
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразован в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
articles |
string[] |
Набор удаляемых статей. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
ExhaustiveKnnParameters
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.
Имя | Тип | Описание |
---|---|---|
metric |
Метрика сходства, используемая для векторного сравнения. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время запроса, который будет выполнять поиск методом подбора по всему индексу вектора.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnnParameters |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
|
kind |
string:
exhaustive |
Имя типа алгоритма, настраиваемого для использования с поиском векторов. |
name |
string |
Имя, сопоставленное с данной конкретной конфигурацией. |
FreshnessScoringFunction
Определяет функцию, повышающую оценку на основе значения поля даты и времени.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
freshness |
Значения параметров для функции оценки актуальности. |
|
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
type |
string:
freshness |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
FreshnessScoringParameters
Предоставляет значения параметров для функции оценки актуальности.
Имя | Тип | Описание |
---|---|---|
boostingDuration |
string |
Срок действия, по истечении которого повышение для определенного документа будет прекращено. |
HnswParameters
Содержит параметры, относящиеся к алгоритму HNSW.
Имя | Тип | Default value | Описание |
---|---|---|---|
efConstruction |
integer |
400 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время индекса. Увеличение этого параметра может повысить качество индекса за счет увеличения времени индексирования. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения. |
efSearch |
integer |
500 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения. |
m |
integer |
4 |
Количество двунаправленных ссылок, созданных для каждого нового элемента во время построения. Увеличение этого значения параметра может улучшить отзыв и сократить время извлечения для наборов данных с высокой встроенной размерностью за счет увеличения потребления памяти и увеличения времени индексирования. |
metric |
Метрика сходства, используемая для векторного сравнения. |
HnswVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, относящиеся к алгоритму приблизительных ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью поиска и точностью.
Имя | Тип | Описание |
---|---|---|
hnswParameters |
Содержит параметры, относящиеся к алгоритму HNSW. |
|
kind |
string:
hnsw |
Имя типа алгоритма, настраиваемого для использования с поиском векторов. |
name |
string |
Имя, сопоставленное с данной конкретной конфигурацией. |
KeepTokenFilter
Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
keepWords |
string[] |
Список слов, которые нужно сохранить. |
|
keepWordsCase |
boolean |
False |
Значение , указывающее, следует ли сначала использовать все слова в нижнем регистре. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordMarkerTokenFilter
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение типа , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false. |
keywords |
string[] |
Список слов, которые нужно пометить как ключевые слова. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordTokenizer
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
bufferSize |
integer |
256 |
Размер буфера чтения в байтах. Значение по умолчанию — 256. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordTokenizerV2
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
256 |
Максимальная длина маркера. Значение по умолчанию — 256. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LengthTokenFilter
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
max |
integer |
300 |
Максимальная длина в символах. Значение по умолчанию и максимальное значение — 300. |
min |
integer |
0 |
Минимальная длина в символах. Значение по умолчанию — 0. Максимум — 300. Значение должно быть меньше значения max. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LexicalAnalyzerName
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для болгарского. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонского. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонского. |
cs.lucene |
string |
Анализатор Lucene для чешского языка. |
cs.microsoft |
string |
Анализатор Майкрософт для чешского языка. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для эстонии. |
eu.lucene |
string |
Анализатор Lucene для Баскского. |
fa.lucene |
string |
Анализатор Lucene для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финского языка. |
fi.microsoft |
string |
Анализатор Майкрософт для финского языка. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландского языка. |
gl.lucene |
string |
Анализатор Lucene для Галисии. |
gu.microsoft |
string |
Анализатор Майкрософт для Гуджарати. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армянского. |
id.lucene |
string |
Анализатор Lucene для индонезийского языка. |
id.microsoft |
string |
Анализатор Майкрософт для индонезийского языка (Бахаса). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Каннада. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для литвы. |
lv.lucene |
string |
Анализатор Lucene для латышского языка. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Майкрософт для Малаялама. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для малайского языка (латиница). |
nb.microsoft |
string |
Анализатор Майкрософт для норвежского языка (букмол). |
nl.lucene |
string |
Анализатор Lucene для голландского языка. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Punjabi. |
pattern |
string |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского языка (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского языка (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румынского языка. |
ro.microsoft |
string |
Анализатор Майкрософт для румынского языка. |
ru.lucene |
string |
Анализатор Lucene для русского языка. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацкого языка. |
sl.microsoft |
string |
Анализатор Майкрософт для словенского языка. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербского языка (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербского языка (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор AsCII Folding Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры токена нижнего регистра и токена стоп-слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для тамилов. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украинского языка. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамского. |
whitespace |
string |
Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского языка (упрощенное письмо). |
zh-Hans.microsoft |
string |
Анализатор Майкрософт для китайского языка (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского языка (традиционное письмо). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского языка (традиционное письмо). |
LexicalTokenizerName
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризует входные данные из края в n-граммы заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам. |
microsoft_language_tokenizer |
string |
Разбивает текст на основе правил определенного языка. |
nGram |
string |
Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
consumeAllTokens |
boolean |
False |
Значение, указывающее, должны ли использоваться все маркеры из входных данных, даже если достигнут параметр maxTokenCount. Значение по умолчанию — false. |
maxTokenCount |
integer |
1 |
Максимальное количество маркеров для создания. Значение по умолчанию: 1. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LuceneStandardAnalyzer
Стандартный анализатор Apache Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
stopwords |
string[] |
Список стоп-слов. |
LuceneStandardTokenizer
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LuceneStandardTokenizerV2
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MagnitudeScoringFunction
Определяет функцию, повышающую оценки на основе величины числового поля.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
magnitude |
Значения параметров для функции оценки величины. |
|
type |
string:
magnitude |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
MagnitudeScoringParameters
Предоставляет значения параметров для функции оценки величины.
Имя | Тип | Описание |
---|---|---|
boostingRangeEnd |
number |
Значение поля, на котором заканчивается повышение. |
boostingRangeStart |
number |
Значение поля, с которого начинается повышение. |
constantBoostBeyondRange |
boolean |
Значение, указывающее, следует ли применять постоянное увеличение значений полей, выходящих за пределы конечного значения диапазона; значение по умолчанию — false. |
MappingCharFilter
Символьный фильтр, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра символов. |
mappings |
string[] |
Список сопоставлений в следующем формате: "a=>b" (все вхождения символа "a" будут заменены символом "b"). |
name |
string |
Имя фильтра символов. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftLanguageStemmingTokenizer
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
isSearchTokenizer |
boolean |
False |
Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. Значение по умолчанию — английский. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается на основе набора максимальной длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftLanguageTokenizer
Разбивает текст на основе правил определенного языка.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
isSearchTokenizer |
boolean |
False |
Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. Значение по умолчанию — английский. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается на основе набора максимальной длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftStemmingTokenizerLanguage
Списки языки, поддерживаемые создателем маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает microsoft stemming tokenizer для арабского языка. |
bangla |
string |
Выбирает microsoft stemming tokenizer для Bangla. |
bulgarian |
string |
Выбирает microsoft stemming tokenizer для болгарского. |
catalan |
string |
Выбирает microsoft stemming tokenizer для каталонского. |
croatian |
string |
Выбирает microsoft stemming tokenizer для хорватского языка. |
czech |
string |
Выбирает microsoft stemming tokenizer для чешского языка. |
danish |
string |
Выбирает microsoft stemming tokenizer для датского языка. |
dutch |
string |
Выбирает microsoft stemming tokenizer для голландского языка. |
english |
string |
Выбирает microsoft stemming tokenizer для английского языка. |
estonian |
string |
Выбирает microsoft stemming tokenizer для эстонии. |
finnish |
string |
Выбирает microsoft stemming tokenizer для финского языка. |
french |
string |
Выбирает microsoft stemming tokenizer для французского языка. |
german |
string |
Выбирает microsoft stemming tokenizer для немецкого языка. |
greek |
string |
Выбирает microsoft stemming tokenizer для греческого языка. |
gujarati |
string |
Выбирает microsoft stemming tokenizer для Gujarati. |
hebrew |
string |
Выбирает microsoft stemming tokenizer для иврита. |
hindi |
string |
Выбирает microsoft stemming tokenizer для хинди. |
hungarian |
string |
Выбирает microsoft stemming tokenizer для венгерского. |
icelandic |
string |
Выбирает microsoft stemming tokenizer для исландийского. |
indonesian |
string |
Выбирает microsoft stemming tokenizer для индонезийского языка. |
italian |
string |
Выбирает microsoft stemming tokenizer для итальянского языка. |
kannada |
string |
Выбирает microsoft stemming tokenizer для Kannada. |
latvian |
string |
Выбирает microsoft stemming tokenizer для латышского языка. |
lithuanian |
string |
Выбирает microsoft stemming tokenizer для литвы. |
malay |
string |
Выбирает microsoft stemming tokenizer для малайского. |
malayalam |
string |
Выбирает microsoft stemming tokenizer for Malayalam. |
marathi |
string |
Выбирает microsoft stemming tokenizer для Marathi. |
norwegianBokmaal |
string |
Выбирает microsoft stemming tokenizer для норвежского языка (букмол). |
polish |
string |
Выбирает microsoft stemming tokenizer для польского. |
portuguese |
string |
Выбирает microsoft stemming tokenizer для португальского языка. |
portugueseBrazilian |
string |
Выбирает microsoft stemming tokenizer для португальского языка (Бразилия). |
punjabi |
string |
Выбирает microsoft stemming tokenizer for Punjabi. |
romanian |
string |
Выбирает microsoft stemming tokenizer для румынского языка. |
russian |
string |
Выбирает microsoft stemming tokenizer для русского языка. |
serbianCyrillic |
string |
Выбирает microsoft stemming tokenizer для сербского языка (кириллица). |
serbianLatin |
string |
Выбирает microsoft stemming tokenizer для сербского языка (латиница). |
slovak |
string |
Выбирает microsoft stemming tokenizer для словацкого языка. |
slovenian |
string |
Выбирает microsoft stemming tokenizer для словенского языка. |
spanish |
string |
Выбирает microsoft stemming tokenizer для испанского языка. |
swedish |
string |
Выбирает microsoft stemming tokenizer для шведского языка. |
tamil |
string |
Выбирает microsoft stemming tokenizer для тамильского. |
telugu |
string |
Выбирает microsoft stemming tokenizer для Telugu. |
turkish |
string |
Выбирает microsoft stemming tokenizer для турецкого языка. |
ukrainian |
string |
Выбирает microsoft stemming tokenizer для украинского языка. |
urdu |
string |
Выбирает microsoft stemming tokenizer для Urdu. |
MicrosoftTokenizerLanguage
Списки языки, поддерживаемые создателем маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
bangla |
string |
Выбирает создатель токенов Майкрософт для Bangla. |
bulgarian |
string |
Выбирает создатель маркеров Майкрософт для болгарского. |
catalan |
string |
Выбирает создатель токенов Майкрософт для каталонского. |
chineseSimplified |
string |
Выбирает создатель токенов Майкрософт для китайского языка (упрощенное письмо). |
chineseTraditional |
string |
Выбирает создатель токенов Майкрософт для китайского языка (традиционное письмо). |
croatian |
string |
Выбирает создатель токенов Майкрософт для хорватского языка. |
czech |
string |
Выбирает создатель токенов Майкрософт для чешского языка. |
danish |
string |
Выбирает создатель токенов Майкрософт для датского языка. |
dutch |
string |
Выбирает создатель токенов Майкрософт для голландского языка. |
english |
string |
Выбирает создатель маркеров Майкрософт для английского языка. |
french |
string |
Выбирает создатель маркеров Майкрософт для французского языка. |
german |
string |
Выбирает создатель токенов Майкрософт для немецкого языка. |
greek |
string |
Выбирает создатель токенов Майкрософт для греческого языка. |
gujarati |
string |
Выбирает создатель токенов Майкрософт для Гуджарати. |
hindi |
string |
Выбирает создатель токенов Майкрософт для хинди. |
icelandic |
string |
Выбирает создатель токенов Майкрософт для исландийского. |
indonesian |
string |
Выбирает создатель токенов Майкрософт для индонезийского языка. |
italian |
string |
Выбирает создатель токенов Майкрософт для итальянского языка. |
japanese |
string |
Выбирает создатель токенов Майкрософт для японского языка. |
kannada |
string |
Выбирает создатель токенов Майкрософт для Kannada. |
korean |
string |
Выбирает создатель токенов Майкрософт для корейского языка. |
malay |
string |
Выбирает создатель токенов Майкрософт для малайского. |
malayalam |
string |
Выбирает создатель токенов Майкрософт для Малаялама. |
marathi |
string |
Выбирает создатель маркеров Майкрософт для Маратхи. |
norwegianBokmaal |
string |
Выбирает microsoft tokenizer для норвежского языка (букмол). |
polish |
string |
Выбирает создатель токенов Майкрософт для польского. |
portuguese |
string |
Выбирает создатель токенов Майкрософт для португальского языка. |
portugueseBrazilian |
string |
Выбирает создатель токенов Майкрософт для португальского языка (Бразилия). |
punjabi |
string |
Выбирает создатель токенов Майкрософт для Punjabi. |
romanian |
string |
Выбирает создатель токенов Майкрософт для румынского языка. |
russian |
string |
Выбирает создатель токенов Майкрософт для русского языка. |
serbianCyrillic |
string |
Выбирает microsoft tokenizer для сербского языка (кириллица). |
serbianLatin |
string |
Выбирает создатель маркеров Майкрософт для сербского языка (латиница). |
slovenian |
string |
Выбирает создатель токенов Майкрософт для словенского языка. |
spanish |
string |
Выбирает создатель токенов Майкрософт для испанского языка. |
swedish |
string |
Выбирает создатель токенов Майкрософт для шведского языка. |
tamil |
string |
Выбирает создатель токенов Майкрософт для тамильского. |
telugu |
string |
Выбирает создатель токенов Майкрософт для Telugu. |
thai |
string |
Выбирает создатель токенов Майкрософт для тайского языка. |
ukrainian |
string |
Выбирает создатель токенов Майкрософт для украинского языка. |
urdu |
string |
Выбирает создатель токенов Майкрософт для Urdu. |
vietnamese |
string |
Выбирает создатель маркеров Майкрософт для вьетнамского. |
NGramTokenFilter
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. По умолчанию используется значение 2. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Значение должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
NGramTokenFilterV2
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Значение должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
NGramTokenizer
Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
tokenChars |
Классы символов для сохранения в маркерах. |
PathHierarchyTokenizerV2
Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
delimiter |
string |
/ |
Используемый символ разделителя. Значение по умолчанию — "/". |
maxTokenLength |
integer |
300 |
Максимальная длина маркера. По умолчанию и максимум — 300. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
replacement |
string |
/ |
Значение , которое, если задано, заменяет символ разделителя. Значение по умолчанию — "/". |
reverse |
boolean |
False |
Значение, указывающее, следует ли создавать маркеры в обратном порядке. Значение по умолчанию — false. |
skip |
integer |
0 |
Количество пропускаемых начальных маркеров. Значение по умолчанию — 0. |
PatternAnalyzer
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
flags |
Флаги регулярных выражений. |
||
lowercase |
boolean |
True |
Значение типа , указывающее, следует ли указывать термины в нижнем регистре. Значение по умолчанию — true. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию — это выражение, которое соответствует одному или нескольким символам, не используемым в словах. |
stopwords |
string[] |
Список стоп-слов. |
PatternCaptureTokenFilter
Использует регулярные выражения Java для выдачи нескольких маркеров — по одному для каждой группы отслеживания в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
patterns |
string[] |
Список шаблонов для сопоставления с каждым токеном. |
|
preserveOriginal |
boolean |
True |
Значение , указывающее, следует ли возвращать исходный маркер, даже если один из шаблонов совпадает. Значение по умолчанию — true. |
PatternReplaceCharFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра символов. |
name |
string |
Имя фильтра символов. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Текст замены. |
PatternReplaceTokenFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, с учетом входного текста "aa bb aa bb", шаблона "(aa)\s+(bb)" и замены "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Текст замены. |
PatternTokenizer
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
flags |
Флаги регулярных выражений. |
||
group |
integer |
-1 |
Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в маркеры. Используйте значение -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от соответствующих групп. Значение по умолчанию — -1. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию является выражением, которое соответствует одному или нескольким символам, не являющихся словами. |
PhoneticEncoder
Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter.
Имя | Тип | Описание |
---|---|---|
beiderMorse |
string |
Кодирует маркер в Beider-Morse значение. |
caverphone1 |
string |
Кодирует токен в значение Caverphone 1.0. |
caverphone2 |
string |
Кодирует токен в значение Caverphone 2.0. |
cologne |
string |
Кодирует токен в фонетическое значение Кельна. |
doubleMetaphone |
string |
Кодирует токен в значение двойного метафона. |
haasePhonetik |
string |
Кодирует маркер с помощью уточнения Haase алгоритма Kölner Phonetik. |
koelnerPhonetik |
string |
Кодирует маркер с помощью алгоритма Kölner Phonetik. |
metaphone |
string |
Кодирует токен в значение Метафона. |
nysiis |
string |
Кодирует токен в значение NYSIIS. |
refinedSoundex |
string |
Кодирует токен в уточненное значение Soundex. |
soundex |
string |
Кодирует токен в значение Soundex. |
PhoneticTokenFilter
Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
encoder | metaphone |
Используемый фонетический кодировщик. Значение по умолчанию — metaphone. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
replace |
boolean |
True |
Значение, указывающее, должны ли закодированные маркеры заменять исходные маркеры. Если задано значение false, закодированные маркеры добавляются в качестве синонимов. Значение по умолчанию — true. |
PrioritizedFields
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов.
Имя | Тип | Описание |
---|---|---|
prioritizedContentFields |
Определяет поля содержимого, используемые для семантического ранжирования, субтитров, выделений и ответов. Для наилучшего результата выбранные поля должны содержать текст в форме естественного языка. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
prioritizedKeywordsFields |
Определяет поля ключевое слово, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Для достижения наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
titleField |
Определяет поле заголовка, используемое для семантического ранжирования, субтитров, выделений и ответов. Если в индексе нет поля заголовка, оставьте это поле пустым. |
RegexFlags
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов.
Имя | Тип | Описание |
---|---|---|
CANON_EQ |
string |
Включает каноническую эквивалентность. |
CASE_INSENSITIVE |
string |
Включает сопоставление без учета регистра. |
COMMENTS |
string |
Разрешает пробелы и комментарии в шаблоне. |
DOTALL |
string |
Включает режим dotall. |
LITERAL |
string |
Включает литеральный анализ шаблона. |
MULTILINE |
string |
Включает многостроковый режим. |
UNICODE_CASE |
string |
Включает свертывание регистра с поддержкой Юникода. |
UNIX_LINES |
string |
Включает режим линий Unix. |
ScoringFunctionAggregation
Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки.
Имя | Тип | Описание |
---|---|---|
average |
string |
Повышение оценок на среднее значение для всех результатов функции оценки. |
firstMatching |
string |
Повышение оценок с помощью первой применимой функции оценки в профиле оценки. |
maximum |
string |
Повышение оценок на максимальное количество всех результатов функции оценки. |
minimum |
string |
Повышение оценок на минимум всех результатов функции оценки. |
sum |
string |
Повышение оценок на сумму всех результатов функции оценки. |
ScoringFunctionInterpolation
Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов.
Имя | Тип | Описание |
---|---|---|
constant |
string |
Повышает баллы на постоянный коэффициент. |
linear |
string |
Повышает оценку на линейно убывающую величину. Это интерполяция по умолчанию для функций оценки. |
logarithmic |
string |
Увеличивает оценки на величину, которая логарифмически уменьшается. Повышение быстро уменьшается для более высоких оценок и медленнее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag. |
quadratic |
string |
Увеличивает оценки на величину, которая уменьшается в четыре раза. Повышение медленно уменьшается для более высоких оценок и быстрее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag. |
ScoringProfile
Определяет параметры для индекса поиска, влияющие на оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
functionAggregation |
Значение типа , указывающее, как следует объединять результаты отдельных функций оценки. По умолчанию — "Sum". Игнорируется, если отсутствуют функции оценки. |
|
functions | ScoringFunction[]: |
Коллекция функций, влияющих на оценку документов. |
name |
string |
Имя профиля оценки. |
text |
Параметры, повышающие оценку на основе текстовых совпадений в определенных полях индекса. |
SearchError
Описывает условие ошибки для API.
Имя | Тип | Описание |
---|---|---|
code |
string |
Один из определяемого сервером набора кодов ошибок. |
details |
Массив сведений о конкретных ошибках, которые привели к этой сообщаемой ошибке. |
|
message |
string |
Удобочитаемое представление ошибки. |
SearchField
Представляет поле в определении индекса, которое описывает имя, тип данных и поведение поиска поля.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для поля. Этот параметр можно использовать только с полями, поддерживающими поиск. Параметр не совместим с элементами searchAnalyzer и indexAnalyzer. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL. |
|
dimensions |
integer |
Размерность поля вектора. |
facetable |
boolean |
Значение типа , указывающее, следует ли включать ссылки на поле в фасетных запросах. Обычно используется в представлении результатов поиска, включая количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по брендам, мегапикселям, по цене и т. д.). Для сложных полей это свойство должно иметь значение NULL. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть фасетными. Значение по умолчанию — true для всех остальных простых полей. |
fields |
Список вложенных полей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Для простых полей должен быть пустым или пустым. |
|
filterable |
boolean |
Значение типа , указывающее, следует ли включать ссылки на поле в $filter запросах. Фильтруемый отличается от доступных для поиска способом обработки строк. Поля типа Edm.String или Collection(Edm.String), которые являются фильтруемыми, не подвергаются разбиениям по словам, поэтому сравнения предназначены только для точных совпадений. Например, если задать для такого поля f значение "солнечный день", $filter=f eq "sunny" не найдет совпадений, но $filter=f eq "солнечный день". Для сложных полей это свойство должно иметь значение NULL. Значение по умолчанию равно true для простых полей и null для сложных полей. |
indexAnalyzer |
Имя анализатора, используемого во время индексирования поля. Этот параметр можно использовать только с полями с возможностью поиска. Она должна быть задана вместе с searchAnalyzer и не может быть задана вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте вместо него свойство анализатора, если вам нужен анализатор языка. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL. |
|
key |
boolean |
Значение типа , указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля должно быть выбрано ровно одно поле верхнего уровня в каждом индексе, и оно должно иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую, а также для обновления или удаления определенных документов. Значение по умолчанию — false для простых полей и null для сложных полей. |
name |
string |
Имя поля, которое должно быть уникальным в пределах коллекции полей индекса или родительского поля. |
retrievable |
boolean |
Значение , указывающее, может ли поле быть возвращено в результатах поиска. Этот параметр можно отключить, если вы хотите использовать поле (например, поле) в качестве механизма фильтрации, сортировки или оценки, но не хотите, чтобы поле было видимым для конечного пользователя. Это свойство должно иметь значение true для ключевых полей, а для сложных полей оно должно иметь значение NULL. Это свойство можно изменить в существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. Значение по умолчанию равно true для простых полей и null для сложных полей. |
searchAnalyzer |
Имя анализатора, используемого во время поиска поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с indexAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте вместо него свойство анализатора, если вам нужен анализатор языка. Этот анализатор можно обновить на существующее поле. Для сложных полей должен иметь значение NULL. |
|
searchable |
boolean |
Значение типа , указывающее, доступно ли поле для полнотекстового поиска. Это означает, что во время индексирования оно будет включено в анализ (в частности, для разбиения на слова). Если, например, задать для поля, поддерживающего поиск, значение sunny day (солнечный день), оно будет разделено на элементы sunny и day. В результате эти слова смогут участвовать в полнотекстовом поиске. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно иметь значение false для простых полей других нестроковых типов данных, а для сложных полей оно должно иметь значение NULL. Примечание. Поля, доступные для поиска, занимают дополнительное место в индексе для размещения дополнительных версий значения поля с маркерами для полнотекстового поиска. Если вы хотите сэкономить место в индексе и не нужно включать поле в поисковые запросы, задайте для параметра Searchable значение false. |
sortable |
boolean |
Значение , указывающее, следует ли включать ссылки на поле в $orderby выражениях. По умолчанию поисковая система сортирует результаты по оценке, но во многих интерфейсах пользователи хотят сортировать по полям в документах. Простое поле можно сортировать только в том случае, если оно имеет одно значение (оно имеет одно значение в область родительского документа). Простые поля коллекции нельзя сортировать, так как они имеют многозначные значения. Простые вложенные поля сложных коллекций также имеют многозначные значения и, следовательно, не могут быть сортируемыми. Это верно независимо от того, является ли это непосредственно родительским полем или полем-предком, то есть сложной коллекцией. Сложные поля не могут быть сортируемыми, и для таких полей свойство должно иметь значение NULL. Значение по умолчанию для сортируемых полей равно true для простых полей с одним значением, false для многозначных простых полей и null для сложных полей. |
synonymMaps |
string[] |
Список имен сопоставлений синонимов, которые необходимо связать с этим полем. Этот параметр можно использовать только с полями с возможностью поиска. В настоящее время поддерживается только одно сопоставление синонимов для каждого поля. Назначение сопоставления синонимов полю гарантирует, что термины запроса, предназначенные для этого поля, будут развернуты во время запроса с помощью правил в сопоставлении синонимов. Этот атрибут можно изменить в существующих полях. Для сложных полей должен иметь значение NULL или пустую коллекцию. |
type |
Тип данных поля. |
|
vectorSearchProfile |
string |
Имя профиля поиска вектора, указывающего алгоритм, используемый при поиске в поле вектора. |
SearchFieldDataType
Определяет тип данных поля в индексе поиска.
Имя | Тип | Описание |
---|---|---|
Edm.Boolean |
string |
Указывает, что поле содержит логическое значение (true или false). |
Edm.ComplexType |
string |
Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, содержат вложенные поля других типов. |
Edm.DateTimeOffset |
string |
Указывает, что поле содержит значение даты и времени, включая сведения о часовом поясе. |
Edm.Double |
string |
Указывает, что поле содержит число с плавающей запятой двойной точности IEEE. |
Edm.GeographyPoint |
string |
Указывает, что поле содержит географическое расположение с точки зрения долготы и широты. |
Edm.Int32 |
string |
Указывает, что поле содержит 32-разрядное целое число со знаком. |
Edm.Int64 |
string |
Указывает, что поле содержит 64-разрядное целое число со знаком. |
Edm.Single |
string |
Указывает, что поле содержит число с плавающей запятой одной точности. Это допустимо только при использовании с Collection(Edm.Single). |
Edm.String |
string |
Указывает, что поле содержит строку. |
SearchIndex
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.
Имя | Тип | Описание |
---|---|---|
@odata.etag |
string |
ETag индекса. |
analyzers | LexicalAnalyzer[]: |
Анализаторы для индекса. |
charFilters | CharFilter[]: |
Символьные фильтры для индекса. |
corsOptions |
Параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
|
defaultScoringProfile |
string |
Имя профиля оценки, используемого, если в запросе не указан ни один из них. Если это свойство не задано и в запросе не указан профиль оценки, будет использоваться оценка по умолчанию (tf-idf). |
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать ваши данные. После шифрования данные всегда остаются зашифрованными. Служба поиска игнорирует попытки присвоить этому свойству значение NULL. Это свойство можно изменить при необходимости, если вы хотите сменить ключ шифрования. Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 года или позже. |
|
fields |
Поля индекса. |
|
name |
string |
Имя индекса. |
scoringProfiles |
Профили оценки для индекса. |
|
semantic |
Определяет параметры для индекса поиска, которые влияют на семантические возможности. |
|
similarity | Similarity: |
Тип алгоритма сходства, используемого при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия можно определить только во время создания индекса и не может быть изменен в существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity. |
suggesters |
Средства подбора для индекса. |
|
tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
tokenizers | LexicalTokenizer[]: |
Создатели маркеров для индекса. |
vectorSearch |
Содержит параметры конфигурации, связанные с поиском векторов. |
SearchResourceEncryptionKey
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования и расшифровки неактивных данных в службе поиска, таких как индексы и сопоставления синонимов.
Имя | Тип | Описание |
---|---|---|
accessCredentials |
Необязательные учетные данные Azure Active Directory, используемые для доступа к Key Vault Azure. Не требуется, если вместо этого используется управляемое удостоверение. |
|
keyVaultKeyName |
string |
Имя ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных. |
keyVaultKeyVersion |
string |
Версия ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных. |
keyVaultUri |
string |
URI Key Vault Azure, также называемого DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI: |
SemanticConfiguration
Определяет определенную конфигурацию для использования в контексте семантических возможностей.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя семантической конфигурации. |
prioritizedFields |
Описывает заголовок, содержимое и поля ключевое слово, используемые для семантического ранжирования, субтитров, выделений и ответов. Необходимо задать по крайней мере одно из трех вложенных свойств (titleField, prioritizedKeywordsFields и prioritizedContentFields). |
SemanticField
Поле, используемое как часть семантической конфигурации.
Имя | Тип | Описание |
---|---|---|
fieldName |
string |
SemanticSettings
Определяет параметры для индекса поиска, которые влияют на семантические возможности.
Имя | Тип | Описание |
---|---|---|
configurations |
Семантические конфигурации для индекса. |
|
defaultConfiguration |
string |
Позволяет задать имя семантической конфигурации по умолчанию в индексе, делая необязательным передавать его в качестве параметра запроса каждый раз. |
ShingleTokenFilter
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
filterToken |
string |
_ |
Строка для вставки для каждой позиции, в которой нет маркера. По умолчанию используется символ подчеркивания ("_"). |
maxShingleSize |
integer |
2 |
Максимальный размер гальки. По умолчанию и минимальное значение — 2. |
minShingleSize |
integer |
2 |
Минимальный размер гальки. По умолчанию и минимальное значение — 2. Значение должно быть меньше значения maxShingleSize. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
outputUnigrams |
boolean |
True |
Значение, указывающее, будет ли выходной поток содержать входные маркеры (юниграммы), а также черепицы. Значение по умолчанию — true. |
outputUnigramsIfNoShingles |
boolean |
False |
Значение, указывающее, следует ли выводить юниграммы для тех случаев, когда черепица недоступна. Это свойство имеет приоритет, если outputUnigrams имеет значение false. Значение по умолчанию — false. |
tokenSeparator |
string |
Строка, используемая при соединении смежных маркеров для формирования голени. По умолчанию используется один пробел (" "). |
SnowballTokenFilter
Фильтр, который содержит слова с помощью сгенерированного Снежком парадигматического модуля. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
SnowballTokenFilterLanguage
Язык, используемый для фильтра токенов Snowball.
Имя | Тип | Описание |
---|---|---|
armenian |
string |
Выбирает токенизатора люсене Снежного кома для армянского. |
basque |
string |
Выбирает создатель маркеров метрик Lucene Snowball для баскского. |
catalan |
string |
Выбирает создатель маркеров стеблей Lucene Snowball для каталонского. |
danish |
string |
Выбирает создатель маркеров для языка Lucene Snowball для датского языка. |
dutch |
string |
Выбирает создатель маркеров для языка Lucene Snowball для голландского языка. |
english |
string |
Выбирает создатель маркеров языка Lucene Snowball для английского языка. |
finnish |
string |
Выбирает создатель маркеров для меток Lucene Snowball для финского языка. |
french |
string |
Выбирает создатель маркеров для языка Lucene Snowball для французского языка. |
german |
string |
Выбирает создатель маркеров меток Lucene Snowball для немецкого языка. |
german2 |
string |
Выбирает создатель маркеров для определения меток Lucene Snowball, использующий немецкий алгоритм вариантов. |
hungarian |
string |
Выбирает создатель маркеров для меток Lucene Snowball для венгерского. |
italian |
string |
Выбирает lucene Snowball stemming tokenizer для итальянского языка. |
kp |
string |
Выбирает создатель маркеров для определения меток Lucene Snowball для голландского языка, который использует алгоритм Kraaij-Pohlmann. |
lovins |
string |
Выбирает создатель маркеров stemming Lucene Snowball для английского языка, который использует алгоритм определения Lovins. |
norwegian |
string |
Выбирает создатель маркеров для языка Lucene Snowball для норвежского языка. |
porter |
string |
Выбирает создатель маркеров кода Lucene Snowball для английского языка, который использует алгоритм определения портеров. |
portuguese |
string |
Выбирает создатель маркеров для языка Lucene Snowball для португальского языка. |
romanian |
string |
Выбирает создатель маркеров для языка Lucene Snowball для румынского языка. |
russian |
string |
Выбирает создатель маркеров для языка Lucene Snowball для русского языка. |
spanish |
string |
Выбирает создатель маркеров для языка Lucene Snowball для испанского языка. |
swedish |
string |
Выбирает создатель маркеров для меток Lucene Snowball для шведского языка. |
turkish |
string |
Выбирает создатель маркеров для языка Lucene Snowball для турецкого языка. |
StemmerOverrideTokenFilter
Предоставляет возможность переопределять другие фильтры с помощью настраиваемого заполнения на основе словаря. Любые термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться со стеммерами по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
rules |
string[] |
Список правил stemming в следующем формате: "word => stem", например: "run => run". |
StemmerTokenFilter
Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
StemmerTokenFilterLanguage
Язык, используемый для фильтра маркеров парадигматического модуля.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает создатель маркеров для языка Lucene для арабского языка. |
armenian |
string |
Выбирает создатель маркеров для армянского слова Lucene. |
basque |
string |
Выбирает создатель маркеров для кода lucene для баскского. |
brazilian |
string |
Выбирает создатель маркеров для языка Lucene stemming для португальского языка (Бразилия). |
bulgarian |
string |
Выбирает создатель маркеров для определения основы Lucene для болгарского. |
catalan |
string |
Выбирает создатель маркеров для каталонского языкового кода Lucene. |
czech |
string |
Выбирает создатель маркеров для языка Lucene stemming для чешского языка. |
danish |
string |
Выбирает создатель маркеров для языка Lucene для датского языка. |
dutch |
string |
Выбирает создатель маркеров для языка Lucene для голландского языка. |
dutchKp |
string |
Выбирает создатель маркеров для языка Lucene stemming для голландского языка, который использует алгоритм Kraaij-Pohlmann. |
english |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка. |
finnish |
string |
Выбирает создатель маркеров для языка Lucene для финского языка. |
french |
string |
Выбирает создатель маркеров для языка Lucene stemming для французского языка. |
galician |
string |
Выбирает создатель маркеров для галисианской разметки Lucene. |
german |
string |
Выбирает создатель маркеров для языка Lucene stemming для немецкого языка. |
german2 |
string |
Выбирает создатель маркеров для определения стволов Lucene, использующий немецкий алгоритм вариантов. |
greek |
string |
Выбирает создатель маркеров для языка Lucene stemming для греческого языка. |
hindi |
string |
Выбирает создатель маркеров для хинди lucene stemming. |
hungarian |
string |
Выбирает создатель маркеров lucene stemming для венгерского. |
indonesian |
string |
Выбирает создатель маркеров для языка Lucene для индонезийского языка. |
irish |
string |
Выбирает создатель маркеров для выделения маркеров lucene для ирландского. |
italian |
string |
Выбирает создатель маркеров для языка Lucene для итальянского языка. |
latvian |
string |
Выбирает создатель маркеров для языка Lucene для латышского языка. |
lightEnglish |
string |
Выбирает создатель маркеров lucene stemming для английского языка, который выполняет светлую фильтрацию. |
lightFinnish |
string |
Выбирает создатель маркеров для языка Lucene stemming для финского языка, который выполняет светлую фильтрацию. |
lightFrench |
string |
Выбирает создатель маркеров для языка Lucene stemming для французского языка, который выполняет легкую фильтрацию. |
lightGerman |
string |
Выбирает создатель маркеров lucene stemming для немецкого языка, который выполняет легкую фильтрацию. |
lightHungarian |
string |
Выбирает создатель токенизатора выделения лексемы Lucene для венгерского, который выполняет легкую стеблицию. |
lightItalian |
string |
Выбирает создатель маркеров для языка Lucene stemming для итальянского языка, который выполняет легкую стеблицию. |
lightNorwegian |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (букмол), который выполняет световую фильтрацию. |
lightNynorsk |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (Nynorsk), который выполняет светлую фильтрацию. |
lightPortuguese |
string |
Выбирает создатель маркеров для языка Lucene stemming для португальского языка, который выполняет легкую фильтрацию. |
lightRussian |
string |
Выбирает создатель маркеров lucene stemming для русского языка, который выполняет светлую стеблицию. |
lightSpanish |
string |
Выбирает создатель маркеров lucene stemming для испанского языка, который выполняет светлую фильтрацию. |
lightSwedish |
string |
Выбирает создатель маркеров lucene stemming для шведского языка, который выполняет легкую фильтрацию. |
lovins |
string |
Выбирает создатель маркеров для языка Lucene для английского языка, который использует алгоритм определения Lovins. |
minimalEnglish |
string |
Выбирает создатель маркеров lucene stemming для английского языка, который выполняет минимальное выделение. |
minimalFrench |
string |
Выбирает создатель маркеров для языка Lucene stemming для французского языка, который выполняет минимальное выделение. |
minimalGalician |
string |
Выбирает создатель маркеров для галисианской разметки Lucene, который выполняет минимальное выделение. |
minimalGerman |
string |
Выбирает создатель маркеров для языка Lucene stemming для немецкого языка, который выполняет минимальное выделение. |
minimalNorwegian |
string |
Выбирает создатель маркеров lucene stemming для норвежского языка (букмол), который выполняет минимальное выделение. |
minimalNynorsk |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (Nynorsk), который выполняет минимальное выделение. |
minimalPortuguese |
string |
Выбирает создатель маркеров для языка Lucene для португальского языка, который выполняет минимальное выделение. |
norwegian |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (букмол). |
porter2 |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, использующего алгоритм определения кода Porter2. |
portuguese |
string |
Выбирает создатель маркеров для языка Lucene stemming для португальского языка. |
portugueseRslp |
string |
Выбирает создатель маркеров для языка Lucene для португальского языка, использующего алгоритм определения РСОП. |
possessiveEnglish |
string |
Выбирает создатель маркеров для языка Lucene для английского языка, который удаляет конечные притяжательности из слов. |
romanian |
string |
Выбирает создатель маркеров для языка Lucene stemming для румынского языка. |
russian |
string |
Выбирает создатель маркеров для языка Lucene для русского языка. |
sorani |
string |
Выбирает создатель маркеров lucene stemming для Sorani. |
spanish |
string |
Выбирает создатель маркеров для языка Lucene stemming для испанского языка. |
swedish |
string |
Выбирает создатель маркеров для языка Lucene stemming для шведского языка. |
turkish |
string |
Выбирает создатель маркеров для языка Lucene stemming для турецкого языка. |
StopAnalyzer
Делит текст на небуквенный; Применяет фильтры токена нижнего регистра и токена стоп-слова. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
stopwords |
string[] |
Список стоп-слов. |
StopwordsList
Определяет предопределенный список стоп-слов для конкретного языка.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает список стоп-слов для арабского языка. |
armenian |
string |
Выбирает список стоп-слов для армянского. |
basque |
string |
Выбирает список стоп-слов для баскского. |
brazilian |
string |
Выбирает список стоп-слов для португальского (Бразилия). |
bulgarian |
string |
Выбирает список стоп-слов для болгарского. |
catalan |
string |
Выбирает список стоп-слов для каталонского. |
czech |
string |
Выбирает список стоп-слов для чешского языка. |
danish |
string |
Выбирает список стоп-слов для датского языка. |
dutch |
string |
Выбирает список стоп-слов для голландского языка. |
english |
string |
Выбирает список стоп-слов для английского языка. |
finnish |
string |
Выбирает список стоп-слов для финского языка. |
french |
string |
Выбирает список стоп-слов для французского языка. |
galician |
string |
Выбирает список стоп-слов для галисийского. |
german |
string |
Выбирает список стоп-слов для немецкого языка. |
greek |
string |
Выбирает список стоп-слов для греческого языка. |
hindi |
string |
Выбирает список стоп-слов для хинди. |
hungarian |
string |
Выбирает список стоп-слов для венгерского. |
indonesian |
string |
Выбирает список стоп-слов для индонезийского языка. |
irish |
string |
Выбирает список стоп-слов для ирландского. |
italian |
string |
Выбирает список стоп-слов для итальянского языка. |
latvian |
string |
Выбирает список стоп-слов для латышского языка. |
norwegian |
string |
Выбирает список стоп-слов для норвежского языка. |
persian |
string |
Выбирает список стоп-слов для персидского языка. |
portuguese |
string |
Выбирает список стоп-слов для португальского языка. |
romanian |
string |
Выбирает список стоп-слов для румынского языка. |
russian |
string |
Выбирает список стоп-слов для русского языка. |
sorani |
string |
Выбирает список стоп-слов для Sorani. |
spanish |
string |
Выбирает список стоп-слов для испанского языка. |
swedish |
string |
Выбирает список стоп-слов для шведского языка. |
thai |
string |
Выбирает список стоп-слов для тайского языка. |
turkish |
string |
Выбирает список стоп-слов для турецкого языка. |
StopwordsTokenFilter
Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
removeTrailing |
boolean |
True |
Значение, указывающее, следует ли игнорировать последнее условие поиска, если это стоп-слово. Значение по умолчанию — true. |
stopwords |
string[] |
Список стоп-слов. Это свойство и свойство списка стоп-слов не могут быть заданы. |
|
stopwordsList | english |
Предопределенный список стоп-слов для использования. Это свойство и свойство стоп-слов не могут быть заданы. По умолчанию используется английский язык. |
Suggester
Определяет, как API suggest должен применяться к группе полей в индексе.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя средства подбора. |
searchMode |
Значение , указывающее возможности средства подбора. |
|
sourceFields |
string[] |
Список имен полей, к которым применяется средство подбора. Каждое поле должно быть доступны для поиска. |
SuggesterSearchMode
Значение , указывающее возможности средства подбора.
Имя | Тип | Описание |
---|---|---|
analyzingInfixMatching |
string |
Соответствует последовательным целым терминам и префиксам в поле. Например, для поля "Самая быстрая коричневая лиса" запросы "быстрый" и "самый быстрый бровь" будут совпадать. |
SynonymTokenFilter
Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
expand |
boolean |
True |
Значение , указывающее, будут ли все слова в списке синонимов (если не используется нотация )> сопоставляться друг с другом. Если значение равно true, все слова в списке синонимов (если => нотация не используется) будут сопоставляться друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалентно: невероятный, невероятный, сказочный, удивительный => невероятный, невероятный, сказочный, удивительный. Если ложь, следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный. Значение по умолчанию — true. |
ignoreCase |
boolean |
False |
Значение, указывающее, следует ли использовать входные данные свертывания регистра для сопоставления. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
synonyms |
string[] |
Список синонимов в одном из двух форматов: 1. невероятный, невероятный, сказочный => удивительный - все термины слева от символа> будут заменены всеми терминами на правой стороне; 2. невероятный, невероятный, сказочный, удивительный - разделенный запятыми список эквивалентных слов. Установите параметр expand, чтобы изменить способ интерпретации этого списка. |
TagScoringFunction
Определяет функцию, которая увеличивает количество документов со строковыми значениями, соответствующими заданному списку тегов.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
tag |
Значения параметров для функции оценки тегов. |
|
type |
string:
tag |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
TagScoringParameters
Предоставляет значения параметров для функции оценки тегов.
Имя | Тип | Описание |
---|---|---|
tagsParameter |
string |
Имя параметра, передаваемого в поисковых запросах, чтобы указать список тегов для сравнения с целевым полем. |
TextWeights
Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повышать оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
weights |
object |
Словарь весовых коэффициентов для каждого поля для повышения оценки документов. Ключи — это имена полей, а значения — весовые коэффициенты для каждого поля. |
TokenCharacterKind
Представляет классы символов, с которыми может работать фильтр маркеров.
Имя | Тип | Описание |
---|---|---|
digit |
string |
Сохраняет цифры в токенах. |
letter |
string |
Хранит буквы в токенах. |
punctuation |
string |
Сохраняет знаки препинания в маркерах. |
symbol |
string |
Сохраняет символы в маркерах. |
whitespace |
string |
Сохраняет пробелы в маркерах. |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
apostrophe |
string |
Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
string |
Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
string |
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
string |
Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
string |
Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
string |
Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
string |
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
string |
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
string |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
string |
Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
string |
Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
string |
Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
string |
Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
string |
Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
string |
Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
string |
Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
string |
Нормализует текст в маркере в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm |
nGram_v2 |
string |
Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
string |
Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
string |
Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
string |
Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer |
reverse |
string |
Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
string |
Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
string |
Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
string |
Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
string |
Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
string |
Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
string |
Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
string |
Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
string |
Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
string |
Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
string |
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
string |
Нормализует текст в маркере в верхний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
string |
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. |
TruncateTokenFilter
Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
length |
integer |
300 |
Длина, при которой будут усечены термины. По умолчанию и максимум — 300. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
UaxUrlEmailTokenizer
Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
UniqueTokenFilter
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
onlyOnSamePosition |
boolean |
False |
Значение , указывающее, следует ли удалять дубликаты только в той же позиции. Значение по умолчанию — false. |
VectorSearch
Содержит параметры конфигурации, связанные с поиском векторов.
Имя | Тип | Описание |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса. |
profiles |
Определяет сочетания конфигураций, используемых при поиске векторов. |
VectorSearchAlgorithmKind
Алгоритм, используемый для индексирования и выполнения запросов.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnn |
string |
Исчерпывающий алгоритм KNN, который будет выполнять поиск методом подбора. |
hnsw |
string |
HNSW (Иерархический навигациемый малый мир), тип приблизительного алгоритма ближайших соседей. |
VectorSearchAlgorithmMetric
Метрика сходства, используемая для векторного сравнения.
Имя | Тип | Описание |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Определяет сочетание конфигураций, используемых при поиске векторов.
Имя | Тип | Описание |
---|---|---|
algorithm |
string |
Имя конфигурации алгоритма поиска векторов, указывающее алгоритм и необязательные параметры. |
name |
string |
Имя, сопоставленное с этим конкретным профилем поиска вектора. |
WordDelimiterTokenFilter
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
catenateAll |
boolean |
False |
Значение , указывающее, будут ли все части подсловных слов катенироваться. Например, если задано значение true, "Azure-Search-1" станет "AzureSearch1". Значение по умолчанию — false. |
catenateNumbers |
boolean |
False |
Значение , указывающее, будет ли выполняться максимальное число частей. Например, если задано значение true, "1–2" станет "12". Значение по умолчанию — false. |
catenateWords |
boolean |
False |
Значение, указывающее, будет ли выполняться максимальное количество слов. Например, если задано значение true, "Azure-Search" станет "AzureSearch". Значение по умолчанию — false. |
generateNumberParts |
boolean |
True |
Значение, указывающее, следует ли создавать подслови числа. Значение по умолчанию — true. |
generateWordParts |
boolean |
True |
Значение, указывающее, следует ли создавать слова-части. Если задано значение , вызывает создание частей слов; Например, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
preserveOriginal |
boolean |
False |
Значение , указывающее, будут ли сохраняться исходные слова и добавляться в список подсловий. Значение по умолчанию — false. |
protectedWords |
string[] |
Список маркеров для защиты от разделителей. |
|
splitOnCaseChange |
boolean |
True |
Значение, указывающее, следует ли разделять слова в caseChange. Например, если задано значение true, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true. |
splitOnNumerics |
boolean |
True |
Значение, указывающее, следует ли разделять числа. Например, если задано значение true, "Azure1Search" становится "Azure" "1" "Поиск". Значение по умолчанию — true. |
stemEnglishPossessive |
boolean |
True |
Значение, указывающее, следует ли удалять конечные "s" для каждого подсловия. Значение по умолчанию — true. |