Indexers - Create
Создает новый индексатор.
POST {endpoint}/indexers?api-version=2024-11-01-preview
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
api-version
|
query | True |
string |
Версия клиентского API. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправляемый запросом на отладку. |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
dataSourceName | True |
string |
Имя источника данных, из которого индексатор считывает данные. |
name | True |
string |
Имя индексатора. |
targetIndexName | True |
string |
Имя индекса, в который индексатор записывает данные. |
@odata.etag |
string |
ETag индексатора. |
|
cache |
Добавляет кэширование в конвейер обогащения, чтобы разрешить добавочные шаги изменения без необходимости перестроить индекс каждый раз. |
||
description |
string |
Описание индексатора. |
|
disabled |
boolean |
Значение, указывающее, отключен ли индексатор. Значение по умолчанию — false. |
|
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных для определения индексатора (а также состояния выполнения индексатора), если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать их. После шифрования определения индексатора он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Определение индексатора (и состояние выполнения индексатора) не будет затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г. |
||
fieldMappings |
Определяет сопоставления между полями в источнике данных и соответствующими целевыми полями в индексе. |
||
outputFieldMappings |
Сопоставления полей вывода применяются после обогащения и непосредственно перед индексированием. |
||
parameters |
Параметры для выполнения индексатора. |
||
schedule |
Расписание для этого индексатора. |
||
skillsetName |
string |
Имя набора навыков, выполняемого с помощью этого индексатора. |
Ответы
Имя | Тип | Описание |
---|---|---|
201 Created | ||
Other Status Codes |
Ответ на ошибку. |
Примеры
SearchServiceCreateIndexer
Образец запроса
POST https://previewexampleservice.search.windows.net/indexers?api-version=2024-11-01-preview
{
"name": "myindexer",
"description": "Description of the indexer",
"dataSourceName": "mydocdbdatasource",
"skillsetName": "myskillset",
"targetIndexName": "preview-test",
"schedule": {
"interval": "P1D"
},
"parameters": {
"maxFailedItems": 10,
"maxFailedItemsPerBatch": 5,
"configuration": {
"parsingMode": "markdown",
"markdownParsingSubmode": "oneToMany"
}
},
"fieldMappings": [],
"outputFieldMappings": [],
"disabled": false,
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
}
}
Пример ответа
{
"name": "myindexer",
"description": "Description of the indexer",
"dataSourceName": "mydocdbdatasource",
"skillsetName": "myskillset",
"targetIndexName": "preview-test",
"disabled": false,
"schedule": {
"interval": "P1D",
"startTime": "2024-06-06T00:01:50.265Z"
},
"parameters": {
"maxFailedItems": 10,
"maxFailedItemsPerBatch": 5,
"configuration": {
"parsingMode": "markdown",
"markdownParsingSubmode": "oneToMany"
}
},
"fieldMappings": [],
"outputFieldMappings": [],
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
}
}
Определения
Имя | Описание |
---|---|
Azure |
Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault. |
Blob |
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure. |
Blob |
Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору. |
Blob |
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure. |
Blob |
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. |
Error |
Дополнительные сведения об ошибке управления ресурсами. |
Error |
Сведения об ошибке. |
Error |
Ответ на ошибку |
Field |
Определяет сопоставление между полем в источнике данных и целевым полем в индексе. |
Field |
Представляет функцию, которая преобразует значение из источника данных перед индексированием. |
Indexer |
Указывает среду, в которой должен выполняться индексатор. |
Indexing |
Представляет параметры для выполнения индексатора. |
Indexing |
Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом. |
Indexing |
Представляет расписание выполнения индексатора. |
Markdown |
Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию используется |
Markdown |
Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию используется |
Search |
Представляет индексатор. |
Search |
|
Search |
Очищает свойство удостоверения источника данных. |
Search |
Указывает удостоверение для используемого источника данных. |
Search |
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов. |
AzureActiveDirectoryApplicationCredentials
Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.
Имя | Тип | Описание |
---|---|---|
applicationId |
string |
Идентификатор приложения AAD, которому было предоставлено необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD. |
applicationSecret |
string |
Ключ проверки подлинности указанного приложения AAD. |
BlobIndexerDataToExtract
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.
Имя | Тип | Описание |
---|---|---|
allMetadata |
string |
Извлекает метаданные, предоставляемые подсистемой хранилища BLOB-объектов Azure, и метаданные конкретного типа контента (например, метаданные, уникальные для только .png файлов индексируются). |
contentAndMetadata |
string |
Извлекает все метаданные и текстовое содержимое из каждого большого двоичного объекта. |
storageMetadata |
string |
Индексирует только стандартные свойства BLOB-объектов и пользовательские метаданные. |
BlobIndexerImageAction
Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.
Имя | Тип | Описание |
---|---|---|
generateNormalizedImagePerPage |
string |
Извлекает текст из изображений (например, слово STOP из знака остановки трафика) и внедряет его в поле содержимого, но обрабатывает PDF-файлы по-разному, что каждая страница будет отображаться как изображение и нормализуется соответствующим образом, а не извлекает внедренные изображения. Типы файлов, отличные от PDF, будут обрабатываться так же, как если бы был задан параметр GenerateNormalizedImages. |
generateNormalizedImages |
string |
Извлекает текст из изображений (например, слово STOP из знака остановки трафика) и внедряет его в поле содержимого. Для этого действия требуется, чтобы для dataToExtract задано значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к однородному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска. Эти сведения создаются для каждого изображения при использовании этого параметра. |
none |
string |
Игнорирует внедренные изображения или файлы изображений в наборе данных. Это значение по умолчанию. |
BlobIndexerParsingMode
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.
Имя | Тип | Описание |
---|---|---|
default |
string |
Установите значение по умолчанию для обычной обработки файлов. |
delimitedText |
string |
Задайте для разделителя текста, если большие двоичные объекты являются обычными CSV-файлами. |
json |
string |
Установите значение json, чтобы извлечь структурированное содержимое из JSON-файлов. |
jsonArray |
string |
Установите значение jsonArray для извлечения отдельных элементов массива JSON в виде отдельных документов. |
jsonLines |
string |
Установите значение jsonLines для извлечения отдельных сущностей JSON, разделенных новой строкой в виде отдельных документов. |
markdown |
string |
Установите для markdown, чтобы извлечь содержимое из файлов Markdown. |
text |
string |
Задайте значение text, чтобы повысить производительность индексирования в файлах обычного текста в хранилище BLOB-объектов. |
BlobIndexerPDFTextRotationAlgorithm
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.
Имя | Тип | Описание |
---|---|---|
detectAngles |
string |
Может создавать более удобочитаемое извлечение текста из PDF-файлов, вращающих текст внутри них. Обратите внимание, что при использовании этого параметра может быть небольшое влияние на скорость производительности. Этот параметр применяется только к PDF-файлам и только к PDF-файлам с внедренным текстом. Если вращаемый текст отображается в внедренном изображении в ФОРМАТЕ PDF, этот параметр не применяется. |
none |
string |
Использует обычное извлечение текста. Это значение по умолчанию. |
ErrorAdditionalInfo
Дополнительные сведения об ошибке управления ресурсами.
Имя | Тип | Описание |
---|---|---|
info |
object |
Дополнительные сведения. |
type |
string |
Дополнительный тип сведений. |
ErrorDetail
Сведения об ошибке.
Имя | Тип | Описание |
---|---|---|
additionalInfo |
Дополнительные сведения об ошибке. |
|
code |
string |
Код ошибки. |
details |
Сведения об ошибке. |
|
message |
string |
Сообщение об ошибке. |
target |
string |
Целевой объект ошибки. |
ErrorResponse
Ответ на ошибку
Имя | Тип | Описание |
---|---|---|
error |
Объект ошибки. |
FieldMapping
Определяет сопоставление между полем в источнике данных и целевым полем в индексе.
Имя | Тип | Описание |
---|---|---|
mappingFunction |
Функция, применяемая к каждому значению исходного поля перед индексированием. |
|
sourceFieldName |
string |
Имя поля в источнике данных. |
targetFieldName |
string |
Имя целевого поля в индексе. Совпадает с именем исходного поля по умолчанию. |
FieldMappingFunction
Представляет функцию, которая преобразует значение из источника данных перед индексированием.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя функции сопоставления полей. |
parameters |
object |
Словарь пар имени параметра и значения для передачи функции. Каждое значение должно быть примитивным типом. |
IndexerExecutionEnvironment
Указывает среду, в которой должен выполняться индексатор.
Имя | Тип | Описание |
---|---|---|
private |
string |
Указывает, что индексатор должен работать с средой, подготовленной специально для службы поиска. Это должно быть указано только в качестве среды выполнения, если индексатор должен безопасно получить доступ к ресурсам через общие ресурсы приватного канала. |
standard |
string |
Указывает, что служба поиска может определить, где должен выполняться индексатор. Это среда по умолчанию, когда ничего не указано и является рекомендуемыми значениями. |
IndexingParameters
Представляет параметры для выполнения индексатора.
Имя | Тип | Default value | Описание |
---|---|---|---|
batchSize |
integer |
Количество элементов, считываемых из источника данных и индексированных в виде одного пакета, чтобы повысить производительность. Значение по умолчанию зависит от типа источника данных. |
|
configuration |
Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом. |
||
maxFailedItems |
integer |
0 |
Максимальное количество элементов, которые могут завершать индексирование для выполнения индексатора, по-прежнему считается успешным. -1 означает, что ограничение не ограничено. Значение по умолчанию — 0. |
maxFailedItemsPerBatch |
integer |
0 |
Максимальное количество элементов в одном пакете, которое может завершиться сбоем индексирования для пакета, которое по-прежнему считается успешным. -1 означает, что ограничение не ограничено. Значение по умолчанию — 0. |
IndexingParametersConfiguration
Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.
Имя | Тип | Default value | Описание |
---|---|---|---|
allowSkillsetToReadFileData |
boolean |
False |
Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов. |
dataToExtract | contentAndMetadata |
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure. |
|
delimitedTextDelimiter |
string |
Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|"). |
|
delimitedTextHeaders |
string |
Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе. |
|
documentRoot |
string |
Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства. |
|
excludedFileNameExtensions |
string |
Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования. |
|
executionEnvironment | standard |
Указывает среду, в которой должен выполняться индексатор. |
|
failOnUnprocessableDocument |
boolean |
False |
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования. |
failOnUnsupportedContentType |
boolean |
False |
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее. |
firstLineContainsHeaders |
boolean |
True |
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки. |
imageAction | none |
Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору. |
|
indexStorageMetadataOnlyForOversizedDocuments |
boolean |
False |
Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity. |
indexedFileNameExtensions |
string |
Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов. |
|
markdownHeaderDepth | h6 |
Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию используется |
|
markdownParsingSubmode | oneToMany |
Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию используется |
|
parsingMode | default |
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure. |
|
pdfTextRotationAlgorithm | none |
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. |
|
queryTimeout |
string |
00:05:00 |
Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss. |
IndexingSchedule
Представляет расписание выполнения индексатора.
Имя | Тип | Описание |
---|---|---|
interval |
string |
Интервал времени между выполнением индексатора. |
startTime |
string |
Время запуска индексатора. |
MarkdownHeaderDepth
Указывает максимальную глубину заголовка, которая будет рассматриваться при группировке содержимого markdown. По умолчанию используется h6
.
Имя | Тип | Описание |
---|---|---|
h1 |
string |
Указывает, что заголовки до уровня h1 будут рассматриваться при группировке содержимого markdown. |
h2 |
string |
Указывает, что заголовки до уровня h2 будут рассматриваться при группировке содержимого markdown. |
h3 |
string |
Указывает, что заголовки до уровня h3 будут рассматриваться при группировке содержимого markdown. |
h4 |
string |
Указывает, что заголовки до уровня h4 будут рассматриваться при группировке содержимого markdown. |
h5 |
string |
Указывает, что заголовки до уровня h5 будут рассматриваться при группировке содержимого markdown. |
h6 |
string |
Указывает, что заголовки до уровня h6 будут рассматриваться при группировке содержимого markdown. Это значение по умолчанию. |
MarkdownParsingSubmode
Указывает подмоде, который определяет, будет ли файл markdown анализироваться в один документ поиска или несколько документов поиска. По умолчанию используется oneToMany
.
Имя | Тип | Описание |
---|---|---|
oneToMany |
string |
Указывает, что каждый раздел файла markdown (до указанной глубины) будет проанализирован в отдельные документы поиска. Это может привести к созданию нескольких документов поиска в одном файле markdown. Это вложенный режим по умолчанию. |
oneToOne |
string |
Указывает, что каждый файл markdown будет проанализирован в один документ поиска. |
SearchIndexer
Представляет индексатор.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.etag |
string |
ETag индексатора. |
|
cache |
Добавляет кэширование в конвейер обогащения, чтобы разрешить добавочные шаги изменения без необходимости перестроить индекс каждый раз. |
||
dataSourceName |
string |
Имя источника данных, из которого индексатор считывает данные. |
|
description |
string |
Описание индексатора. |
|
disabled |
boolean |
False |
Значение, указывающее, отключен ли индексатор. Значение по умолчанию — false. |
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных для определения индексатора (а также состояния выполнения индексатора), если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать их. После шифрования определения индексатора он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Определение индексатора (и состояние выполнения индексатора) не будет затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г. |
||
fieldMappings |
Определяет сопоставления между полями в источнике данных и соответствующими целевыми полями в индексе. |
||
name |
string |
Имя индексатора. |
|
outputFieldMappings |
Сопоставления полей вывода применяются после обогащения и непосредственно перед индексированием. |
||
parameters |
Параметры для выполнения индексатора. |
||
schedule |
Расписание для этого индексатора. |
||
skillsetName |
string |
Имя набора навыков, выполняемого с помощью этого индексатора. |
|
targetIndexName |
string |
Имя индекса, в который индексатор записывает данные. |
SearchIndexerCache
Имя | Тип | Описание |
---|---|---|
enableReprocessing |
boolean |
Указывает, включена ли добавочная повторная обработка. |
identity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для подключений к кэшу обогащения. Если строка подключения указывает удостоверение (ResourceId) и не указано, используется управляемое удостоверение, назначаемое системой. При обновлении индексатора, если удостоверение не указано, значение остается неизменным. Если задано значение none, то значение этого свойства очищается. |
storageConnectionString |
string |
Строка подключения к учетной записи хранения, в которой будут храниться данные кэша. |
SearchIndexerDataNoneIdentity
Очищает свойство удостоверения источника данных.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
SearchIndexerDataUserAssignedIdentity
Указывает удостоверение для используемого источника данных.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
userAssignedIdentity |
string |
Полный идентификатор ресурса Azure назначаемого пользователем управляемого удостоверения обычно в форме "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", который должен быть назначен службе поиска. |
SearchResourceEncryptionKey
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.
Имя | Тип | Описание |
---|---|---|
accessCredentials |
Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение. |
|
identity | SearchIndexerDataIdentity: |
Явное управляемое удостоверение, используемое для этого ключа шифрования. Если не указано, а свойство учетных данных доступа равно NULL, используется управляемое удостоверение, назначаемое системой. При обновлении ресурса, если явное удостоверение не указано, оно остается неизменным. Если задано значение none, то значение этого свойства очищается. |
keyVaultKeyName |
string |
Имя ключа Azure Key Vault, используемого для шифрования неактивных данных. |
keyVaultKeyVersion |
string |
Версия ключа Azure Key Vault, используемая для шифрования неактивных данных. |
keyVaultUri |
string |
Универсальный код ресурса (URI) Хранилища ключей Azure, который также называется DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI может быть |