IndexingParametersConfiguration interface
Словарь свойств конфигурации, относящихся к индексатору. Каждое имя — это имя определенного свойства. Каждое значение должно иметь примитивный тип.
Свойства
allow |
Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов. |
data |
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлекать из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure. |
delimited |
Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|"). |
delimited |
Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе. |
document |
Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства. |
excluded |
Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования. |
execution |
Указывает среду, в которой должен выполняться индексатор. |
fail |
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа. |
fail |
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее. |
first |
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки. |
image |
Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. Установка для конфигурации imageAction любого значения, отличного от "none", требует, чтобы набор навыков также был присоединен к индексатору. |
indexed |
Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов. |
index |
Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure. |
pdf |
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure. |
query |
Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс". |
Сведения о свойстве
allowSkillsetToReadFileData
Если значение равно true, будет создан путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передать исходные данные файла в пользовательский навык для обработки в конвейере обогащения или в навык извлечения документов.
allowSkillsetToReadFileData?: boolean
Значение свойства
boolean
dataToExtract
Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные следует извлекать из содержимого изображения, если для параметра imageAction задано значение, отличное от "none". Это относится к содержимому внедренного изображения в .PDF или другом приложении, а также к файлам изображений, таким как .jpg и .png, в BLOB-объектах Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Значение свойства
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Для больших двоичных объектов CSV задает односимвольный разделитель конца строки для CSV-файлов, где каждая строка начинает новый документ (например, "|").
delimitedTextDelimiter?: string
Значение свойства
string
delimitedTextHeaders
Для BLOB-объектов CSV задает разделенный запятыми список заголовков столбцов, который удобно использовать для сопоставления исходных полей с полями назначения в индексе.
delimitedTextHeaders?: string
Значение свойства
string
documentRoot
Для массивов JSON при использовании структурированного или частично структурированного документа можно указать путь к массиву с помощью этого свойства.
documentRoot?: string
Значение свойства
string
excludedFileNameExtensions
Разделенный запятыми список расширений имен файлов, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4", чтобы пропустить эти файлы во время индексирования.
excludedFileNameExtensions?: string
Значение свойства
string
executionEnvironment
Указывает среду, в которой должен выполняться индексатор.
executionEnvironment?: "standard" | "private"
Значение свойства
"standard" | "private"
failOnUnprocessableDocument
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование в случае сбоя индексирования документа.
failOnUnprocessableDocument?: boolean
Значение свойства
boolean
failOnUnsupportedContentType
Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента и не знаете все типы контента (расширения файлов) заранее.
failOnUnsupportedContentType?: boolean
Значение свойства
boolean
firstLineContainsHeaders
Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.
firstLineContainsHeaders?: boolean
Значение свойства
boolean
imageAction
Определяет способ обработки внедренных образов и файлов образов в хранилище BLOB-объектов Azure. Установка для конфигурации imageAction любого значения, отличного от "none", требует, чтобы набор навыков также был присоединен к индексатору.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Значение свойства
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Разделенный запятыми список расширений имен файлов, которые нужно выбрать при обработке из хранилища BLOB-объектов Azure. Например, можно направить индексирование на файлы определенного приложения, указав расширения ".docx, .pptx, .msg", чтобы специально включить эти типы файлов.
indexedFileNameExtensions?: string
Значение свойства
string
indexStorageMetadataOnlyForOversizedDocuments
Для больших двоичных объектов Azure присвойте этому свойству значение true, чтобы по-прежнему индексировать метаданные хранилища для содержимого BLOB-объектов, которое слишком велико для обработки. Большие двоичные объекты слишком большого размера по умолчанию считаются ошибками. Ограничения на размер BLOB-объекта см. в разделе https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Значение свойства
boolean
parsingMode
Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Значение свойства
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Значение свойства
"none" | "detectAngles"
queryTimeout
Увеличивает время ожидания после 5-минутного значения по умолчанию для Azure SQL источников данных базы данных, указанных в формате "чч:мм:сс".
queryTimeout?: string
Значение свойства
string