Навык макета документа
Примечание.
Эта функция сейчас доступна в виде общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения на уровне обслуживания и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Навык макета документов анализирует документ для извлечения интересующих регионов и их взаимодействия для создания синтаксического представления документа в формате Markdown. Этот навык использует модель макета аналитики документов, предоставляемую в Azure AI Document Intelligence.
В этой статье приведена справочная документация по навыку макета документов. Сведения об использовании см. в разделе "Блоки с поддержкой структуры" и "векторизация".
Навык макета документов вызывает общедоступную предварительную версию Document Intelligence 2024-07-31-preview. В настоящее время он доступен только в следующих регионах Azure:
- Восточная часть США
- западная часть США 2
- Западная Европа
- Центрально-северная часть США
Поддерживаемые форматы файлов включают:
- .JPEG
- .JPG
- .PNG
- .BMP
- .TIFF
- .DOCX
- .XLSX
- .PPTX
- HTML.
Примечание.
Этот навык привязан к службам ИИ Azure и требует оплачиваемого ресурса для транзакций, превышающих 20 документов на индексатор в день. За выполнение встроенных навыков взимается плата за существующие службы ИИ Azure по мере использования.
@odata.type
Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill
Ограничения данных
- Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
- Даже если размер файла для анализа документов составляет 500 МБ для платного уровня azure AI Document Intelligence (S0) и 4 МБ для бесплатного уровня аналитики документов Azure (F0), индексирование зависит от ограничений индексатора уровня службы поиска.
- Размеры изображения должны составлять от 50 пикселей до 50 пикселей или 10 000 пикселей x 10 000 пикселей.
- Если pdf-файлы заблокированы паролем, удалите блокировку перед запуском индексатора.
Поддерживаемые языки
Ознакомьтесь с моделью макета службы "Аналитика документов Azure", поддерживаемой языками для печатного текста.
Ограничения
Во время общедоступной предварительной версии этот навык имеет следующие ограничения:
- Навык не может извлекать изображения, внедренные в документы.
- Номера страниц не включаются в созданные выходные данные.
- Навык не подходит для больших документов, требующих более 5 минут обработки в модели макета ai Document Intelligence. Время ожидания навыка будет истекать, но плата по-прежнему будет применяться к ресурсу служб ИИ с несколькими службами, если он подключен к набору навыков для выставления счетов. Убедитесь, что документы оптимизированы для поддержания в пределах ограничений обработки, чтобы избежать ненужных затрат.
Параметры навыков
Параметры зависят от регистра.
Наименование параметра | Допустимые значения | Description |
---|---|---|
outputMode |
oneToMany |
Управляет кратностью выходных данных, созданных навыком. |
markdownHeaderDepth |
h1 , , h2 h4 h3 h5 ,h6(default) |
Этот параметр описывает самый глубокий уровень вложения, который следует учитывать. Например, если markdownHeaderDepth указывается как "h3" любой раздел markdown, который глубже h3 (т. е. #### и более глубокий) считается "контентом", который необходимо добавить к любому уровню его родительского элемента. |
Входные данные навыков
Ввод имени | Description |
---|---|
file_data |
Файл, из которого должно быть извлечено содержимое. |
Входные данные "file_data" должны быть объектом, определенным как:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Кроме того, его можно определить следующим образом:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Объект ссылки на файл можно создать одним из следующих способов:
При задании
allowSkillsetToReadFileData
параметра для определения индексатора задано значение true. Этот параметр создает путь/document/file_data
, представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов Azure.Наличие пользовательского навыка, возвращающего определенный объект JSON, который предоставляет
$type
,data
илиurl
sastoken
. Параметр$type
должен иметь значение , иdata
должен бытьfile
базовым 64-кодированным массивом байтов содержимого файла. Параметрurl
должен быть допустимым URL-адресом с доступом для скачивания файла в этом расположении.
Выходные данные навыка
Имя вывода | Description |
---|---|
markdown_document |
Коллекция объектов sections, представляющих каждый отдельный раздел в документе Markdown. |
Пример определения
{
"skills": [
{
"description": "Analyze a document",
"@odata.type": "#Microsoft.Skills.Util.DocumentLayoutAnalysisSkill",
"context": "/document",
"outputMode": "oneToMany",
"markdownHeaderDepth": "h3",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "markdown_document",
"targetName": "markdown_document"
}
]
}
]
}
Пример полученных результатов
{
"markdown_document": [
{
"content": "Hi this is Jim \r\nHi this is Joe",
"sections": {
"h1": "Foo",
"h2": "Bar",
"h3": ""
},
"ordinal_position": 0
},
{
"content": "Hi this is Lance",
"sections": {
"h1": "Foo",
"h2": "Bar",
"h3": "Boo"
},
"ordinal_position": 1,
}
]
}
Значение markdownHeaderDepth
элемента управления числом ключей в словаре "разделов". В примере определения навыка, так как это markdownHeaderDepth
"h3", в словаре "разделы" есть три ключа: h1, h2, h3.