Поделиться через


Навык макета документа

Примечание.

Эта функция сейчас доступна в виде общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения на уровне обслуживания и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Навык макета документов анализирует документ для извлечения интересующих регионов и их взаимодействия для создания синтаксического представления документа в формате Markdown. Этот навык использует модель макета аналитики документов, предоставляемую в Azure AI Document Intelligence.

В этой статье приведена справочная документация по навыку макета документов. Сведения об использовании см. в разделе "Блоки с поддержкой структуры" и "векторизация".

Навык макета документов вызывает общедоступную предварительную версию Document Intelligence 2024-07-31-preview. В настоящее время он доступен только в следующих регионах Azure:

  • Восточная часть США
  • западная часть США 2
  • Западная Европа
  • Центрально-северная часть США

Поддерживаемые форматы файлов включают:

  • .PDF
  • .JPEG
  • .JPG
  • .PNG
  • .BMP
  • .TIFF
  • .DOCX
  • .XLSX
  • .PPTX
  • HTML.

Примечание.

Этот навык привязан к службам ИИ Azure и требует оплачиваемого ресурса для транзакций, превышающих 20 документов на индексатор в день. За выполнение встроенных навыков взимается плата за существующие службы ИИ Azure по мере использования.

@odata.type

Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill

Ограничения данных

  • Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
  • Даже если размер файла для анализа документов составляет 500 МБ для платного уровня azure AI Document Intelligence (S0) и 4 МБ для бесплатного уровня аналитики документов Azure (F0), индексирование зависит от ограничений индексатора уровня службы поиска.
  • Размеры изображения должны составлять от 50 пикселей до 50 пикселей или 10 000 пикселей x 10 000 пикселей.
  • Если pdf-файлы заблокированы паролем, удалите блокировку перед запуском индексатора.

Поддерживаемые языки

Ознакомьтесь с моделью макета службы "Аналитика документов Azure", поддерживаемой языками для печатного текста.

Ограничения

Во время общедоступной предварительной версии этот навык имеет следующие ограничения:

  • Навык не может извлекать изображения, внедренные в документы.
  • Номера страниц не включаются в созданные выходные данные.
  • Навык не подходит для больших документов, требующих более 5 минут обработки в модели макета ai Document Intelligence. Время ожидания навыка будет истекать, но плата по-прежнему будет применяться к ресурсу служб ИИ с несколькими службами, если он подключен к набору навыков для выставления счетов. Убедитесь, что документы оптимизированы для поддержания в пределах ограничений обработки, чтобы избежать ненужных затрат.

Параметры навыков

Параметры зависят от регистра.

Наименование параметра Допустимые значения Description
outputMode oneToMany Управляет кратностью выходных данных, созданных навыком.
markdownHeaderDepth h1, , h2h4h3h5,h6(default) Этот параметр описывает самый глубокий уровень вложения, который следует учитывать. Например, если markdownHeaderDepth указывается как "h3" любой раздел markdown, который глубже h3 (т. е. #### и более глубокий) считается "контентом", который необходимо добавить к любому уровню его родительского элемента.

Входные данные навыков

Ввод имени Description
file_data Файл, из которого должно быть извлечено содержимое.

Входные данные "file_data" должны быть объектом, определенным как:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Кроме того, его можно определить следующим образом:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Объект ссылки на файл можно создать одним из следующих способов:

  • При задании allowSkillsetToReadFileData параметра для определения индексатора задано значение true. Этот параметр создает путь /document/file_data , представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов Azure.

  • Наличие пользовательского навыка, возвращающего определенный объект JSON, который предоставляет $type, dataили url sastoken. Параметр $type должен иметь значение , и data должен быть fileбазовым 64-кодированным массивом байтов содержимого файла. Параметр url должен быть допустимым URL-адресом с доступом для скачивания файла в этом расположении.

Выходные данные навыка

Имя вывода Description
markdown_document Коллекция объектов sections, представляющих каждый отдельный раздел в документе Markdown.

Пример определения

{
  "skills": [
    {
      "description": "Analyze a document",
      "@odata.type": "#Microsoft.Skills.Util.DocumentLayoutAnalysisSkill",
      "context": "/document",
      "outputMode": "oneToMany", 
      "markdownHeaderDepth": "h3", 
      "inputs": [
        {
          "name": "file_data",
          "source": "/document/file_data"
        }
      ],
      "outputs": [
        {
          "name": "markdown_document", 
          "targetName": "markdown_document" 
        }
      ]
    }
  ]
}

Пример полученных результатов

{
  "markdown_document": [
    { 
      "content": "Hi this is Jim \r\nHi this is Joe", 
      "sections": { 
        "h1": "Foo", 
        "h2": "Bar", 
        "h3": "" 
      },
      "ordinal_position": 0
    }, 
    { 
      "content": "Hi this is Lance",
      "sections": { 
         "h1": "Foo", 
         "h2": "Bar", 
         "h3": "Boo" 
      },
      "ordinal_position": 1,
    } 
  ] 
}

Значение markdownHeaderDepth элемента управления числом ключей в словаре "разделов". В примере определения навыка, так как это markdownHeaderDepth "h3", в словаре "разделы" есть три ключа: h1, h2, h3.

См. также