Поделиться через


Модель контракта аналитики документов

Это содержимое относится к: версии 4.0 (GA) | Предыдущая версия:флажоксиняя галочкаверсия 3.1 (GA) :::moniker-end

Это содержимое относится к: версия 3.1 (GA) | Последняя версия: фиолетовый флажокфлажокv4.0 (GA)

Модель контракта аналитики документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из группы важных сущностей контракта. Контракты могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как стороны, юрисдикции, идентификатор контракта и название; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает форматы документов на английском языке.

Автоматическая обработка контракта

Автоматическая обработка контрактов — это процесс извлечения ключевых полей контракта из документов. Исторически процесс анализа контракта достигается вручную и, следовательно, очень много времени. Точное извлечение ключевых данных из контрактов обычно является первым и одним из наиболее важных шагов в процессе автоматизации контрактов.

Варианты разработки

Аналитика документов версии 4.0: 2024-11-30 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель контракта Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
предварительно созданный контракт

Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель контракта Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
предварительно созданный контракт

Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель контракта Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
предварительно созданный контракт

Требования к входным данным

Поддерживаемые форматы файлов:

Модель PDF Изображение:
JPEG/JPG, , BMPPNGTIFFHEIF
Microsoft Office:
Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
Читать
Макет
Документ общего назначения
Готовое
Настраиваемая функция извлечения
Настраиваемая классификация
  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту 8 точки в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1 ГБ не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с не более чем 10 000 страниц.

Попробуйте извлечь данные документа контракта

Узнайте, как данные, включая сведения о клиентах, сведения о поставщике и элементы строки, извлекаются из контрактов. Вам потребуются следующие ресурсы:

  • Подписка Azure — ее можно создать бесплатно.

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

  1. На домашней странице Document Intelligence Studio выберите "Налоговые документы".

  2. Вы можете проанализировать примеры налоговых документов или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см. на странице "Поддержка языков", предварительно созданной модели.

Извлечение полей

  • Поддерживаемые поля извлечения документов см . на странице схемы модели контракта в нашем примере репозитория GitHub.

  • Пары "ключ-значение контракта" и извлеченные элементы строки находятся в documentResults разделе выходных данных JSON.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.