Пользовательские модели аналитики документов
Это содержимое относится к: версии 4.0 (GA) | Предыдущие версии: v3.1 (GA) версии 3.0 (GA) версии 2.1 (GA)
::: moniker-end
Это содержимое относится к: версия 3.1 (GA) | Последняя версия: версия 4.0 (GA) | Предыдущие версии: v3.0 версии 2.1
Это содержимое относится к: версия 3.0 (GA) | Последние версии: версия 4.0 (GA) версии 3.1 | Предыдущая версия: версия 2.1
Это содержимое относится к: версии 2.1 Последняя версия: версия 4.0 (GA) |
Аналитика документов использует расширенную технологию машинного обучения для идентификации документов, обнаружения и извлечения информации из форм и документов и возврата извлеченных данных в структурированных выходных данных JSON. С помощью аналитики документов можно использовать модели анализа документов, предварительно созданные или предварительно обученные или обученные автономные пользовательские модели.
Теперь пользовательские модели включают пользовательские модели классификации для сценариев, где необходимо определить тип документа перед вызовом модели извлечения. Модели классификатора доступны начиная с 2023-07-31 (GA)
API. Модель классификации может быть связана с пользовательской моделью извлечения для анализа и извлечения полей из форм и документов, относящихся к вашему бизнесу. Автономные пользовательские модели извлечения можно объединить для создания составных моделей.
Типы пользовательских моделей документов
Пользовательские модели документов могут быть одним из двух типов, пользовательского шаблона или пользовательской формы и пользовательских нейронных или пользовательских моделей документов. Процесс создания меток и обучения для обеих моделей идентичен, однако эти модели различаются следующим образом:
Пользовательские модели извлечения
Чтобы создать пользовательскую модель извлечения, наклейте набор данных документов со значениями, которые требуется извлечь и обучить модель в помеченном наборе данных. Для начала работы вам потребуется всего пять примеров формы или документа одного типа.
Пользовательская нейронная модель
Внимание
API аналитики v4.0 2024-11-30 (GA)
документов поддерживает перекрывающиеся поля пользовательской нейронной модели, обнаружение подписей и таблицу, уверенность на уровне строк и ячеек.
Настраиваемая нейронная модель (модель пользовательского документа) использует модели глубокого обучения и базовую модель, обученную большой коллекцией документов. Затем эта модель подстраивается или адаптируется к данным при обучении модели с помощью набора данных с метками. Пользовательские нейронные модели поддерживают извлечение ключевых полей данных из структурированных, полуструктурированных и неструктурированных документов. При выборе между двумя типами моделей начинайте с нейронной модели, чтобы определить, соответствует ли она вашим требованиям к функциональности. Дополнительные сведения о моделях пользовательских документов см. в описании нейронных моделей.
Пользовательская модель шаблона
Модель настраиваемого шаблона или настраиваемой формы полагается на единообразный визуальный шаблон для извлечения помеченных данных. Дисперсии в визуальной структуре документов влияют на точность модели. Примерами единообразных визуальных шаблонов являются такие структурированные формы, как вопросники или приложения.
Набор обучения состоит из структурированных документов, в которых форматирование и макет являются статическими и константными из одного экземпляра документа в следующий. Модели настраиваемого шаблона поддерживают пары "ключ-значение", метки выделения, таблицы, поля подписи и регионы. Модели шаблона можно обучить на документах, составленных на любом из поддерживаемых языков. Дополнительные сведения см. в разделе "Пользовательские модели шаблонов".
Если язык документов и сценариев извлечения поддерживает пользовательские нейронные модели, рекомендуется использовать пользовательские нейронные модели для моделей шаблонов для повышения точности.
Совет
Чтобы убедиться, что в документах для обучения имеется единообразный визуальный шаблон, удалите все введенные пользователем данные из каждой формы в наборе. Если внешний вид пустых форм идентичен, они представляют единообразный визуальный шаблон.
Дополнительные сведения см. в разделе "Интерпретация и повышение точности и достоверности" для пользовательских моделей.
Требования к входным данным
Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Поддерживаемые форматы файлов:
Модель PDF Изображение: jpeg/jpg
, ,bmp
png
tiff
heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx)Читать ✔ ✔ ✔ Макет ✔ ✔ ✔ Документ общего назначения ✔ ✔ Готовое ✔ ✔ Настраиваемая функция извлечения ✔ ✔ Настраиваемая классификация ✔ ✔ ✔ ✱ Файлы Microsoft Office сейчас не поддерживаются в других моделях или версиях.
Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту около
8
точки в 150 точек на дюйм.Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.
Для обучения пользовательской модели классификации общий размер обучающих данных составляет
1GB
не более 10 000 страниц.
Оптимальные обучающие данные
Входные данные обучения являются основой любой модели машинного обучения. Он определяет качество, точность и производительность модели. Поэтому важно создать лучшие входные данные обучения для проекта Аналитики документов. При использовании пользовательской модели аналитики документов вы предоставляете собственные обучающие данные. Вот несколько советов по эффективному обучению моделей:
По возможности используйте PDF-файлы с распознанным текстом, а не с текстом в виде изображений. Одним из способов идентификации изображения*на основе PDF является попытка выбора определенного текста в документе. Если вы можете выбрать только все изображение текста, документ основан на изображении, а не на основе текста.
Упорядочьте документы для обучения с использованием вложенной папки для каждого формата (JPEG/JPG, PNG, BMP, PDF или TIFF).
Используйте формы, в которых заполнены все доступные поля.
Используйте формы с разными значениями в каждом поле.
Используйте более крупный набор данных (более пяти обучающих документов), если изображения являются низким качеством.
Определите, нужно ли использовать одну модель или несколько моделей, объединенных в одну модель.
Рассмотрите возможность сегментирования набора данных в папки, где каждая папка является уникальным шаблоном. Обучите одну модель для каждой папки и создайте полученные модели в одну конечную точку. Точность модели может уменьшаться, если с помощью одной модели анализируются различные форматы.
Рассмотрите возможность сегментирования набора данных для обучения нескольких моделей, если форма имеет варианты с форматами и разрывами страниц. Пользовательские формы основываются на согласованном визуальном шаблоне.
Убедитесь, что у вас есть сбалансированный набор данных, учитывая форматы, типы документов и структуру.
Режим создания
Эта build custom model
операция добавляет поддержку шаблонов и нейронных пользовательских моделей. Предыдущие версии REST API и клиентских библиотек поддерживают только один режим сборки, который теперь называется режимом шаблона .
Модели шаблонов принимают только документы с одинаковой базовой структурой страницы — единообразным внешним видом — или одинаковым относительным расположением элементов в документе.
Нейронные модели поддерживают документы с одинаковыми сведениями, но разной структурой страниц. Примеры этих документов включают США формы W2, которые используют одну и ту же информацию, но различаются по внешнему виду в разных компаниях.
В этой таблице приведены справочники по SDK и примеры кода на GitHub для языка программирования, используемого для режима создания:
Язык программирования | Справочник по SDK | Пример кода |
---|---|---|
C#/.NET | Структура DocumentBuildMode | Sample_BuildCustomModelAsync.cs |
Java | Класс DocumentBuildMode | BuildModel.java |
JavaScript | Тип DocumentBuildMode | buildModel.js |
Python | Перечисление DocumentBuildMode | sample_build_model.py |
Сравнение функций моделей
В следующей таблице сравниваются пользовательские функции шаблона и пользовательские нейронные функции:
Функция | Модель настраиваемого шаблона (настраиваемой формы) | Настраиваемая нейронная модель (пользовательский документ) |
---|---|---|
Структура документа | Шаблон, форма и структурированные | Структурированные, частично структурированные и неструктурированные |
Время обучения | 1–5 минут | От 20 минут до 1 часа |
Извлечение данных | Пары "ключ-значение", таблицы, метки выделения, координаты и подписи | Пары "ключ-значение", метки выделения и таблицы |
Перекрывающиеся поля | Не поддерживается | Поддерживается |
Варианты документа | Требуется модель для каждого варианта | Используется одну модель для всех вариантов |
Поддержка языков | Пользовательский шаблон поддержки языков | Поддержка языка настраиваемой нейронной |
Пользовательская модель классификации
Классификация документов — это новый сценарий, поддерживаемый аналитикой документов с 2023-07-31
ПОМОЩЬЮ API (версии 3.1 GA). API классификатора документов поддерживает сценарии классификации и разделения. Обучите модель классификации, чтобы определить различные типы документов, поддерживаемых приложением. Входной файл для модели классификации может содержать несколько документов и классифицирует каждый документ в соответствующем диапазоне страниц. Дополнительные сведения см. в разделе "Пользовательские модели классификации ".
Примечание.
Модель v4.0 2024-11-30 (GA)
классификации документов поддерживает типы документов Office для классификации. Эта версия API также содержит добавочное обучение для модели классификации.
Средства настраиваемой модели
Модели Аналитики документов версии 3.1 и более поздних версий поддерживают следующие средства, приложения и библиотеки, программы и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Настраиваемая модель | • Аналитика документов • REST API • ПАКЕТ SDK для C# • Пакет SDK для Python |
custom-model-id |
Жизненный цикл пользовательской модели
Жизненный цикл пользовательской модели зависит от версии API, используемой для обучения. Если версия API является общедоступной версией, пользовательская модель имеет тот же жизненный цикл, что и эта версия. Пользовательская модель недоступна для вывода, если версия API устарела. Если версия API является предварительной версией, пользовательская модель имеет тот же жизненный цикл, что и предварительная версия API.
Аналитика документов версии 2.1 поддерживает следующие средства, приложения и библиотеки:
Примечание.
Пользовательские типы моделей, настраиваемые нейронные и настраиваемые шаблоны доступны в API аналитики документов версии 3.1 и версии 3.0.
Функция | Ресурсы |
---|---|
Настраиваемая модель | • Средство аналитики документов • REST API • пакет SDK для клиентской библиотеки• Контейнер Docker аналитики документов |
Создание настраиваемой модели
Извлеките данные из конкретных или уникальных документов с помощью пользовательских моделей. Вам потребуются следующие ресурсы:
Подписка Azure. Вы можете создать бесплатную учетную запись.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0
), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Пример средства создания меток
Совет
- Для повышения качества и расширенного качества модели попробуйте в Студии аналитики документов версии 3.0.
- Студия версии 3.0 поддерживает любую модель, обученную с помощью маркированных данных версии 2.1.
- Подробные сведения о переходе с версии 2.1 на версию 3.0 см. в руководстве по миграции API.
- Ознакомьтесь с нашим REST API или C#, Java, JavaScript или пакетом SDK для Python. /quickstarts, чтобы приступить к работе с версией 3.0.
Средство создания меток для аналитики документов — это средство открытый код, которое позволяет протестировать новейшие функции аналитики документов и оптического распознавания символов (OCR).
Краткое руководство по созданию и использованию пользовательской модели см. в кратком руководстве по созданию примера меток.
Document Intelligence Studio
Примечание.
Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.
На домашней странице Document Intelligence Studio выберите пользовательские модели извлечения.
В разделе Мои проекты выберите Создать проект.
Заполните поля сведений о проекте.
Настройте ресурс службы, добавив Учетную запись хранения и Контейнер BLOB-объектов в Connect your training data source (Подключение источника данных для обучения).
Проверьте и создайте проект.
Добавьте примеры документов в метку, сборку и тестирование пользовательской модели.
Подробное пошаговое руководство по созданию первой пользовательской модели извлечения см. в статье "Создание пользовательской модели извлечения".
Сводка по извлечению пользовательских моделей
В этой таблице сравниваются поддерживаемые области извлечения данных:
Модель | Поля формы | Метки выделения | Структурированные поля (таблицы) | Подпись | Метки регионов | Перекрывающиеся поля |
---|---|---|---|---|---|---|
Пользовательский шаблон | ✔ | ✔ | ✔ | ✔ | ✔ | Недоступно |
Настраиваемая нейронная модель | ✔ | ✔ | ✔ | ✔ | * | ✔ |
Символы таблицы:
✔ — поддерживается
**n/a— в настоящее время недоступно;
*-Ведет себя по-разному в зависимости от модели. При использовании моделей шаблонов искусственные данные создаются во время обучения. При использовании нейронных моделей выбран выход из текста, распознанного в регионе.
Совет
При выборе между двумя типами моделей начинайте с настраиваемой нейронной модели, если она соответствует вашим требованиям к функциональности. Дополнительные сведения о настраиваемых нейронных моделях см. в соответствующем описании.
Параметры разработки настраиваемых моделей
В следующей таблице описываются функции, доступные с соответствующими инструментами и клиентскими библиотеками. Рекомендуется использовать перечисленные здесь совместимые средства.
Document type | REST API | SDK | Создание меток и тестирование моделей |
---|---|---|---|
Пользовательский шаблон версии 4.0 v3.1 v3.0 | Аналитика документов 3.1 | Пакет SDK для аналитики документов | Document Intelligence Studio |
Пользовательская нейронная версия 4.0 v3.1 v3.0 | Аналитика документов 3.1 | Пакет SDK для аналитики документов | Document Intelligence Studio |
Пользовательская форма версии 2.1 | API аналитики документов 2.1 | Пакет SDK для аналитики документов | Средство маркировки данных |
Примечание.
Модели настраиваемого шаблона, обученные с помощью API 3.0, будут иметь несколько улучшений по сравнению с выделением корней в API 2.1, что связано с улучшениями в модуле OCR. Наборы данных, используемые для обучения модели настраиваемого шаблона с помощью API 2.1, по-прежнему можно использовать для обучения новой модели с помощью API 3.0.
Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Поддерживаемые форматы файлов: JPEG/JPG, PNG, BMP, TIFF и PDF (внедренный или отсканированный текст). PDF-файлы с внедренным текстом позволяют исключить возможность ошибки при извлечении и расположении символов.
Для файлов PDF и TIFF можно обработать до 2000 страниц. Для подписки уровня "Бесплатный" обрабатываются только две первые страницы.
Размер файла должен быть меньше 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Размер страницы PDF-файла не должен превышать 17 x 17 дюймов, что соответствует размеру листа Legal или A3.
Общий размер набора данных для обучения не должен превышать 500 страниц.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Совет
Обучающие данные.
- По возможности используйте текстовые документы PDF вместо документов на основе изображений. Отсканированные PDF-файлы обрабатываются как изображения.
- Укажите только один экземпляр формы для каждого документа.
- При использовании заполненных форм убедитесь, что в примере заполнены все поля.
- Используйте формы с разными значениями в каждом поле.
- Если изображения форм имеют низкое качество, используйте более крупный набор данных. Например, используйте от 10 до 15 изображений.
Поддерживаемые языки и языковые стандарты
Ознакомьтесь со страницей поддержки языка — пользовательские модели для полного списка поддерживаемых языков.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью средства проверки меток для аналитики документов.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.