Изменить

Поделиться через


Создание и развертывание пользовательских моделей обработки документов в Azure

Аналитика документов ВИ Azure
Службы ИИ Azure
Azure Logic Apps
Студия машинного обучения Azure
Хранилище Azure

В этой статье описываются решения Azure для создания, обучения, развертывания и использования пользовательских моделей обработки документов. Эти службы Azure также предоставляют возможности пользовательского интерфейса для маркировки или добавления тегов текста во время обработки.

Архитектура

диаграмме, которая содержит несколько альтернативных вариантов для процесса сборки и развертывания модели пользовательской обработки документов.

Схема, демонстрирующая несколько альтернативных вариантов для процесса сборки и развертывания пользовательской модели обработки документов. Этот поток данных начинается с оркестраторов, таких как Azure Logic Apps, Функции Azure или Фабрика данных Azure. Эти оркестраторы обрабатывают сообщения, вложения электронной почты и файлы из таких источников, как почтовые серверы, FTP-серверы или веб-приложения. Затем данные хранятся в хранилище BLOB-объектов Azure или Azure Data Lake Storage и организованы атрибутами, такими как расширения файлов или сведения о клиенте. Затем он используется для обучения пользовательских моделей с такими инструментами, как Document Intelligence Studio для извлечения пар "ключ-значение" или классификации документов, Language Studio для пользовательской классификации текста и распознавания именованных сущностей (NER), Машинного обучения Azure для расширенных рабочих процессов с помощью таких платформ, как PyTorch или TensorFlow, или Azure OpenAI Service для точной настройки моделей для таких задач, как сводка или Q&A. Наконец, обученные модели развертываются для вывода с помощью пакетов SDK, REST API, управляемых конечных точек или службы Azure Kubernetes с поддержкой вывода в режиме реального времени и пакетной обработки.

Скачайте файл Visio для этой архитектуры.

Поток данных

Следующий поток данных соответствует предыдущей схеме:

  1. Оркестраторы, такие как Azure Logic Apps, Фабрика данных Azure или Функции Azure, принимаются сообщения и вложения с почтовых серверов и файлов из серверов протокола передачи файлов или веб-приложений.

    • Функции и Logic Apps обеспечивают бессерверные рабочие нагрузки. Выбранная служба зависит от возможностей службы, таких как разработка, соединители, управление и операционный контекст. Дополнительные сведения см. в разделе Compare Functions and Logic Apps.

    • Рекомендуется использовать фабрику данных Azure для массового перемещения данных.

  2. Оркестраторы отправляют прием данных в хранилище BLOB-объектов Azure или Azure Data Lake Storage. Они упорядочивают данные в этих хранилищах на основе характеристик, таких как расширения файлов или сведения о клиенте.

  3. Следующие службы Azure можно использовать независимо или в сочетании для обучения документов и создания пользовательских моделей для решения различных вариантов использования.

    • Document Intelligence Studio. Если документу требуется извлечь пары "ключ-значение" или создать пользовательскую таблицу из изображения или PDF, используйте Document Intelligence Studio, чтобы пометить данные и обучить пользовательскую модель. Если существует требование определить тип документа, который называется классификации документов, перед вызовом правильной модели извлечения используйте Document Intelligent Studio для маркировки документов и создания моделей.

    • Language Studio: для классификации документов на основе содержимого или извлечения сущностей для конкретного домена можно обучить пользовательскую классификацию текста или модель распознавания именованных сущностей (NER) в Language Studio.

    • студии машинного обучения Azure. Для маркировки данных для классификации текста или извлечения сущностей, используемых с платформами с открытым исходным кодом, например PyTorch или TensorFlow, используйте студии машинного обучения, пакет SDK для Python Python, Azure CLI илиREST API. Студия машинного обучения предоставляет каталог моделей базовых моделей. Эти базовые модели имеют возможности точной настройки для различных задач, таких как классификация текста, ответы на вопросы и сводка. Чтобы точно настроить базовые модели, используйте пользовательского интерфейса студии машинного обучения или кода.

    • Azure OpenAI Service. Чтобы точно настроить модели Azure OpenAI на собственных данных или домене для различных задач, таких как сводка текста и ответы на вопросы, используйте портале Azure AI Foundry, пакет SDK для Pythonили REST API.

  4. Чтобы развернуть пользовательские модели и использовать их для вывода:

    • Служба "Аналитика документов Azure" имеет встроенное развертывание модели. Вывод с пользовательскими моделями выполняется с помощью пакетов SDK или моделей документов REST API. Имя модели или имя модели, указанное во время создания модели, включается в URL-адрес запроса для анализа документов. Аналитика документов не требует дальнейших шагов развертывания.

    • Language Studio предоставляет возможность развертывания пользовательских языковых моделей. Получите конечную точку REST URL-адрес прогнозирования, выбрав модель для развертывания. Вы можете выводить модели с помощью конечной точки REST или клиентских библиотек Пакета SDK Azure.

    • Машинное обучение развертывает пользовательские модели в сети или пакетной Машинное обучение управляемых конечных точек. Пакет SDK машинного обучения можно также использовать для развертывания в службе Azure Kubernetes (AKS) в качестве веб-службы. Точно настроенные базовые модели можно развертывать из каталога моделей с помощью управляемых вычислений или бессерверных API. Модели, развернутые с помощью управляемых вычислений, можно определить с помощью управляемых конечных точек, которые включают сетевые конечные точки для вывода в режиме реального времени и пакетных конечных точек для пакетного вывода.

    • Azure AI Foundry предоставляет возможности для развертывания точно настроенных моделей Azure OpenAI. Вы также можете развернуть точно настроенные модели Azure OpenAI с помощью пакета SDK для Python или REST API.

Компоненты

  • Logic Apps входит в состав Служб Azure Integration Services. Logic Apps создает автоматизированные рабочие процессы, которые интегрируют приложения, данные, службы и системы. Вы можете использовать управляемые соединители для таких служб, как служба хранилища Azure и Microsoft 365, чтобы активировать рабочие процессы при поступлении файла в учетную запись хранения или сообщение электронной почты.

  • фабрике данных Azure — это управляемая облачная служба извлечения, преобразования и загрузки для интеграции и преобразования данных. Фабрика данных Azure может добавлять действия преобразования в конвейер, который включает вызов конечной точки REST или выполнение записной книжки для приема данных.

  • Функции — это бессерверная служба вычислений, которая может размещать рабочие нагрузки на основе событий с короткими процессами.

  • Хранилище BLOB-объектов — это решение хранилища объектов для необработанных файлов в этом сценарии. Хранилище BLOB-объектов поддерживает библиотеки для нескольких языков, таких как .NET, Node.js и Python. Приложения могут получить доступ к файлам в хранилище BLOB-объектов через HTTP или HTTPS. Хранилище BLOB-объектов имеет горячие, холодные и архивные уровни доступа для поддержки оптимизации затрат для хранения больших объемов данных.

  • Data Lake Storage — это набор возможностей, основанных на хранилище BLOB-объектов для аналитики больших данных. Data Lake Storage поддерживает экономичность хранилища BLOB-объектов и предоставляет такие функции, как безопасность на уровне файлов и семантика файловой системы с иерархическим пространством имен.

  • аналитика документов является компонентом служб ИИ Azure. Аналитика документов имеет встроенные возможности анализа документов для извлечения печатных и рукописных пар, таблиц и пар "ключ-значение". Аналитика документов имеет предварительно созданные модели для извлечения данных из счетов, документов, квитанций, идентификаторов и визитных карточек. Аналитика документов также содержит пользовательскую модель формы шаблона и пользовательскую модель нейронного документа, которую можно использовать для обучения и развертывания пользовательских моделей.

  • Document Intelligence Studio предоставляет интерфейс для изучения функций и моделей аналитики документов. Он также позволяет создавать, тегировать, обучать и развертывать пользовательские модели.

  • язык ИИ Azure объединяет службы обработки естественного языка Azure (NLP). Этот набор предоставляет предварительно созданные и настраиваемые параметры.

  • Language Studio предоставляет пользовательский интерфейс, который можно использовать для изучения и анализа функций языка. Он также предоставляет варианты создания, добавления тегов, обучения и развертывания пользовательских моделей.

  • машинного обучения Azure — это управляемая платформа машинного обучения для разработки и развертывания моделей в масштабе.

  • Azure OpenAI предоставляет мощные языковые модели и многомодальные модели в качестве интерфейсов REST API, которые можно использовать для выполнения различных задач. Конкретные модели можно точно настроить, чтобы повысить производительность модели на данных, отсутствующих или недопредставленных при первоначальной подготовке базовой модели.

Альтернативные варианты

В этот сценарий можно добавить дополнительные рабочие процессы на основе конкретных вариантов использования.

  • Если документ является изображением или PDF-файлом, данные можно извлечь с помощью оптическогораспознавания символов Azure, API чтения документовили библиотек с открытым исходным кодом.

  • Предварительно созданную модель можно использовать на языке для документа и сводки бесед.

  • Используйте предварительный код для выполнения действий по обработке текста. К этим шагам относятся очистка, удаление слов остановки, лемматизация, стебливание и сводка текста по извлеченным данным в соответствии с требованиями к обработке документов. Вы можете предоставить код в виде REST API для автоматизации. Вручную выполните или автоматизируйте эти действия, интегрируя Logic Apps или функции приема.

  • Вы можете изучить модели Azure OpenAI и коллекцию базовых моделей в каталога моделей. Вы также можете использовать портале Azure AI Foundry для точной настройки и развертывания базовых моделей и создания созданных приложений ИИ. Так как между Машинным обучением и Azure AI Foundry есть перекрытие, необходимо оценить свои возможности и выбрать оптимальную платформу для вашего сценария.

  • Для создания пользовательского анализатора можно использовать Azure AI Content Understanding, определив схему полей для извлечения структурированных данных из документа.

Подробности сценария

Обработка документов охватывает широкий спектр задач. Трудно удовлетворить все потребности в обработке документов с помощью предварительно созданных моделей, доступных в службе "Язык" и "Аналитика документов". Возможно, потребуется создать пользовательские модели для автоматизации обработки документов для различных приложений и доменов.

К основным проблемам при настройке модели относятся следующие:

  • Маркировка или добавление текстовых данных с соответствующими сущностями пары "ключ-значение", чтобы классифицировать текст для извлечения.

  • Управление инфраструктурой обучения, например вычислительными ресурсами и хранилищем, а также их интеграцией.

  • Безопасное развертывание моделей в масштабе для простой интеграции с потребляющими приложениями.

Потенциальные варианты использования

Следующие варианты использования могут использовать пользовательские модели для обработки документов:

  • Создание пользовательских моделей классификации NER и текста на основе платформ с открытым исходным кодом.

  • Извлеките пользовательские ключевые значения из документов для различных отраслевых вертикали, таких как страхование и здравоохранение.

  • Пометьте и извлеките определенные сущности, зависящие от домена, за пределами предварительно созданных моделей NER для таких доменов, как безопасность или финансы.

  • Создание настраиваемых таблиц из документов.

  • Извлечение подписей.

  • Метка и классификация сообщений электронной почты или других документов на основе содержимого.

  • Суммируйте документы или создайте пользовательские модели вопросов и ответов на основе данных.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая представляет собой набор руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в разделе Well-Architected Framework.

В этом примере рабочей нагрузки реализация каждого компонента зависит от оптимальной настройки и использования каждой службы Azure компонентов.

Надежность

Надежность помогает гарантировать, что ваше приложение может выполнять обязательства, которые вы выполняете для клиентов. Дополнительные сведения см . в контрольном списке проверки конструктора для обеспечения надежности.

Availability

Устойчивость

  • Устранение сбоев отдельных служб, таких как Функции и хранилище, для обеспечения устойчивости вычислительных служб и хранилищ данных в этом сценарии. Дополнительные сведения см . в контрольном списке устойчивости для конкретных служб Azure.

  • резервное копирование и восстановление моделей аналитики документов.

  • Резервное копирование и восстановление пользовательских моделей классификации текста и моделей NER на языке.

  • Машинное обучение зависит от составляющих служб, таких как хранилище BLOB-объектов, вычислительные службы и AKS. Чтобы обеспечить устойчивость машинного обучения, настройте каждую из этих служб, чтобы обеспечить устойчивость. Дополнительные сведения см. в отработки отказа для обеспечения непрерывности бизнес-процессов и аварийного восстановления (BCDR).

  • Для Azure OpenAI помогите обеспечить непрерывную доступность, подготовив два или более ресурсов Azure OpenAI в разных регионах. Этот подход позволяет выполнить отработку отказа в другой регион, если возникла проблема. Дополнительные сведения см. в статье BCDR сAzure OpenAI.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и неправильного использования ценных данных и систем. Дополнительные сведения см. в контрольном списке проверки конструктора для безопасности.

Реализуйте рекомендации по защите данных, управлению удостоверениями и доступом, а также рекомендациям по безопасности сети для хранилища BLOB-объектов, службах ИИ для аналитики документов и языковой студии, машинного обученияи Azure OpenAI.

Оптимизация затрат

Оптимизация затрат фокусируется на способах сокращения ненужных расходов и повышения эффективности работы. Дополнительные сведения см . в контрольном списке проверки конструктора для оптимизации затрат.

Общая стоимость реализации этого решения зависит от ценообразования выбранной службы.

К основным затратам для этого решения относятся:

Дополнительные сведения о ценах на определенные компоненты см. в следующих ресурсах:

Используйте калькулятор цен Azure, чтобы добавить параметры компонента, которые вы выбрали и оценить общую стоимость решения.

Уровень производительности

Эффективность производительности — это способность рабочей нагрузки эффективно масштабироваться в соответствии с требованиями пользователей. Дополнительные сведения см . в контрольном списке проверки конструктора для повышения эффективности.

Масштабируемость

Соавторы

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

Автор субъекта:

  • Jyotsna Ravi | Старший инженер клиента

Чтобы просматривать непубличные профили LinkedIn, войдите в LinkedIn.

Следующие шаги