Обзор типов моделей в Microsoft Syntex
Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели
Понимание содержимого в Microsoft Syntex начинается с моделей обработки документов. Модели обработки документов позволяют выявлять и классифицировать документы, которые отправляются в библиотеки документов SharePoint, а затем извлекать необходимые сведения из каждого файла.
При применении к библиотеке документов SharePoint модель связана с типом контента и содержит столбцы для хранения извлекаемых сведений. Созданный вами тип контента сохраняется в галерее типов контента SharePoint. Вы также можете пользоваться существующими типами контента, чтобы применять их схемы.
Syntex использует пользовательские модели и предварительно созданные модели.
Модели могут быть корпоративными моделями, созданными в центре содержимого, или локальными моделями, созданными на локальном сайте SharePoint.
Пользовательские модели
Выбранный тип пользовательской модели зависит от используемых типов файлов, формата и структуры файлов и места применения модели.
Пользовательские модели включают:
- Обработка неструктурированных документов
- Обработка документов в свободной форме
- Структурированная обработка документов
Дополнительные сведения о параллельных различиях в пользовательских моделях см. в статье Сравнение пользовательских моделей.
Обработка неструктурированных документов
Используйте неструктурированную модель обработки документов для автоматической классификации документов и извлечения информации из них. Эта функция лучше всего работает с неструктурированными документами, например с письмами и контрактами. Анализируемые документы должны содержать текст, который можно найти с помощью фраз или шаблонов. Обнаруженный текст определяет как тип файла (его классификатор), так и подлежащие извлечению данные (его экстракторы).
Например, неструктурированным документом может быть письмо о продлении контракта, которое может быть написано как угодно. Однако в тексте каждого документа о продлении контракта постоянно содержатся сведения, например текстовая строка "Дата начала службы", за которой следует фактическая дата.
Этот тип модели поддерживает самый широкий диапазон типов файлов и поддерживает более 40 языков.
При создании неструктурированной модели обработки документов используйте параметр Модель одного класса .
Дополнительные сведения см. в статье Общие сведения об обработке неструктурированных документов.
Обработка документов в свободной форме
Используйте модель обработки документов в свободной форме для автоматического извлечения информации из неструктурированных документов и документов свободной формы, таких как буквы и контракты, где информация может отображаться в любом месте документа.
Модели обработки документов в свободной форме используют Microsoft Power Apps AI Builder для создания и обучения моделей в Syntex.
Примечание.
Модель обработки документов в свободной форме пока недоступна в некоторых регионах. Дополнительные сведения см. в разделе Доступность компонентов по регионам.
Поскольку ваша организация получает письма и документы в большом количестве из различных источников, таких как почта, факс и электронная почта, обработка этих документов и их ввод вручную в базу данных может занять значительное время. Используя ИИ для извлечения текста и других сведений из этих документов, эта модель автоматизирует этот процесс.
Этот тип модели является оптимальным вариантом для документов в PDF-файлах или файлах изображений, если не требуется автоматическая классификация типа документа и поддерживает более 40 языков.
При создании модели обработки документов в свободной форме используйте параметр Модель извлечения свободной формы .
Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.
Структурированная обработка документов
Используйте структурированную модель обработки документов для автоматической идентификации значений полей и таблиц. Он лучше всего подходит для структурированных или частично структурированных документов, таких как формы и счета.
Структурированные модели обработки документов используют обработку документов Microsoft Power Apps AI Builder (прежнее название — обработка форм) для создания и обучения моделей в Syntex.
Этот тип модели поддерживает самый широкий диапазон языков и обучен понимать макет формы из примеров документов, а затем учится искать данные, необходимые для извлечения из аналогичных расположений. Forms обычно имеют более структурированный макет, где сущности находятся в одном расположении (например, номер социального страхования в налоговой форме).
При создании структурированной модели обработки документов используйте параметр Структурированная модель извлечения .
Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.
Готовые модели
Если вам не нужно создавать пользовательскую модель, можно использовать предварительно созданную модель обработки документов , которая уже обучена для конкретных структурированных документов.
К предварительно созданным моделям относятся:
- Обработка контракта
- Обработка счета
- Обработка квитанций
- Обработка конфиденциальной информации
- Простая обработка документов
Предварительно созданные модели предварительно обучены распознавать документы и структурированную информацию в документах. Вместо того, чтобы создавать новую пользовательскую модель с нуля, можно выполнить итерацию по существующей предварительно обученной модели, чтобы добавить определенные поля, которые соответствуют потребностям вашей организации.
Обработка контракта
Предварительно созданная модель обработки контракта анализирует и извлекает ключевую информацию из документов контракта. API анализирует контракты в различных форматах и извлекает ключевые сведения о контракте, такие как имя клиента или стороны, адрес выставления счетов, юрисдикция и дата окончания срока действия.
Дополнительные сведения о моделях обработки контрактов см. в разделе Использование предварительно созданной модели для извлечения сведений из контрактов.
Обработка счета
Предварительно созданная модель обработки счетов анализирует и извлекает ключевую информацию из счетов продаж. API анализирует счета в различных форматах и извлекает ключевые сведения о счете, такие как имя клиента, адрес выставления счетов, дата выполнения и сумма.
Дополнительные сведения о моделях обработки счетов см. в разделе Использование предварительно созданной модели для извлечения сведений из счетов.
Обработка квитанций
Предварительно созданная модель обработки квитанций анализирует и извлекает ключевую информацию из квитанций о продажах. API анализирует печатные и рукописные квитанции и извлекает ключевые сведения о квитанциях, такие как имя продавца, номер телефона продавца, дата транзакции, налог и итог транзакции.
Дополнительные сведения о моделях обработки квитанций см. в статье Использование предварительно созданной модели для извлечения сведений из квитанций.
Обработка конфиденциальной информации
Предварительно созданная модель обработки конфиденциальной информации анализирует, обнаруживает и извлекает ключевую информацию из документов. API анализирует контракты в различных форматах и извлекает ключевую конфиденциальную информацию, например номера социального страхования, номера финансовых счетов, идентификационные номера водительских удостоверений и другую личную информацию.
Дополнительные сведения о моделях обработки конфиденциальной информации см. в разделе Использование предварительно созданной модели для обнаружения конфиденциальной информации из документов.
Простая обработка документов
Предварительно созданная простая модель обработки документов предлагает гибкое предварительно обученное решение для извлечения пар "ключ—значение", меток выделения и именованных сущностей из базовых структурированных документов. В отличие от других предварительно созданных моделей с фиксированными схемами, эта модель может определять ключи, которые могут пропустить другие пользователи, предоставляя ценную альтернативу меткам и обучению пользовательских моделей. Эта модель также поддерживает штрихкоды и обнаружение языка.
Дополнительные сведения о простых моделях обработки документов см. в разделе Использование предварительно созданной модели для обнаружения конфиденциальной информации из документов.