Используйте предварительно созданную модель для извлечения сведений из простых документов в Microsoft Syntex
Простая модель обработки документов предлагает гибкое предварительно обученное решение для извлечения информации из базовых структурированных документов, включая такие сведения, как:
Пары "ключ—значение " — думайте о таких типах, как метки и соответствующие сведения, например "Имя: Адель Вэнс".
Метки выделения — это флажки или другие знаки, указывающие на выбор или выделение в документе.
Именованные сущности . Это конкретные элементы, такие как имена людей, места или организации, упомянутые в тексте документа.
Штрихкоды — это машиночитаемые представления данных, которые можно использовать для отслеживания или идентификации в документе.
В отличие от других предварительно созданных моделей с фиксированными схемами, эта модель может определять ключи, которые могут пропустить другие пользователи, предоставляя ценную альтернативу меткам и обучению пользовательских моделей. Эта модель также поддерживает штрихкоды и обнаружение языка.
Типы документов
Простая обработка документов лучше всего подходит для типов документов, содержащих структурированную информацию, например:
Forms — они часто имеют четкие поля и метки, что упрощает извлечение пар "ключ—значение".
Счета — обычно включают согласованные макеты с таблицами и парами "ключ—значение".
Квитанции . Как и в счетах, они имеют структурированные данные, которые можно легко извлечь.
Контракты — содержат четко определенные разделы и предложения, которые можно эффективно проанализировать.
Банковские выписки — включают таблицы и структурированные данные, которые идеально подходят для извлечения.
В этих документах используются возможности оптического распознавания символов (OCR) и процессы глубокого обучения, используемые для извлечения пар "ключ—значение", выделенных меток, таблиц и именованных сущностей.
Примечание.
В настоящее время эта модель доступна для файлов .pdf и файлов изображений и на более чем 100 языках. В будущих выпусках будут добавлены другие поддерживаемые типы файлов.
Чтобы использовать простую модель обработки документов, выполните следующие действия.
- Шаг 1 . Создание модели
- Шаг 2. Отправка примера файла для анализа
- Шаг 3. Выбор средств извлечения для модели
- Шаг 4. Применение модели
Шаг 1. Создание модели
Следуйте инструкциям в разделе Создание модели в Syntex , чтобы создать простую модель обработки документов. Затем выполните следующие действия, чтобы завершить работу с моделью.
Шаг 2. Отправка примера файла для анализа
На странице Модели в разделе Добавление файла для анализа выберите Добавить файл.
На странице Файлы для анализа модели выберите Добавить , чтобы найти нужный файл.
На странице Добавление файла из библиотеки файлов обучения выберите файл и нажмите кнопку Добавить.
На странице Файлы для анализа модели нажмите кнопку Далее.
Шаг 3. Выбор средств извлечения для модели
На странице сведений о средстве извлечения вы увидите область документа справа от страницы и панель "Извлекатели " слева. На панели "Извлекатели " отображается список средств извлечения, определенных в документе.
Поля сущностей, выделенные зеленым цветом в области документа, представляют собой элементы, обнаруженные моделью при анализе файла. При выборе извлекаемой сущности выделенное поле меняется на синий. Если позже вы решите не включать сущность, выделенное поле изменится на серый. Выделенные элементы упрощают просмотр текущего состояния выбираемых средств извлечения.
Совет
Чтобы увеличить или уменьшить масштаб для чтения полей сущности, используйте колесико прокрутки мыши или элементы управления масштабированием в нижней части области документа.
Выбор сущности средства извлечения
Вы можете выбрать средство извлечения в области документа или на панели "Извлекатели " в зависимости от ваших предпочтений.
- Чтобы выбрать средство извлечения из области документа, выберите поле сущности.
- Чтобы выбрать средство извлечения на панели Извлекатели , в столбце Извлечение установите соответствующий флажок справа от имени сущности.
При выборе средства извлечения в области документа отображается поле Select extractor? . В поле отображается имя ключа (имя, созданное для средства извлечения), обнаруженное значение (значение этого поля в документе), тип столбца и параметр для выбора сущности в качестве средства извлечения.
Имя ключа используется в качестве имени столбца при применении модели к библиотеке SharePoint. Вы можете изменить имя ключа, чтобы оно было более описательным, если хотите. Тип столбца показывает, как информация отображается в библиотеке. Вы можете изменить тип столбца, чтобы показать, как должны отображаться сведения. При применении модели к библиотеке можно использовать форматирование столбцов, чтобы указать, как она будет выглядеть в документе.
Выберите другие средства извлечения, которые вы хотите использовать. Вы также можете добавить другие файлы для анализа этой конфигурации модели.
Переименование средства извлечения
Существует три способа переименовать средство извлечения:
В области документа на странице сведений о средстве извлечения выберите поле сущности. В поле Выбор извлекателя? в поле Имя ключа введите новое имя средства извлечения.
На панели "Извлекатели " на странице сведений о средстве извлечения выберите средство извлечения, которое нужно переименовать, а затем выберите Переименовать.
На домашней странице модели в разделе Средства извлечения выберите средство извлечения, которое требуется переименовать, а затем выберите Переименовать.
Настройка диапазона страниц для обработки
Для этой модели можно указать для обработки диапазона страниц для файла, а не для всего файла. На панели Извлекатели в разделе Диапазон страниц выберите страницу, которую требуется обработать. По умолчанию параметр Диапазон страниц пуст. Если диапазон страниц не указан, обрабатывается весь документ. Дополнительные сведения см. в разделе Настройка диапазона страниц для извлечения сведений из определенных страниц.
Определение языка документа
В этой модели можно определить язык документа и извлечь его в столбец. На панели Извлекатели в разделе Распознавание языка установите переключатель, чтобы включить обнаружение языка. Здесь отображается код ISO обнаруженного языка.
Вы также можете включить или отключить обнаружение языка на панели параметров модели для модели.
Шаг 4. Применение модели
Чтобы сохранить изменения и вернуться на домашнюю страницу модели, на панели Извлекатели выберите Сохранить и выйти.
Если вы готовы применить модель к библиотеке, в области документа нажмите кнопку Далее. На панели Добавить в библиотеку выберите библиотеку, в которую вы хотите добавить модель, а затем нажмите кнопку Добавить.
Сведения о типах файлов, языках, оптическом распознавании символов и других рекомендациях для этой предварительно созданной модели см. в статье Требования и ограничения для предварительно созданной обработки документов в SharePoint.