Обучение неструктурированной модели обработки документов в Microsoft Syntex
Область применения: ✓ Обработка неструктурированных документов
Следуйте инструкциям в разделе Создание модели в Syntex , чтобы создать неструктурированную модель обработки документов в центре содержимого. Или следуйте инструкциям в разделе Создание модели на локальном сайте SharePoint , чтобы создать модель на локальном сайте. Затем начните с этой статьи, чтобы начать обучение модели.
Создание классификатора
Классификатор — это разновидность модели, с помощью которой можно автоматизировать определение и классификацию типов документов.
Например, вы можете определить все документы для продления контракта, добавленные в библиотеку документов, как показано на следующем рисунке.
Создание классификатора позволяет создать новый тип контента SharePoint, который будет связан с моделью.
При создании классификатора вам требуется создать объяснения, чтобы определить модель. Этот шаг позволяет заметить общие данные, которые должны постоянно находить этот тип документа.
Используйте примеры типа документа ("примеры файлов"), чтобы "обучить" модель определению файлов с таким же типом контента.
Чтобы создать классификатор, вам потребуется выполнить следующие действия:
- Присвоение имени модели.
- Добавьте примеры файлов.
- Пометьте примеры файлов.
- Создание объяснения.
- Протестируйте модель.
Примечание.
Ваша модель использует классификатор для определения и классификации типов документов, но вы также можете извлекать конкретные элементы информации из каждого файла, определенного моделью. Для этого создайте средство извлечения, чтобы добавить его в свою модель. См. статью Создание средства извлечения.
Присвоение имени модели
Первым шагом при создании модели является присвоение ей имени.
В центре содержимого выберите Создать, а затем — Модель.
На странице Параметры создания модели выберите Метод обучения.
На странице Метод обучения: сведения нажмите кнопку Далее.
На странице Создание модели с методом обучения в поле Имя модели введите имя модели. Например, если вы хотите определить документы для продления контракта, можно назвать модель Продление контракта.
Нажмите Создать. Это действие создает домашнюю страницу модели.
При создании модели вы также создаете новый тип контента сайта. Тип контента представляет категорию документов с общими характеристиками и коллекцией столбцов или свойств метаданных для определенного контента. Управление типами контента SharePoint осуществляется с помощью коллекции типов контента. В этом примере при создании модели создается новый тип контента "Продление контракта ".
Выберите Дополнительные параметры, если вы хотите сопоставить эту модель с существующим корпоративным типом контента в коллекции типов контента SharePoint, чтобы использовать ее схему. Корпоративные типы контента хранятся в центре типов контента в Центре администрирования SharePoint и являются общими для всех сайтов в клиенте. Обратите внимание, что хотя существующий тип контента можно использовать для использования его схемы для идентификации и классификации, все равно необходимо обучить модель извлечению информации из идентифицировать файлы.
Добавление примеров файлов
На домашней странице модели добавьте файлы примеров, необходимые для обучения модели для определения типа документа.
Примечание.
Вам следует использовать одинаковые файлы как для классификатора, так и для обучения средства извлечения. Вы всегда можете добавить другие файлы позже, но обычно добавляется полный набор примеров файлов. Пометьте некоторые из них, чтобы обучить свою модель, и протестируйте остальные файлы без меток, чтобы оценить пригодность модели.
В качестве обучающего набора следует использовать положительные и отрицательные примеры:
- Положительный пример: документы, представляющие тип документа. Они содержат строки и сведения, которые всегда будут присутствовать в этом типе документа.
- Отрицательный пример. Любой другой документ, который не представляет документ, который требуется классифицировать.
Используйте не менее пяти положительных примеров и хотя бы один отрицательный пример, чтобы обучить свою модель. Вы хотите создать еще одну модель для тестирования модели после процесса обучения.
Добавление примеров файлов:
На домашней странице модели на плитке Добавить примеры файлов выберите Добавить файлы.
На странице Выберите примеры файлов для модели выберите примеры файлов из библиотеки учебных файлов в центре контента. Если вы еще не отправили их туда, выберите отправить их сейчас, нажав кнопку Отправить , чтобы скопировать их в библиотеку файлов обучения.
Выбрав примеры файлов для обучения модели, нажмите кнопку Добавить.
Пометка примеров файлов
После добавления примеров файлов вам требуется пометить их в качестве положительных или отрицательных примеров.
На домашней странице модели на плитке Классифицировать файлы и выполнить обучение выберите Обучение классификатора. На этом шаге отображается страница метки со списком примеров файлов, а первый файл отображается в средстве просмотра.
В средстве просмотра поверх первого примера файла вы увидите текст с вопросом, является ли файл примером для созданной вами модели. Если это положительный пример, выберите Да. Если это отрицательный пример, выберите Нет.
В списке Примеры с метками слева выберите дополнительные файлы, которые нужно использовать в качестве примеров, и пометьте их.
Примечание.
Пометьте как минимум пять положительных примеров. Вы также должны пометить хотя бы один отрицательный пример.
Создание объяснения
Следующее действие — создание объяснения на странице обучения. Объяснение помогает модели понять, как распознать документ. Например, документы для продления контракта всегда содержат текстовую строку Запрос дополнительного раскрытия информации.
Примечание.
При использовании со средствами извлечения объяснение определяет строку, которую нужно извлечь из документа.
Создание объяснения:
На домашней странице модели откройте вкладку Обучение, чтобы перейти на страницу обучения.
На странице обучения в разделе Подготовленные файлы вы увидите список примеров файлов, которые вы пометили ранее. Выберите один из положительных файлов из списка, и он отобразится в средстве просмотра.
В разделе объяснения выберите Создать, а затем — Пустое.
На странице Создание объяснения :
a. Введите имя (например, "блок раскрытия информации").
B. Выберите Тип. В качестве примера выберите Список фраз, так как вы добавляете текстовую строку.
C. В поле Введите здесь введите строку. В качестве примера добавьте "Запрос дополнительного раскрытия информации". Вы можете выбрать С учетом регистра, если требуется учитывать регистр строки.
г. Выберите Сохранить.Теперь центр контента проверяет, является ли созданное объяснение достаточно полным, чтобы правильно определить остальные помеченные примеры файлов как положительные и отрицательные. В разделе Обученные файлы просмотрите столбец Оценка после завершения обучения, чтобы увидеть результаты. Файлы имеют значение Соответствие, если созданные вами объяснения были достаточными, чтобы сопоставить помеченные файлы с положительными или отрицательными примерами.
Если вы видите значение Несоответствие для помеченных файлов, вам может потребоваться создать дополнительное объяснение, чтобы предоставить модели больше сведений для определения типа документа. Если возникает несоответствие, выберите файл, чтобы получить дополнительные сведения о причинах несоответствия.
После обучения средства извлечения его можно использовать как объяснение. В разделе Объяснения оно отображается как Ссылка модели.
Тестирование модели
Если вы получили совпадение в помеченных файлах примеров, теперь вы можете протестировать модель на оставшихся файлах примеров без меток, которые модель не видела ранее. Этот шаг необязателен, но это полезный шаг для оценки "пригодности" или готовности модели перед ее использованием путем ее тестирования в файлах, которые модель не видела ранее.
На домашней странице модели откройте вкладку Тестирование. Это запустит модель на примерах файлов без меток.
В списке Тестовые файлы отображаются ваши примеры файлов и указывается прогноз модели в их отношении: положительные или отрицательные. Используйте эти сведения, чтобы определить эффективность классификатора в определении ваших документов.