Поделиться через


Советы по созданию помеченных наборов данных

Это содержимое относится к: версии 4.0 (предварительная версия) | Предыдущие версии:синяя галочка флажок v3.1 (GA) версии 3.0 (GA) синяя галочка

Это содержимое относится к: версия 3.1 (GA) | Последняя версия: фиолетовый флажокфлажок версия 4.0 (предварительная версия) | Предыдущие версии: синяя галочка v3.0

Это содержимое относится к: версии 3.0 (GA) | Последние версии:флажокфиолетовый флажок версии 4.0 (предварительная версия)фиолетовый флажок версии 3.1

Внимание

Рекомендации по созданию помеченных наборов данных применяются только к пользовательским шаблонам и пользовательским нейронным моделям для пользовательского генерирования, см. в статье Custom Generative

В этой статье описаны лучшие методы маркировки пользовательских наборов данных модели в Studio Document Intelligence. Документы с метками могут занять много времени при наличии большого количества меток, длинных документов или документов с различной структурой. Эти советы помогут вам эффективнее пометить документы.

Видео: рекомендации по пользовательским меткам

  • Следующее видео является вторым из двух презентаций, предназначенных для создания пользовательских моделей с более высокой точностью (первая презентация изучает , как создать сбалансированный набор данных).

  • Мы рассмотрим рекомендации по маркировке выбранных документов. При семантической и согласованной маркировке вы увидите улучшение производительности модели.

Теперь Студия включает в себя поле поиска для экземпляров, когда вы знаете, что вам нужно найти определенные слова для метки, но просто не знаю, где их найти в документе. Просто найдите слово или фразу и перейдите к определенному разделу в документе, чтобы пометить это событие.

Автоматические таблицы меток

Таблицы могут быть сложными для метки, если они имеют много строк или плотный текст. Если таблица макета извлекает нужный результат, следует просто использовать этот результат и пропустить процесс маркировки. В случаях, когда таблица макета не совсем нужна, можно начать с создания поля таблицы из извлекаемых значений. Начните с выбора значка таблицы на странице и нажмите кнопку автоматической метки. Затем можно изменить значения по мере необходимости. В настоящее время автоматическая метка поддерживает только таблицы с одной страницей.

Выбор смены

При маркировке большого диапазона текста, а не пометьте каждое слово в диапазоне, удерживайте клавишу SHIFT при выборе слов, чтобы ускорить маркировку и убедиться, что в диапазоне текста не пропускаются слова.

Метки регионов

Второй вариант маркировки большего диапазона текста — использовать маркировку регионов. При использовании OCR меток региона результаты заполняются значением во время обучения. Разница между выделением смены и меткой региона находится только в визуальном отзыве, что обеспечивает подход к метке сдвигов.

Перекрывающиеся поля меток

Перекрывающиеся поля поддерживаются для полей и ячеек таблицы. Если вы ожидаете, что результаты анализа будут содержать перекрывающиеся поля, следует добавить хотя бы один пример в набор данных обучения с определенным полем перекрывается метками. Чтобы пометить перекрывающееся поле, используйте функцию маркировки регионов, чтобы выбрать регионы для каждого поля. Поддерживаются как полные, так и частичные перекрытия. Любое одно слово в документе может быть помечено только для двух полей.

Подтипы полей

При создании поля выберите правильный подтип, чтобы свести к минимуму после обработки, например, выберите dmy параметр для дат для извлечения значений dd-mm-yyyy в формате.

Следующие шаги