Поделиться через


Подготовка данных и определение схемы для пользовательский анализ текста для здоровья

Чтобы создать пользовательскую модель TA4H, вам потребуются качественные данные для обучения. В этой статье объясняется, как подойти к выбору и подготовке данных, а также определить схему. Определение схемы является первым шагом в жизненном цикле разработки проекта, и оно влечет за собой определение типов сущностей или категорий, необходимых для извлечения из текста во время выполнения.

Структура схемы

Пользовательская Анализ текста для работоспособности позволяет расширить и настроить Анализ текста для сопоставления сущностей работоспособности. Первым шагом процесса является создание схемы, которая позволяет определить новые типы сущностей или категории, необходимые модели для извлечения из текста в дополнение к Анализ текста для работоспособности существующих сущностей во время выполнения.

  • Просмотрите документы в своем наборе данных, чтобы ознакомиться с их форматом и структурой.

  • Определите сущности, которые нужно извлечь из данных.

    Например, из сообщений электронной почты от службы поддержки, возможно, вам потребуется извлечь такие сущности, как "имя клиента", "название продукта", "дата запроса" и "контактная информация".

  • Избегайте неоднозначности типов сущностей.

    Неоднозначность возникает, когда выбранные вами типы сущностей похожи друг на друга. Чем более неоднозначна схема, тем больше данных с метками может потребоваться для различения типов сущностей.

    Например, для извлечения сущностей "название первой стороны" и "название второй стороны" из юридического контракта нужно будет добавить дополнительные примеры для предотвращения неоднозначности, так как используются схожие названия сторон. Предотвращая неоднозначность, вы экономите время и усилия, а также получаете более качественные результаты.

  • Избегайте сложных сущностей. Сложные сущности обычно трудно выбирать из текста, поэтому их можно разбить на несколько сущностей.

    Например, будет сложно извлечь сущность "адрес", если не разбить ее на меньшие сущности. Есть много вариантов отображения адреса. Чтобы обучить модель, потребуется множество сущностей с метками для извлечения адресов в целом, без разбивки на меньшие сущности. Но если изменить "адрес" на "название улицы", "почтовый ящик", "город", "штат" и "индекс", модели потребуется меньше меток для каждой сущности.

Добавить сущности

Чтобы добавить сущности в проект, выполните следующие действия.

  1. Перейдите к сводке Сущности в верхней части страницы.

  2. Анализ текста для сущностей работоспособности автоматически загружаются в проект. Чтобы добавить дополнительные категории сущностей, выберите " Добавить " в верхнем меню. Перед созданием сущности вам будет предложено ввести имя.

  3. После создания сущности вы будете перенаправлены на страницу сведений о сущности, где можно определить параметры композиции для этой сущности.

  4. Сущности определяются компонентами сущностей: обучаемыми, списками или предварительно созданными. Анализ текста для сущностей работоспособности по умолчанию заполняются предварительно созданным компонентом и не могут быть изучены компоненты. Новые сущности можно заполнить компонентом, который вы научились после добавления меток для них в данные, но не может быть заполнен предварительно созданным компонентом.

  5. Компонент списка можно добавить в любой из сущностей.

Добавление компонента списка

Чтобы добавить компонент списка, выберите Добавить новый компонент списка. В каждую сущность можно добавить несколько списков.

  1. Чтобы создать новый список, в текстовом поле Ввод значения введите нормализованное значение, которое будет возвращаться при извлечении любого из значений синонимов.

  2. Для многоязычных проектов в раскрывающемся меню языка выберите язык списка синонимов и начните вводить синонимы и нажмите клавишу ВВОД после каждого из них. Рекомендуется иметь списки синонимов на нескольких языках.

Определение параметров сущности

Перейдите на сводку Параметры сущности на странице сведений о сущности. Если для сущности определено несколько компонентов, их прогнозы могут перекрываться. При возникновении перекрывания окончательный прогноз каждой сущности определяется с учетом параметра сущности, выбранного на этом шаге. Выберите тот, который вы хотите применить к этой сущности, и нажмите кнопку "Сохранить " в верхней части.

После создания сущностей можно вернуться и изменить их. Вы можете изменить компоненты сущности или удалить их, выбрав этот параметр в верхнем меню.

Выбор данных

Качество данных, с помощью которых обучается модель, значительно влияет на ее производительность.

  • Используйте реальные данные, отражающие проблемный участок вашей области применения, чтобы эффективно обучить модель. Искусственные данные могут ускорить начальное обучение модели, но, вероятнее всего, они будут отличаться от реальных и модель будет менее эффективной при использовании.

  • Максимально сбалансируйте распределение данных, не слишком отклоняясь от реального распределения. Например, когда модель обучается извлекать сущности из юридических документов различных форматов и на различных языках, предоставьте примеры, демонстрирующие разнообразие, ожидаемое в реальных условиях.

  • При возможности используйте самые разнообразные данные, чтобы избежать лжевзаимосвязи в модели. Недостаточное разнообразие в обучающих данных может привести к ложным корреляциям модели, которых может не быть в реальных данных.

  • Избегайте дублирования документов в данных. Дублирование данных негативно влияет на обучение, метрики и производительность модели.

  • Учитывайте источники своих данных. Если данные поступают от одного человека, из одного отдела или в результате работы над одной частью вашего сценария, вероятнее всего, они будут недостаточно разнообразны и ваша модель будет лишена важных элементов для обучения.

Примечание.

Если у вас документы на нескольких языках, во время создания проекта выберите параметр несколько языков и задайте язык, использующийся в большинстве ваших документов.

Подготовка данных

Чтобы создать проект, необходимо отправить обучающие данные в контейнер больших двоичных объектов в вашей учетной записи хранения. Вы можете создавать и отправлять обучающие документы непосредственно из Azure или с помощью средства "Обозреватель службы хранилища Azure". Средство "Обозреватель службы хранилища Azure" позволяет быстро отправлять большие объемы данных.

Можно использовать только документы .txt. Если данные имеют другой формат, вы можете изменить формат документа с помощью команды анализа CLUtils.

Вы можете отправить набор данных с заметками или без них, добавив к данным метки в Language Studio.

Тестовый набор

При определении тестового набора обязательно включите примеры документов, которые отсутствуют в обучающем наборе. Определение тестового набора — важный шаг для вычисления производительности модели. Кроме того, убедитесь, что набор тестирования содержит документы, представляющие все сущности, используемые в проекте.

Следующие шаги

Если вы еще не сделали этого, создайте проект пользовательский анализ текста для здоровья. Если вы впервые используете пользовательский анализ текста для здоровья, попробуйте выполнить краткое руководство по созданию примера проекта. Дополнительные сведения о том, что нужно для создания проекта, см. в статье с практической информацией.