Поделиться через


Часто задаваемые вопросы о пользовательском распознавании именованных сущностей

Найдите ответы на часто задаваемые вопросы о концепциях и сценариях, связанных с пользовательским NER на языке ИИ Azure.

Как начать работу со службой?

Для получения дополнительных сведений ознакомьтесь с кратким руководством по быстрому созданию первого проекта или статьей Создание проектов.

Каковы ограничения службы?

Подробнее см. в сведениях об ограничениях службы.

Сколько файлов с тегами требуется?

Как правило, разнообразные и репрезентативные данные с тегами дают лучшие результаты, учитывая, что теги добавлены точно, согласованно и ко всем данным. Конкретное количество помеченных тегами экземпляров, которое обеспечит эффективную работу каждой модели, не установлено. Производительность сильно зависит от выбранной вами схемы и ее неоднозначности. Для неоднозначных типов сущностей требуется больше тегов. Производительность также зависит от качества расстановки тегов. Рекомендуемое количество экземпляров с тегами для каждого класса — 50.

Всегда ли обучение занимает много времени?

Процесс обучения может занять много времени. Так, на обучение с помощью файлов, суммарно содержащих 12 800 000 символов, потребуется 6 часов.

Как создать настраиваемую модель программным способом?

Примечание.

В настоящее время модель можно создать только с помощью REST API или Language Studio.

Для создания настраиваемых моделей можно использовать интерфейсы REST API. Ознакомьтесь с этим кратким руководством, чтобы приступить к созданию проекта и построению модели с помощью интерфейсов API, а также просмотреть примеры вызова API разработки.

Когда вы будете готовы приступить к использованию модели для прогнозирования, вы можете использовать REST API или клиентскую библиотеку.

В одном проекте можно обучить несколько моделей на одном и том же наборе данных. После успешного обучения модели можно просмотреть ее производительность. Вы можете развернуть и протестировать модель в Language Studio. Вы можете добавлять или удалять метки из данных и обучать новую модель и тестировать ее. Просмотрите ограничения службы, чтобы узнать максимальное количество обученных моделей для одного проекта. При обучении модели можно определить, как набор данных разбивается на наборы обучения и тестирования. Вы также можете разделить данные на наборы для обучения и тестирования случайным образом. При этом нет никакой гарантии, что отраженная оценка модели относится к одному и тому же проверочному набору, а это значит, что результаты несопоставимы. Рекомендуется разработать собственный тестовый набор и использовать его для оценки обеих моделей, чтобы можно было измерять улучшение.

Гарантирует ли низкая или высокая оценка модели плохую или хорошую производительность в рабочей среде?

Оценка модели не всегда может быть исчерпывающей. Это зависит от следующих факторов:

  • Если тестовый набор слишком мал, хорошие/плохие оценки не отражают фактическую производительность модели. Кроме того, если определенный тип сущности отсутствует или недостаточно представлен в тестовом наборе, это повлияет на производительность модели.
  • Разнообразие данных. Если ваши данные охватывают только несколько сценариев или примеров текста, которые ожидаются в рабочей среде, то модель не подвергнется всем возможным сценариям и может работать плохо в тех из них, на которых она не была обучена.
  • Представление данных. Если набор данных, используемый для обучения модели, не является репрезентативным по отношению к данным, которые будут вводится в модель в рабочей среде, производительность модели будет существенно снижена.

Дополнительные сведения приведены в статье Выбор данных и проектирование схемы.

Как повысить производительности модели?

  • Просмотрите матрицу неточностеймодели. Если вы заметили, что определенный тип сущности часто прогнозируется неправильно, рассмотрите возможность добавления к этому классу большего количества экземпляров с тегами. Если вы заметите, что два типа сущностей часто прогнозируются друг друга, это означает, что схема неоднозначна, и следует рассмотреть возможность объединения их в один тип сущности для повышения производительности.

  • Проверка прогнозов набора тестов Если у одного из типов сущности намного больше помеченных тегами экземпляров по сравнению с другими, это может указывать на смещение модели в сторону этого типа. Добавьте дополнительные данные к другим типам сущности или удалите большую часть примеров из доминирующего типа.

  • Ознакомьтесь с дополнительными сведениями о выборе данных и проектировании схемы.

  • Просмотрите свой тестовый набор, чтобы увидеть прогнозируемые и помеченные тегами сущности рядом друг с другом и получить более ясное представление о производительности модели, а также решить, какие изменения в схеме или тегах необходимы.

Почему при переобучении модели я получаю разные результаты?

  • При обучении модели можно указать, следует ли разделить данные на наборы для обучения и тестирования случайным образом. При этом нет никакой гарантии, что оценка модели выполняется на одном и том же проверочном наборе, следовательно, результаты несопоставимы.

  • Если вы переобучаете ту же модель, набор тестов будет таким же, но вы можете заметить небольшое изменение прогнозов, сделанных моделью. Это обусловлено недостаточной надежностью обученной модели, которая зависит от того, насколько репрезентативны и разнообразны ваши данные, а также от качества помеченных тегами данных.

Как получать прогнозы на разных языках?

Для начала необходимо включить параметр многоязычности при создании проекта. Вы также можете сделать это позже на странице настроек проекта. После обучения и развертывания модели можно начать направлять запросы на нескольких языках. Вы можете получить различные результаты для разных языков. Чтобы повысить точность любого языка, добавьте в проект дополнительные экземпляры с тегами на этом языке, чтобы лучше ознакомить обучаемую модель с его синтаксисом.

Я обучил свою модель, но не могу ее протестировать

Чтобы модель можно было протестировать, необходимо ее развернуть.

Как использовать обученную модель для создания прогнозов?

После развертывания модели необходимо вызвать API прогнозирования, используя либо REST API, либо клиентские библиотеки.

Конфиденциальность и безопасность данных

Пользовательское NER — это обработчик данных для целей Общего регламента по защите данных (GDPR). В соответствии с политиками GDPR пользователи пользовательского NER имеют полный доступ для просмотра, экспорта или удаления любого пользовательского содержимого с помощью Language Studio или программным путем с помощью интерфейсов REST API.

Ваши данные хранятся только в учетной записи службы хранилища Azure. Во время обучения пользовательское NER дает доступ только для чтения.

Как клонировать проект?

Чтобы клонировать проект, необходимо использовать API экспорта для экспорта ресурсов проекта, а затем импортировать их в новый проект. Подробнее об обеих операциях см. в справочнике по интерфейсам REST API.

Следующие шаги