Оценка важности функций
Внимание
Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора отменяется 1 октября 2026 года.
Вы можете оценить, насколько важна каждая функция для модели машинного обучения Персонализатора, проводя оценку функций в данных журнала журнала. Оценки функций полезны для следующих функций:
- Узнайте, какие функции являются наиболее важными для модели.
- Дополнительные функции мозгового штурма, которые могут быть полезны для обучения, производя вдохновение от того, какие функции в настоящее время важны в модели.
- Определите потенциально неподдерживаемые или не полезные функции, которые следует учитывать для дальнейшего анализа или удаления.
- Устранение распространенных проблем и ошибок, которые могут возникать при проектировании функций и отправке их персонализатору. Например, использование идентификаторов GUID, меток времени или других функций, которые обычно разрежены , могут быть проблемными. Узнайте больше об улучшении функций.
Что такое оценка функций?
Оценки функций выполняются путем обучения и запуска копии текущей конфигурации модели в исторически собранных данных журнала за указанный период времени. Функции игнорируются одновременно, чтобы оценить разницу в производительности модели и без каждой функции. Так как оценки функций выполняются для исторических данных, эти шаблоны не будут наблюдаться в будущих данных. Однако эти аналитические сведения по-прежнему могут быть актуальными для будущих данных, если зарегистрированные данные захватили достаточную вариативность или нестационарные свойства ваших данных. Производительность текущей модели не влияет на выполнение оценки компонентов.
Оценка важности признаков — это мера относительного влияния функции на вознаграждение в течение ознакомительного периода. Оценки важности признаков — это число от 0 до 100 (наиболее важных) и отображается в оценке функций. Так как оценка выполняется в течение определенного периода времени, важность функций может изменяться по мере отправки дополнительных данных персонализатору и по мере того, как пользователи, сценарии и изменения данных с течением времени.
Создание оценки компонентов
Чтобы получить оценки важности функций, необходимо создать оценку признаков за период зарегистрированных данных, чтобы создать отчет, содержащий оценки важности признаков. Этот отчет доступен для просмотра в портал Azure. Чтобы создать оценку признаков, выполните указанные действия.
- Перейдите на веб-сайт портал Azure
- Выбор ресурса Персонализатора
- Выберите раздел "Монитор" на боковой панели навигации
- Выберите вкладку "Компоненты"
- Выберите "Создать отчет" и появится новый экран
- Выберите имя отчета
- Выберите время начала и окончания для периода оценки
- Выберите "Создать отчет"
Затем имя отчета должно отображаться в таблице отчетов ниже. Создание оценки признаков — это длительный процесс, когда время завершения зависит от объема данных, отправляемых персонализатору в течение ознакомительного периода. Во время создания отчета столбец состояния будет указывать "Выполняется" для оценки и будет обновляться до "Успешно" после завершения. Периодически проверяйте данные, чтобы узнать, завершена ли оценка.
Вы можете выполнять несколько вычислений функций в течение различных периодов времени, когда ресурс Персонализатора содержит данные журнала. Убедитесь, что срок хранения данных достаточно длинный, чтобы вы могли выполнять оценки по старым данным.
Интерпретация показателей важности признаков
Функции с высокой оценкой важности
Функции с более высоким уровнем важности были более влиятельными для модели в период оценки по сравнению с другими функциями. Важные функции могут обеспечить вдохновение для проектирования дополнительных функций, которые будут включены в модель. Например, если вы видите контекстные функции "IsWeekend" или "IsWeekday" имеют высокую важность для продуктовых покупок, это может быть так, что праздники или длинные выходные также могут быть важными факторами, поэтому вы можете рассмотреть возможность добавления функций, которые фиксируют эту информацию.
Функции с низкой оценкой важности
Функции с низким уровнем важности являются хорошими кандидатами для дальнейшего анализа. Не все функции низкой оценки обязательно плохие или не полезные, так как низкие оценки могут возникать по одной или нескольким причинам. Приведенный ниже список поможет вам приступить к анализу того, почему ваши функции могут иметь низкие оценки:
Эта функция редко наблюдалась в данных в течение ознакомительного периода.
- Если количество вхождений этой функции низко по сравнению с другими функциями, это может указывать на то, что функция не присутствовала достаточно часто, чтобы определить, является ли она ценной или нет.
Значения признаков не имеют большого разнообразия или вариации.
- Если число уникальных значений для этой функции ниже, чем ожидалось, это может указывать на то, что эта функция не сильно зависит в течение ознакомительного периода и не даст существенного анализа.
Значения признаков были слишком шумными (случайными) или слишком четкими и предоставляли небольшое значение.
- Проверьте количество уникальных значений в оценке функций. Если количество уникальных значений для этой функции выше ожидаемого или высокого уровня по сравнению с другими функциями, это может указывать на то, что функция была слишком шумной в течение ознакомительного периода.
Существует проблема с данными или форматированием.
- Убедитесь, что функции отформатированы и отправляются персонализатору таким образом, как вы ожидаете.
Эта функция не может быть полезной для моделирования обучения и производительности, если оценка функций низка, и приведенные выше причины не применяются.
- Рассмотрите возможность удаления функции, так как она не помогает вашей модели максимально увеличить среднее вознаграждение.
Удаление функций с низким уровнем важности может помочь ускорить обучение модели, уменьшая объем данных, необходимых для обучения. Это также может повысить производительность модели. Однако это не гарантируется и может потребоваться дальнейший анализ. Дополнительные сведения о разработке контекста и функций действий.
Распространенные проблемы и шаги по улучшению функций
Отправка функций с высокой кратностью. Функции с высоким кратностью — это те, которые имеют множество различных значений, которые, скорее всего, не повторяются во многих событиях. Например, персональные данные, относящиеся к одному человеку (например, имя, номер телефона, номер кредитной карты, IP-адрес), не должны использоваться с Персонализатором.
Отправка идентификаторов пользователей с большим количеством пользователей вряд ли эта информация относится к обучению Персонализатора, чтобы максимально увеличить среднюю оценку вознаграждения. Отправка идентификаторов пользователей (даже если не личная информация) скорее всего добавит больше шума в модель и не рекомендуется.
Функции слишком разрежены. Значения отличаются и редко происходят более чем несколько раз. Точные метки времени вплоть до второго могут быть очень разреженными. Это можно сделать более плотным (и, следовательно, эффективным), группируя время в "утро", "полдень" или "днем", например.
Сведения о расположении, как правило, предпочтительны созданию развернутых классификаций. Например, координаты широты и долготы, такие как Lat: 47.67402° N, Long: 122.12154° W слишком точны и заставляет модель изучать широту и долготу как отдельные измерения. При попытке персонализации на основе сведений о расположении она помогает группировать сведения о расположении в больших секторах. Простой способ сделать это — выбрать соответствующую точность округления для длинных чисел, а также объединить широту и долготу в "области", сделав их одной строкой. Например, хороший способ представить лат: 47,67402° N, Long: 122.12154° W в регионах примерно в нескольких километрах ширины будет "расположение":"34.3, 12.1".
- Разверните наборы функций с экстраполированными сведениями , вы также можете получить больше возможностей, думая о неисследованных атрибутах, которые можно получить из уже имеющихся сведений. Например, в персонализации списка художественных фильмов может быть отображено, что в выходные и рабочие дни поведение пользователей отличается. Следовательно, время могут описывать такие атрибуты, как "выходной день" или "рабочий день". Национальный или региональный культурный праздник уделяет внимание определенным типам фильмов? Например, атрибут "Хэллоуин" полезен в тех местах, где это актуально. Возможно, что дождливая погода оказывает значительное влияние на выбор фильм у многих людей. На основе времени и места метеорологическая служба может предоставить определенную информацию, которую можно добавить, как дополнительный признак.
Следующие шаги
Анализ производительности политик с помощью автономной оценки с помощью Персонализатора.