Импорт таблицы счетчиков
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Импортирует ранее созданную таблицу счетчиков
категория: Обучение с количеством
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Обзор модуля
в этой статье описывается использование модуля таблицы счетчика импорта в Машинное обучение Studio (классическая модель).
назначение модуля таблица импорта позволяет клиентам, создавшим таблицу статистики на основе подсчетов, использовать более раннюю версию Машинное обучение для обновления эксперимента. Этот модуль объединяет существующие таблицы счетчиков с новыми данными.
общие сведения о таблицах счетчиков и их использовании для создания функций см. в разделе Обучение с подсчетами.
Важно!
Этот модуль предоставляется исключительно для обеспечения обратной совместимости с экспериментами, в которых используется устаревшая таблица счетчиков сборок и нерекомендуемые модули Count Характеризатора. Рекомендуется обновить свой эксперимент, чтобы использовать новые модули, чтобы воспользоваться преимуществами новых функций.
Для всех новых экспериментов рекомендуется использовать следующие модули:
- Создание преобразования счетчиков
- Изменение параметров таблицы счетчиков
- Объединение преобразования счетчиков
Настройка таблицы счетчика импорта
в Машинное обучение Studio (классическая модель) откройте эксперимент, содержащий таблицу счетчиков, созданную с помощью модуля таблица нерекомендуемых сборок счетчика.
Добавьте в эксперимент модуль таблицы счетчика импорта .
Подключение два выхода из модуля таблицы счетчиков сборок (не рекомендуется) в соответствующие входные порты таблицы счетчика импорта.
Если имеется еще один набор данных счетчиков, который необходимо объединить с импортированной таблицей счетчиков, подключите его к крайнему правому входному модулю для модуля Таблица счетчиков импорта .
Используйте параметр тип инвентаризации , чтобы указать, где и как будет храниться таблица счетчиков.
набор данных. данные, используемые для создания счетчиков, сохраняются в виде набора данных в Машинное обучение Studio (классическая модель).
Blob: данные, используемые для создания счетчиков, хранятся в виде блочного Blob-объекта в Windows хранилище Azure.
MapReduce. данные, используемые для создания счетчиков, хранятся в виде большого двоичного объекта в Windows хранилище Azure.
Этот параметр обычно является предпочтительным для очень больших наборов данных. Чтобы получить доступ к счетчикам, необходимо активировать кластер HDInsight. для выполнения инвентаризации запускается задание MapReduce. Оба эти действия могут повлечь за собой затраты на хранение и вычисление.
Дополнительные сведения см. в статье HDInsight в Azure.
После указания режима хранения данных может потребоваться предоставить дополнительные сведения о соединении для данных, даже если ранее в эксперименте для доступа к данным использовался модуль Import Data (импорт данных ). Это обусловлено тем, что модуль Count Характеризатора (нерекомендуемый) обращается к хранилищу данных отдельно, чтобы считать данные и собрать необходимые таблицы.
Используйте параметр тип таблицы Count , чтобы указать формат и режим хранения таблицы, используемой для хранения счетчиков.
Dictionary: использует таблицу счетчиков словарей.
Все значения в выбранных столбцах рассматриваются как строки и хэшируются с помощью битового массива размером до 31 бита. Поэтому все значения столбцов представляются в виде неотрицательных 32-битных целых чисел.
Кмскетч: использует таблицу, сохраненную в таблице минимальное количество эскизов.
В этом формате несколько независимых хэш-функций с меньшим диапазоном используются для повышения эффективности памяти и снижения вероятности конфликтов хэша.
В общем случае следует использовать параметр Dictionary для небольших наборов данных ( < 1 ГБ) и использовать параметр кмскетч для больших наборов DataSet.
Запустите эксперимент.
По завершении щелкните правой кнопкой мыши выходные данные модуля Импорт таблицы счетчика , выберите команду Сохранить как преобразованиеи введите имя преобразования. При этом Объединенные таблицы счетчиков и все параметры Добавление признаков, которые вы могли применить, сохраняются в формате, который можно применить к новому набору данных.
Примеры
Изучите примеры Добавление признаков на основе количества, используя эти примеры экспериментов в Коллекция решений ии Azure:
Прогноз задержки рейсов: показывает, как добавление признаков на основе счетчика может быть полезна в очень больших наборах данных.
Обучение со счетчиками: многоклассовая классификация с данными нью такси: демонстрирует использование функций на основе количества в многоклассовой задаче прогнозирования.
Обучение со счетчиками: двоичная классификация с данными о такси нью. использует функции на основе количества в задаче двоичной классификации.
Примечание
эти эксперименты с галереей были созданы с использованием более ранней версии и теперь не являются устаревшими, версия Обучение с модулями подсчета . При открытии эксперимента в студии (классическая модель) эксперимент автоматически обновляется для использования новых модулей.
Ожидаемые входные данные
Имя | Тип | Описание |
---|---|---|
Метаданные счетчиков | Таблица данных | Метаданные счетчиков |
Таблица счетчиков | Таблица данных | Таблица счетчиков |
Набор данных инвентаризации | Таблица данных | Набор данных, используемый для подсчета |
Параметры модуля
Имя | Type | Диапазон | Необязательно | Значение по умолчанию | Описание |
---|---|---|---|---|---|
Тип инвентаризации | CountingType | Обязательно | Тип инвентаризации |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Преобразование подсчета | Интерфейс ITransform | Преобразование подсчета |
Исключения
Исключение | Описание |
---|---|
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0018 | Исключение возникает, если входной набор данных не является допустимым. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.