Поделиться через


Использование примеров наборов данных в Студии машинного обучения (классической)

ОБЛАСТЬ ПРИМЕНЕНИЯ К:Применимо к.Машинное обучение Studio (классическая) Не применяется к.Машинное обучение Azure

Внимание

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классической) можно будет использовать до 31 августа 2024 г.

Прекращается поддержка документации по Студии машинного обучения (классической). В будущем она может не обновляться.

При создании рабочей области в Студии машинного обучения (классической) в нее по умолчанию добавляются примеры наборов данных и эксперименты. Многие из этих примеров наборов данных используются в примерах моделей в коллекции решений ИИ Azure. Остальные примеры включают примеры различных типов данных, обычно используемых в машинном обучении.

Некоторые из этих наборов данных доступны в хранилище BLOB-объектов Azure. В следующей таблице указаны прямые ссылки на эти наборы данных. Вы можете использовать эти наборы данных в своих экспериментах с помощью модуля Импорт данных.

Остальная часть тестовых наборов данных размещена в разделе сохраненных наборов данных в вашей рабочей области. Вы можете найти этот раздел в палитре модуля в Студии машинного обучения (классической) слева от холста эксперимента. Любой из этих наборов данных можно использовать в собственных экспериментах, перетащив его на холст эксперимента.

Наборы данных

Имя набора данных Описание набора данных
набор данных Adult Census Income Binary Classification; Подмножество данных из базы данных переписи 1994 года с информацией о работающих взрослых старше 16 лет с индексом скорректированного дохода > 100.

Использование: классификация людей на основе демографических данных для прогнозирования, зарабатывает ли человек более 50 000 в год.

Связанные исследования: Kohavi, R., Becker, B. (1996 г.). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Набор данных кодов аэропортов Коды аэропортов США.

Этот набор данных содержит по одной строке для каждого аэропорта США, где указывается идентификационный номер аэропорта, его название, а также город и штат, в котором он находится.
Данные о ценах на автомобили (необработанные) Информация об автомобилях по изготовителю и модели, включая цену, особенности, например, число цилиндров и MPG, а также оценки страховых рисков.

Оценка риска изначально связывается с ценой автомобиля. Затем производится корректировка с учетом фактического риска. Актуарии именуют этот процесс symboling. Значение "+3" указывает, что автомобиль является опасным, а значение "-3" — что, вероятно, он безопасен.

Использование: прогнозирование оценки рисков с учетом особенностей с помощью регрессионной или многомерной классификации.

Связанное исследование: Schlimmer, J.C. (1987). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Набор данных по прокату велосипедов UCI Набор данных по прокату велосипедов UCI, основанный на реальных данных компании Capital Bikeshare, которая обслуживает сеть проката велосипедов в Вашингтоне, округ Колумбия.

Набор данных имеет по одной строке на каждый час каждого дня за 2011 и 2012 гг., что в результате дает 17 379 строк. Диапазон количества прокатов велосипедов в час составляет от 1 до 977.
Изображение RGB Билла Гейтса Общедоступный файл изображения, преобразованный в данные в формате CSV.

Код для преобразования изображения приводится на странице со сведениями о модели Color quantization using K-Means clustering (Квантование цветов с использованием кластеризации методом K-средних).
Данные о донорах крови Подмножество данных из базы данных доноров Центра переливания крови в Синьчжу-Сити, Тайвань.

Данные о донорах включают в себя число месяцев после последней дачи крови, частота или общее количество дач крови, время, прошедшее с даты последней дачи крови, и объем сданной (донорской) крови.

Использование: прогнозирование того, сдавал ли донор кровь в марте 2007 г., путем классификации, где 1 обозначает донора в течение целевого периода, а 0 — отсутствие донора.

Связанное исследование: Yeh, I.C. (2008 г.). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки

Yeh, I-Cheng, Yang, King-Jang и Ting, Tao-Ming, Knowledge discovery on RFM model using Bernoulli sequence, Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Данные о раке молочной железы Один из трех наборов данных, связанных с раком, предоставленных Институтом онкологии, который часто используется в литературе о машинном обучении. Объединяет диагностическую информацию с функциями из лабораторных анализов приблизительно с 300 образцами ткани.

Использование: классификация типа рака на основе 9 атрибутов, некоторые из которых линейные, а некоторые — категориальные.

Связанное исследование: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Признаки рака молочной железы Набор данных содержит сведения о 102 тыс. подозрительных областях (кандидатов) на рентгеновских снимках с описаниями 117 признаков для каждого. Признаки являются конфиденциальной информацией и их содержание не раскрывается создателями набора данных (Siemens Healthcare).
Информация о раке молочной железы Набор данных содержит дополнительные сведения о каждой подозрительной области рентгеновского снимка. В каждом примере содержится информация (например, метка, идентификатор пациента, координаты участка относительно всего изображения) о строке с соответствующим номером из набора данных "Признаки рака молочной железы". Каждый пациент имеет ряд примеров. Для пациентов, больных раком, часть примеров — положительные, а часть — отрицательные. Для пациентов, не больных раком, все примеры — отрицательные. Набор данных включает 102 тыс. примеров. Набор является односторонним: 0,6 % баллов положительные, остальные — отрицательные. Набор данных предоставлен Siemens Healthcare.
Общие метки стремления CRM Метки с KDD Cup 2009 — конкурс прогнозистов, использующих программы взаимоотношения с клиентами (orange_small_train_appetency.labels).
Общие метки оттока CRM Метки с KDD Cup 2009 — конкурс прогнозистов, использующих программы взаимоотношения с клиентами (orange_small_train_churn.labels).
Общий набор данных CRM Эти данные взяты с KDD Cup 2009 — конкурса прогнозистов, использующих программы взаимоотношения с клиентами (orange_small_train.data.zip).

Набор данных включает в себя сведения о 50 000 клиентов французской телекоммуникационной компании Orange. У каждого клиента есть 230 обезличенных характеристик, из которых 190 — числовые, а 40 — категорийные. Характеристики являются очень разреженными.
Общие метки увеличения суммы покупок CRM Метки с KDD Cup 2009 — конкурс прогнозистов, использующих программы взаимоотношения с клиентами (orange_large_train_upselling.labels).
Регрессионные данные об эффективности энергопотребления Набор смоделированных профилей энергии, основанных на 12 различных формах здания. Здания различаются по восьми характеристикам. Сюда входят площадь, распределение и ориентация остекления.

Использование: использование регрессии или классификации для прогнозирования оценки энергетического КПД, основанной на одном из двух реальных ответов. Для многоклассовой классификации переменная ответа округляется до ближайшего целого числа.

Связанные исследования: Кифара, А. и Тсаны, А. (2012). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Данные о задержках рейсов Данные о производительности пассажира, полученные из сбора данных TranStats Министерства транспорта США (по времени).

Набор данных охватывает период времени с апреля по октябрь 2013 г. Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
  • Набор данных был отфильтрован, чтобы охватывать только 70 самых загруженных аэропортов в континентальной части США.
  • Отмененные рейсы были отмечены как задержанные более, чем на 15 минут.
  • Рейсы с отклонением были удалены.
  • Были выбраны следующие столбцы: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled.
Данные о соблюдении графиков рейсов (необработанные) Записи о прибытии и отправлении авиарейсов в США, начиная с октября 2011 г.

Использование: прогнозирование задержки рейсов.

Связанное исследование: из отдела транспорта США https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Данные о лесных пожарах Содержит сведения о погоде, например индексы температуры и влажности, а также скорость ветра. Данные получены для северо-восточной области Португалии и объединены со сведениями о лесных пожарах.

Использование: это сложная регрессионная задача, цель которой состоит в прогнозировании площади выгорания из-за лесных пожаров.

Связанные исследования: Кортес,., и Мораис, А. (2008). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки

[Cortez и Morais, 2007] P. Cortez и A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos и J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 — Portuguese Conference on Artificial Intelligence, декабрь, Гимарайнш, Португалия, с. 512–523, 2007 г. APPIA, ISBN-13 978-989-95618-0-9. Доступно по адресу: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Набор данных German Credit Card UCI Набор данных журнала регистрации статистики UCI (German Credit Card) (Statlog+German+Credit+Data) с использованием файла german.data.

Набор данных классифицирует людей, описываемых набором атрибутов, как заемщиков с низким или высоким уровнем риска. Каждый пример представляет собой физическое лицо. Имеется 20 показателей, как числовых, так и категорийных, и двоичная метка (уровень кредитного риска). Записи с высоким уровнем риска имеют метку со значением 2, записи с низким уровнем риска имеют метку со значением 1. Стоимость ошибочной классификации низкого уровня риска как высокого — 1, а стоимость ошибочной классификации высокого уровня риска как низкого — 5.
Названия фильмов на сайте IMDB Набор данных содержит сведения о фильмах, оцененных в твитах Twitter: идентификатор фильма IMDB, название и жанр фильма, год выхода. В наборе данных содержится 17 тыс. фильмов. Набор данных был представлен в документе S. Dooms, T. De Pessemier and L. Martens. MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
Двухклассовые данные об ирисе Возможно, это наиболее известная база данных, которую можно найти в литературе по распознаванию образов. Набор данных относительно небольшой и содержит 50 примеров измерения лепестков из трех разновидностей ириса.

Использование: прогнозирование типа ириса на основе результатов измерений.

Связанное исследование: Fisher, R. A. (1998). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Твиты о фильмах Набор данных является расширенной версией набора данных Movie Tweeting. Набор данных содержит 170 тыс. оценок фильмов, извлеченных из хорошо структурированных твитов в Twitter. Каждый экземпляр представляет собой твит и является кортежем: идентификатор пользователя, идентификатор фильма IMDB, оценка, метка времени, число добавлений в избранное для твита и число ретвитов. Набор данных предоставлен A. Said, S. Dooms, B. Loni и D. Tikk для Recommender Systems Challenge 2014.
Данные о расходе топлива для разных автомобилей Этот набор данных является слегка модифицированной версией набора данных, предоставленного библиотекой StatLib университета Карнеги-Меллон. Набор данных использовался на выставке Американской статистической ассоциации 1983 г.

Здесь указан расход топлива для разных автомобилей (в милях на галлон). Также в наборе содержатся дополнительные сведения, например число цилиндров, объем двигателя, мощность в лошадиных силах, общий вес и динамика разгона.

Использование. Прогнозирование уровня экономии топлива на основе трех многозначных дискретных атрибутов и пяти непрерывных атрибутов.

Связанное исследование: StatLib, Университет Карнеги — Меллон (1993 г.). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Набор данных Pima Indians Diabetes Binary Classification Подмножество данных из базы данных национального института диабета, болезней пищеварительного тракта и почек. Набор данных был подвержен фильтрации для отбора пациенток из индейского племени пима. Сведения включают в себя медицинские данные, например, уровни глюкоза и инсулина, а также факторы образа жизни.

Использование: прогнозирование диабета у людей (двоичная классификация).

Связанные исследования: Сигиллито, V. (1990). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml". Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Данные о клиентах ресторанов Набор метаданных о клиентах, включая демографические сведения и предпочтения.

Использование: этот набор данных в комбинации с другими двумя наборами данных о ресторанах применяется для обучения и тестирования системы рекомендаций.

Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук.
Данные об услугах ресторанов Набор метаданных о ресторанах и их услугах, например о типе пищи, стиле ресторанов и местоположении.

Использование: этот набор данных в комбинации с другими двумя наборами данных о ресторанах применяется для обучения и тестирования системы рекомендаций.

Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук.
Оценки ресторанов Содержит оценки, данные ресторанам пользователями по шкале от 0 до 2.

Использование: этот набор данных в комбинации с другими двумя наборами данных о ресторанах применяется для обучения и тестирования системы рекомендаций.

Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук.
Многоклассовый набор данных об отжиге стали Это набор сведений об экспериментах по отжигу стали. Здесь есть физические атрибуты полученных типов стали, например ширина, толщина и форма (катушка, лист, и т. д.).

Использование: прогнозирование любого из двух числовых атрибутов класса (твердость или сопротивление). Вы также можете анализировать корреляции между атрибутами.

Марка стали соответствует заданному стандарту, определенному ассоциацией SAE и другими организациями. Для конкретной марки стали (переменной класса) вы хотите определить необходимые значения.

Связанные исследования: Sterling, D. и Buntine, W. (NA). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки

Руководство по сортам стали см. здесь: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Данные телескопов Набор данных о пучках высокоэнергетических гамма-частиц вместе с фоновым шумом, которые моделируются с помощью метода Монте-Карло.

Моделирование выполнялось для повышения точности наземных гамма-телескопов, отслеживающих излучение Черенкова. Использовались статистические методы для разделения полезного сигнала (потоки излучения Черенкова) и фонового шума (адронные потоки, инициируемые космическими лучами в верхней части атмосферы).

Данные были предварительно обработаны для создания удлиненного кластера с продольной осью, ориентированной в центр камеры. Характеристики этого эллипса (часто называемые параметрами Hillas) относятся к параметрам изображения, которые могут использоваться для распознавания.

Использование: прогнозирование того, представляет изображение ливня сигнал или фоновый шум.

Примечания. Уровень точности простой классификации не имеет значения для этих данных, так как классификация фонового события в качестве сигнала хуже, чем классификация события сигнала в качестве фона. Для сравнения различных классификаторов следует использовать график ROC. Вероятность классификации фонового события в качестве сигнала должна быть меньше одного из следующих пороговых значений: 0,01, 0,02, 0,05, 0,1 или 0,2.

Также учитывайте, что здесь недооценено число фоновых событий (h для адронных потоков). В реальных измерения значение h (класс шума) представляет большую часть событий.

Связанное исследование: Bock, R. K. (1995). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информации
Набор погодных данных Результаты ежечасных наземных наблюдений за погодой от NOAA (объединенные данные от 04.2013 г. до 10.2013 г.).

Данные представляют собой наблюдения за погодой, осуществленные с метеорологических станций аэропортов, которые охватывают период времени с апреля по октябрь 2013 г. Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
  • Идентификаторы метеорологических станций были сопоставлены с соответствующими идентификаторами аэропортов.
  • Метеорологические станции, не связанные с 70 самыми загруженными аэропортами, были удалены.
  • Столбец «Date» (Дата) был разделен на отдельные столбцы «Year» (Год), «Month» (Месяц) и «Day» (День).
  • Были выбраны следующие столбцы: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter.
набор данных Wikipedia SP 500 Данные взяты из Википедии (https://www.wikipedia.org/) и основаны на статьях о каждой из компаний, включенной в фондовый индекс S&P 500. Они сохранены в формате XML.

Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
  • Был извлечен текст по каждой конкретной компании
  • Удалено форматирование Википедии
  • Удалены символы, не являющиеся буквами или цифрами
  • Весь текст преобразован в нижний регистр
  • Были добавлены известные категории компаний

Обратите внимание, что удалось найти статьи не для всех компаний, поэтому число записей меньше, чем 500.
direct_marketing.csv Набор данных содержит данные клиентов и их реакцию на кампанию прямой рассылки. В каждой строке представлен один клиент. Набор данных содержит девять признаков с демографическими данными и предыдущим поведением пользователя и три столбца с метками (посещение, конверсия и расходы). Столбец "Посещение" содержит двоичные данные, обозначающие визит клиента после маркетинговой кампании. Параметр "Конверсия" обозначает, что клиент что-то приобрел. "Расходы" обозначают сумму, потраченную клиентом. Набор данных предоставлен Кевином Хиллстромом (Kevin Hillstrom) для MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Характеристики тестовых примеров в наборе данных новостей RCV1-V2 Reuters. Набор данных содержит 781 тыс. новостных статей с идентификаторами (первый столбец набора данных). Для каждой статьи выполнен анализ по лексемам, стоп-словам и однокоренным словам. Набор данных предоставлен Дэвидом Д. D. Lewis).
lyrl2004_tokens_train.csv Характеристики учебных примеров в наборе данных новостей RCV1-V2 Reuters. Набор данных содержит 23 тыс. новостных статей с идентификаторами (первый столбец набора данных). Для каждой статьи выполнен анализ по лексемам, стоп-словам и однокоренным словам. Набор данных предоставлен Дэвидом Д. D. Lewis).
network_intrusion_detection.csv
Набор данных с конкурса KDD Cup 1999: инструменты обнаружения знаний и интеллектуального анализа данных (kddcup99.html).

Набор данных был скачан и сохранен в хранилище BLOB-объектов Azure (network_intrusion_detection.csv). Он включает в себя наборы данных для обучения и тестирования. Набор данных для обучения имеет приблизительно 126 000 строк и 43 столбца, включая метки. 3 столбца являются частью сведений меток, а 40 столбцов, состоящие из числовых и строчных (категорийных) характеристик, доступны для обучения модели. Тестовые данные содержат приблизительно 22 500 тестовых примеров (с теми же 43 столбцами, что и данные для обучения).
rcv1-v2.topics.qrels.csv Назначения разделов для новостных статей в наборе данных новостей RCV1-V2 Reuters. Новостная статья может быть назначена нескольким разделам. Каждая строка имеет формат "<имя раздела><идентификатор документа> 1". Набор данных содержит 2,6 млн назначений разделов. Набор данных предоставлен Дэвидом Д. D. Lewis).
student_performance.txt Эти данные взяты с конкурса KDD Cup 2010 (аттестация студентов). Использованные данные: обучающий набор данных Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Алгебра 2008-2009. Опробуйте набор данных из состязания KDD Cup 2010: интеллектуальный анализ образовательных данных. Он находится в файле downloads.jsp.

Набор данных был скачан и сохранен в хранилище BLOB-объектов Azure (student_performance.txt). Он содержит файлы журналов из системы обучения студентов. Задаваемыми характеристиками являются идентификатор проблемы и ее краткое описание, идентификатор учащегося, метка времени, а также количество попыток, которые сделал учащийся перед правильным решением проблемы. Исходный набор данных содержит 8,9 млн записей. Количество строк в этом наборе данных уменьшено до первых 100 тысяч строк. Набор данных содержит 23 столбца с разделителем-табуляцией различных типов: числа, категории и метки времени.

Следующие шаги