Использование примеров наборов данных в Студии машинного обучения (классической)
ОБЛАСТЬ ПРИМЕНЕНИЯ К:Машинное обучение Studio (классическая) Машинное обучение Azure
Внимание
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классической) можно будет использовать до 31 августа 2024 г.
- См. сведения о переносе проектов машинного обучения из Студии машинного обучения (классическая версия) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Прекращается поддержка документации по Студии машинного обучения (классической). В будущем она может не обновляться.
При создании рабочей области в Студии машинного обучения (классической) в нее по умолчанию добавляются примеры наборов данных и эксперименты. Многие из этих примеров наборов данных используются в примерах моделей в коллекции решений ИИ Azure. Остальные примеры включают примеры различных типов данных, обычно используемых в машинном обучении.
Некоторые из этих наборов данных доступны в хранилище BLOB-объектов Azure. В следующей таблице указаны прямые ссылки на эти наборы данных. Вы можете использовать эти наборы данных в своих экспериментах с помощью модуля Импорт данных.
Остальная часть тестовых наборов данных размещена в разделе сохраненных наборов данных в вашей рабочей области. Вы можете найти этот раздел в палитре модуля в Студии машинного обучения (классической) слева от холста эксперимента. Любой из этих наборов данных можно использовать в собственных экспериментах, перетащив его на холст эксперимента.
Наборы данных
Имя набора данных | Описание набора данных |
---|---|
набор данных Adult Census Income Binary Classification; | Подмножество данных из базы данных переписи 1994 года с информацией о работающих взрослых старше 16 лет с индексом скорректированного дохода > 100. Использование: классификация людей на основе демографических данных для прогнозирования, зарабатывает ли человек более 50 000 в год. Связанные исследования: Kohavi, R., Becker, B. (1996 г.). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Набор данных кодов аэропортов | Коды аэропортов США. Этот набор данных содержит по одной строке для каждого аэропорта США, где указывается идентификационный номер аэропорта, его название, а также город и штат, в котором он находится. |
Данные о ценах на автомобили (необработанные) | Информация об автомобилях по изготовителю и модели, включая цену, особенности, например, число цилиндров и MPG, а также оценки страховых рисков. Оценка риска изначально связывается с ценой автомобиля. Затем производится корректировка с учетом фактического риска. Актуарии именуют этот процесс symboling. Значение "+3" указывает, что автомобиль является опасным, а значение "-3" — что, вероятно, он безопасен. Использование: прогнозирование оценки рисков с учетом особенностей с помощью регрессионной или многомерной классификации. Связанное исследование: Schlimmer, J.C. (1987). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Набор данных по прокату велосипедов UCI | Набор данных по прокату велосипедов UCI, основанный на реальных данных компании Capital Bikeshare, которая обслуживает сеть проката велосипедов в Вашингтоне, округ Колумбия. Набор данных имеет по одной строке на каждый час каждого дня за 2011 и 2012 гг., что в результате дает 17 379 строк. Диапазон количества прокатов велосипедов в час составляет от 1 до 977. |
Изображение RGB Билла Гейтса | Общедоступный файл изображения, преобразованный в данные в формате CSV. Код для преобразования изображения приводится на странице со сведениями о модели Color quantization using K-Means clustering (Квантование цветов с использованием кластеризации методом K-средних). |
Данные о донорах крови | Подмножество данных из базы данных доноров Центра переливания крови в Синьчжу-Сити, Тайвань. Данные о донорах включают в себя число месяцев после последней дачи крови, частота или общее количество дач крови, время, прошедшее с даты последней дачи крови, и объем сданной (донорской) крови. Использование: прогнозирование того, сдавал ли донор кровь в марте 2007 г., путем классификации, где 1 обозначает донора в течение целевого периода, а 0 — отсутствие донора. Связанное исследование: Yeh, I.C. (2008 г.). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки Yeh, I-Cheng, Yang, King-Jang и Ting, Tao-Ming, Knowledge discovery on RFM model using Bernoulli sequence, Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 |
Данные о раке молочной железы | Один из трех наборов данных, связанных с раком, предоставленных Институтом онкологии, который часто используется в литературе о машинном обучении. Объединяет диагностическую информацию с функциями из лабораторных анализов приблизительно с 300 образцами ткани. Использование: классификация типа рака на основе 9 атрибутов, некоторые из которых линейные, а некоторые — категориальные. Связанное исследование: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Признаки рака молочной железы | Набор данных содержит сведения о 102 тыс. подозрительных областях (кандидатов) на рентгеновских снимках с описаниями 117 признаков для каждого. Признаки являются конфиденциальной информацией и их содержание не раскрывается создателями набора данных (Siemens Healthcare). |
Информация о раке молочной железы | Набор данных содержит дополнительные сведения о каждой подозрительной области рентгеновского снимка. В каждом примере содержится информация (например, метка, идентификатор пациента, координаты участка относительно всего изображения) о строке с соответствующим номером из набора данных "Признаки рака молочной железы". Каждый пациент имеет ряд примеров. Для пациентов, больных раком, часть примеров — положительные, а часть — отрицательные. Для пациентов, не больных раком, все примеры — отрицательные. Набор данных включает 102 тыс. примеров. Набор является односторонним: 0,6 % баллов положительные, остальные — отрицательные. Набор данных предоставлен Siemens Healthcare. |
Общие метки стремления CRM | Метки с KDD Cup 2009 — конкурс прогнозистов, использующих программы взаимоотношения с клиентами (orange_small_train_appetency.labels). |
Общие метки оттока CRM | Метки с KDD Cup 2009 — конкурс прогнозистов, использующих программы взаимоотношения с клиентами (orange_small_train_churn.labels). |
Общий набор данных CRM | Эти данные взяты с KDD Cup 2009 — конкурса прогнозистов, использующих программы взаимоотношения с клиентами (orange_small_train.data.zip). Набор данных включает в себя сведения о 50 000 клиентов французской телекоммуникационной компании Orange. У каждого клиента есть 230 обезличенных характеристик, из которых 190 — числовые, а 40 — категорийные. Характеристики являются очень разреженными. |
Общие метки увеличения суммы покупок CRM | Метки с KDD Cup 2009 — конкурс прогнозистов, использующих программы взаимоотношения с клиентами (orange_large_train_upselling.labels). |
Регрессионные данные об эффективности энергопотребления | Набор смоделированных профилей энергии, основанных на 12 различных формах здания. Здания различаются по восьми характеристикам. Сюда входят площадь, распределение и ориентация остекления. Использование: использование регрессии или классификации для прогнозирования оценки энергетического КПД, основанной на одном из двух реальных ответов. Для многоклассовой классификации переменная ответа округляется до ближайшего целого числа. Связанные исследования: Кифара, А. и Тсаны, А. (2012). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Данные о задержках рейсов |
Данные о производительности пассажира, полученные из сбора данных TranStats Министерства транспорта США (по времени).
Набор данных охватывает период времени с апреля по октябрь 2013 г. Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
|
Данные о соблюдении графиков рейсов (необработанные) | Записи о прибытии и отправлении авиарейсов в США, начиная с октября 2011 г. Использование: прогнозирование задержки рейсов. Связанное исследование: из отдела транспорта США https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time. |
Данные о лесных пожарах | Содержит сведения о погоде, например индексы температуры и влажности, а также скорость ветра. Данные получены для северо-восточной области Португалии и объединены со сведениями о лесных пожарах. Использование: это сложная регрессионная задача, цель которой состоит в прогнозировании площади выгорания из-за лесных пожаров. Связанные исследования: Кортес,., и Мораис, А. (2008). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки [Cortez и Morais, 2007] P. Cortez и A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos и J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 — Portuguese Conference on Artificial Intelligence, декабрь, Гимарайнш, Португалия, с. 512–523, 2007 г. APPIA, ISBN-13 978-989-95618-0-9. Доступно по адресу: http://www.dsi.uminho.pt/~pcortez/fires.pdf. |
Набор данных German Credit Card UCI | Набор данных журнала регистрации статистики UCI (German Credit Card) (Statlog+German+Credit+Data) с использованием файла german.data. Набор данных классифицирует людей, описываемых набором атрибутов, как заемщиков с низким или высоким уровнем риска. Каждый пример представляет собой физическое лицо. Имеется 20 показателей, как числовых, так и категорийных, и двоичная метка (уровень кредитного риска). Записи с высоким уровнем риска имеют метку со значением 2, записи с низким уровнем риска имеют метку со значением 1. Стоимость ошибочной классификации низкого уровня риска как высокого — 1, а стоимость ошибочной классификации высокого уровня риска как низкого — 5. |
Названия фильмов на сайте IMDB | Набор данных содержит сведения о фильмах, оцененных в твитах Twitter: идентификатор фильма IMDB, название и жанр фильма, год выхода. В наборе данных содержится 17 тыс. фильмов. Набор данных был представлен в документе S. Dooms, T. De Pessemier and L. Martens. MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013." |
Двухклассовые данные об ирисе | Возможно, это наиболее известная база данных, которую можно найти в литературе по распознаванию образов. Набор данных относительно небольшой и содержит 50 примеров измерения лепестков из трех разновидностей ириса. Использование: прогнозирование типа ириса на основе результатов измерений. Связанное исследование: Fisher, R. A. (1998). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Твиты о фильмах | Набор данных является расширенной версией набора данных Movie Tweeting. Набор данных содержит 170 тыс. оценок фильмов, извлеченных из хорошо структурированных твитов в Twitter. Каждый экземпляр представляет собой твит и является кортежем: идентификатор пользователя, идентификатор фильма IMDB, оценка, метка времени, число добавлений в избранное для твита и число ретвитов. Набор данных предоставлен A. Said, S. Dooms, B. Loni и D. Tikk для Recommender Systems Challenge 2014. |
Данные о расходе топлива для разных автомобилей | Этот набор данных является слегка модифицированной версией набора данных, предоставленного библиотекой StatLib университета Карнеги-Меллон. Набор данных использовался на выставке Американской статистической ассоциации 1983 г. Здесь указан расход топлива для разных автомобилей (в милях на галлон). Также в наборе содержатся дополнительные сведения, например число цилиндров, объем двигателя, мощность в лошадиных силах, общий вес и динамика разгона. Использование. Прогнозирование уровня экономии топлива на основе трех многозначных дискретных атрибутов и пяти непрерывных атрибутов. Связанное исследование: StatLib, Университет Карнеги — Меллон (1993 г.). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Набор данных Pima Indians Diabetes Binary Classification | Подмножество данных из базы данных национального института диабета, болезней пищеварительного тракта и почек. Набор данных был подвержен фильтрации для отбора пациенток из индейского племени пима. Сведения включают в себя медицинские данные, например, уровни глюкоза и инсулина, а также факторы образа жизни. Использование: прогнозирование диабета у людей (двоичная классификация). Связанные исследования: Сигиллито, V. (1990). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml". Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки |
Данные о клиентах ресторанов | Набор метаданных о клиентах, включая демографические сведения и предпочтения. Использование: этот набор данных в комбинации с другими двумя наборами данных о ресторанах применяется для обучения и тестирования системы рекомендаций. Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук. |
Данные об услугах ресторанов | Набор метаданных о ресторанах и их услугах, например о типе пищи, стиле ресторанов и местоположении. Использование: этот набор данных в комбинации с другими двумя наборами данных о ресторанах применяется для обучения и тестирования системы рекомендаций. Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук. |
Оценки ресторанов | Содержит оценки, данные ресторанам пользователями по шкале от 0 до 2. Использование: этот набор данных в комбинации с другими двумя наборами данных о ресторанах применяется для обучения и тестирования системы рекомендаций. Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук. |
Многоклассовый набор данных об отжиге стали | Это набор сведений об экспериментах по отжигу стали. Здесь есть физические атрибуты полученных типов стали, например ширина, толщина и форма (катушка, лист, и т. д.). Использование: прогнозирование любого из двух числовых атрибутов класса (твердость или сопротивление). Вы также можете анализировать корреляции между атрибутами. Марка стали соответствует заданному стандарту, определенному ассоциацией SAE и другими организациями. Для конкретной марки стали (переменной класса) вы хотите определить необходимые значения. Связанные исследования: Sterling, D. и Buntine, W. (NA). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки Руководство по сортам стали см. здесь: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf |
Данные телескопов | Набор данных о пучках высокоэнергетических гамма-частиц вместе с фоновым шумом, которые моделируются с помощью метода Монте-Карло. Моделирование выполнялось для повышения точности наземных гамма-телескопов, отслеживающих излучение Черенкова. Использовались статистические методы для разделения полезного сигнала (потоки излучения Черенкова) и фонового шума (адронные потоки, инициируемые космическими лучами в верхней части атмосферы). Данные были предварительно обработаны для создания удлиненного кластера с продольной осью, ориентированной в центр камеры. Характеристики этого эллипса (часто называемые параметрами Hillas) относятся к параметрам изображения, которые могут использоваться для распознавания. Использование: прогнозирование того, представляет изображение ливня сигнал или фоновый шум. Примечания. Уровень точности простой классификации не имеет значения для этих данных, так как классификация фонового события в качестве сигнала хуже, чем классификация события сигнала в качестве фона. Для сравнения различных классификаторов следует использовать график ROC. Вероятность классификации фонового события в качестве сигнала должна быть меньше одного из следующих пороговых значений: 0,01, 0,02, 0,05, 0,1 или 0,2. Также учитывайте, что здесь недооценено число фоновых событий (h для адронных потоков). В реальных измерения значение h (класс шума) представляет большую часть событий. Связанное исследование: Bock, R. K. (1995). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информации |
Набор погодных данных |
Результаты ежечасных наземных наблюдений за погодой от NOAA (объединенные данные от 04.2013 г. до 10.2013 г.).
Данные представляют собой наблюдения за погодой, осуществленные с метеорологических станций аэропортов, которые охватывают период времени с апреля по октябрь 2013 г. Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
|
набор данных Wikipedia SP 500 |
Данные взяты из Википедии (https://www.wikipedia.org/) и основаны на статьях о каждой из компаний, включенной в фондовый индекс S&P 500. Они сохранены в формате XML.
Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
|
direct_marketing.csv | Набор данных содержит данные клиентов и их реакцию на кампанию прямой рассылки. В каждой строке представлен один клиент. Набор данных содержит девять признаков с демографическими данными и предыдущим поведением пользователя и три столбца с метками (посещение, конверсия и расходы). Столбец "Посещение" содержит двоичные данные, обозначающие визит клиента после маркетинговой кампании. Параметр "Конверсия" обозначает, что клиент что-то приобрел. "Расходы" обозначают сумму, потраченную клиентом. Набор данных предоставлен Кевином Хиллстромом (Kevin Hillstrom) для MineThatData E-Mail Analytics And Data Mining Challenge. |
lyrl2004_tokens_test.csv | Характеристики тестовых примеров в наборе данных новостей RCV1-V2 Reuters. Набор данных содержит 781 тыс. новостных статей с идентификаторами (первый столбец набора данных). Для каждой статьи выполнен анализ по лексемам, стоп-словам и однокоренным словам. Набор данных предоставлен Дэвидом Д. D. Lewis). |
lyrl2004_tokens_train.csv | Характеристики учебных примеров в наборе данных новостей RCV1-V2 Reuters. Набор данных содержит 23 тыс. новостных статей с идентификаторами (первый столбец набора данных). Для каждой статьи выполнен анализ по лексемам, стоп-словам и однокоренным словам. Набор данных предоставлен Дэвидом Д. D. Lewis). |
network_intrusion_detection.csv |
Набор данных с конкурса KDD Cup 1999: инструменты обнаружения знаний и интеллектуального анализа данных (kddcup99.html). Набор данных был скачан и сохранен в хранилище BLOB-объектов Azure (network_intrusion_detection.csv). Он включает в себя наборы данных для обучения и тестирования. Набор данных для обучения имеет приблизительно 126 000 строк и 43 столбца, включая метки. 3 столбца являются частью сведений меток, а 40 столбцов, состоящие из числовых и строчных (категорийных) характеристик, доступны для обучения модели. Тестовые данные содержат приблизительно 22 500 тестовых примеров (с теми же 43 столбцами, что и данные для обучения). |
rcv1-v2.topics.qrels.csv | Назначения разделов для новостных статей в наборе данных новостей RCV1-V2 Reuters. Новостная статья может быть назначена нескольким разделам. Каждая строка имеет формат "<имя раздела><идентификатор документа> 1". Набор данных содержит 2,6 млн назначений разделов. Набор данных предоставлен Дэвидом Д. D. Lewis). |
student_performance.txt | Эти данные взяты с конкурса KDD Cup 2010 (аттестация студентов). Использованные данные: обучающий набор данных Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Алгебра 2008-2009. Опробуйте набор данных из состязания KDD Cup 2010: интеллектуальный анализ образовательных данных. Он находится в файле downloads.jsp. Набор данных был скачан и сохранен в хранилище BLOB-объектов Azure (student_performance.txt). Он содержит файлы журналов из системы обучения студентов. Задаваемыми характеристиками являются идентификатор проблемы и ее краткое описание, идентификатор учащегося, метка времени, а также количество попыток, которые сделал учащийся перед правильным решением проблемы. Исходный набор данных содержит 8,9 млн записей. Количество строк в этом наборе данных уменьшено до первых 100 тысяч строк. Набор данных содержит 23 столбца с разделителем-табуляцией различных типов: числа, категории и метки времени. |