Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье вы узнаете, как перенести проверенные данные обогащения в локальные или удаленные эксперименты машинного обучения с помощью Машинное обучение Azure наборов данных и открытых наборов данных Azure.
С помощью набора данных Машинное обучение Azure вы создаете ссылку на расположение источника данных, а также копию ее метаданных. Так как наборы данных оцениваются безумно, и поскольку данные остаются в существующем расположении, вы
- Не рискуйте непреднамеренно изменять исходные источники данных
- Снижаются расходы на хранение
- Повышение скорости производительности рабочего процесса машинного обучения
Дополнительные сведения о том, где наборы данных соответствуют общему рабочему процессу доступа к данным Машинное обучение Azure, см. в статье о безопасном доступе к данным.
Открытые наборы данных Azure курируют общедоступные наборы данных, которые добавляют специальные функции для обогащения прогнозных решений и повышения точности этих решений. Посетите ресурс каталога Открытых наборов данных для данных общедоступного домена, которые помогут вам обучить модели машинного обучения, например:
- Работоспособности и геномики
- Труд и экономика
- Население и безопасность
- Дополнительные и общие наборы данных
- Транспорт
Открытые наборы данных размещаются в облаке в Microsoft Azure. Оба пакета SDK для Python Машинное обучение Azure и Студия машинного обучения Azure включают их.
Необходимые компоненты
Необходимые компоненты:
Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.
Установленный пакет SDK Машинного обучения Azure для Python, который включает пакет
azureml-datasets
.- Создайте Машинное обучение Azure вычислительный экземпляр — полностью настроенную и управляемую среду разработки, включающую интегрированные записные книжки и уже установленный пакет SDK.
ИЛИ
- Работайте в собственной среде Python и установите пакет SDK самостоятельно с этими инструкциями.
Примечание.
Некоторые классы наборов данных зависят от пакета azureml-dataprep . Этот пакет совместим только с 64-разрядным Python. Для пользователей Linux эти классы поддерживаются только в этих дистрибутивах Linux:
- Debian (8, 9)
- Fedora (27, 28)
- Red Hat Enterprise Linux (7, 8)
- Ubuntu (14.04, 16.04, 18.04)
Создание наборов данных при помощи пакета средств разработки
Чтобы создать наборы данных Машинное обучение Azure с помощью классов Открытых наборов данных Azure, в пакете SDK для Python убедитесь, что пакет установлен с pip install azureml-opendatasets
помощью. В пакете SDK класс каждого дискретного набора данных представляет этот класс, а определенные классы доступны как тип данных Машинное обучение Azure, тип данных Машинное обучение Azure FileDataset
TabularDataset
или оба. Ознакомьтесь со справочной документацией по полному списку opendatasets
классов.
Некоторые opendatasets
классы можно получить как TabularDataset
FileDataset
или ресурсы. Затем вы можете управлять и /или скачать файлы напрямую. Другие классы могут извлекать набор данных только с помощью get_tabular_dataset()
класса или get_file_dataset()
функций из Dataset
класса в пакете SDK для Python.
В этом коде показано, что класс MNIST opendatasets
может возвращать или TabularDataset
FileDataset
:
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
В этом примере класс диабета opendatasets
доступен только в качестве TabularDataset
. Для этого требуется использование get_tabular_dataset()
.
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Регистрация наборов данных
Зарегистрируйте набор данных Машинное обучение Azure в рабочей области, чтобы предоставить общий доступ к набору данных другим пользователям и повторно использовать его в экспериментах в рабочей области. При регистрации Машинное обучение Azure набора данных, созданного из Открытых наборов данных, данные не загружаются немедленно, но данные становятся доступными позже (например, во время обучения) при запросе из центрального расположения хранилища.
Чтобы зарегистрировать наборы данных в рабочей области, используйте метод register()
.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Создание наборов данных с помощью студии
Вы также можете создавать наборы данных Машинное обучение Azure из открытых наборов данных Azure с помощью Студия машинного обучения Azure. Этот объединенный веб-интерфейс включает средства машинного обучения для выполнения сценариев обработки и анализа данных для специалистов по обработке и анализу данных всех уровней навыков.
Примечание.
Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.
В рабочей области выберите данные в левой области навигации. На вкладке "Ресурсы данных" выберите "Создать", как показано на снимке экрана:
На следующем экране добавьте имя и необязательное описание нового ресурса данных. Затем выберите табличный элемент в раскрывающемся списке "Тип ", как показано на снимке экрана:
На следующем экране выберите "Из открытых наборов данных Azure" и нажмите кнопку "Далее", как показано на снимке экрана:
На следующем экране выберите доступный набор данных Azure Open Dataset. На этом снимке экрана мы выбрали набор данных безопасности Сан-Франциско:
Прокрутите вниз при необходимости и нажмите кнопку "Далее", как показано на снимке экрана:
При необходимости отфильтруйте данные с помощью доступных фильтров, подходящих для выбранного набора данных. Для набора данных безопасности Сан-Франциско мы задаем отфильтрованный диапазон дат между датой начала 1 июля 2024 г. и 17 июля 2024 г. Нажмите кнопку "Далее", как показано на этом снимке экрана:
На следующем экране просмотрите параметры нового ресурса данных и внесите необходимые изменения. Когда кажется хорошим, нажмите кнопку "Создать ", как показано на снимке экрана:
Дополнительные сведения о описаниях полей и диапазонах дат для набора данных безопасности в Сан-Франциско см. в ресурсе "Данные безопасности Сан-Франциско". Дополнительные сведения о других наборах данных см. в ресурсе каталога Открытых наборов данных Azure.
Набор данных теперь доступен в рабочей области в разделе Наборы данных. Его можно использовать так же, как и другие созданные наборы данных.
Доступ к наборам данных для экспериментов
Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Дополнительные сведения см. в статье "Дополнительные сведения о обучении с помощью наборов данных".
Примеры записных книжек
Примеры и демонстрации функций Открытых наборов данных см . в этих примерах записных книжек.
Следующие шаги
- Обучение модели машинного обучения.
- Обучение с помощью наборов данных.
- Создайте набор данных Машинное обучение Azure.