Поделиться через


data Пакет

Содержит модули, поддерживающие представление данных для хранилищ и наборов данных в Машинном обучении Azure.

Этот пакет содержит основные функциональные возможности для поддержки классов Datastore и Dataset в пакете core. Объекты хранилища данных содержат сведения о подключении к службам хранилища Azure, к которым можно обращаться по имени, что избавляет от необходимости работать с ними напрямую или жестко кодировать информацию о подключении в скриптах. Хранилище данных поддерживает ряд различных служб, представленных классами в этом пакете, включая AzureBlobDatastore, AzureFileDatastore и AzureDataLakeDatastore. Полный список поддерживаемых служб хранилища см. в описании класса Datastore.

Хранилище данных выступает в качестве контейнера для файлов с данными, а набор данных можно представить как ссылку или указатель на определенные данные в хранилище. Поддерживаются следующие типы наборов данных:

  • TabularDataset представляет в табличном формате данные, созданные путем синтаксического анализа указанного файла или списка файлов.

  • FileDataset ссылается на один или несколько файлов, размещенных в хранилищах данных или имеющих общедоступные URL-адреса.

Дополнительные сведения см. в статье Добавление & регистрировать наборы данных. Чтобы приступить к работе с наборами данных, ознакомьтесь с материалами на страницах https://aka.ms/tabulardataset-samplenotebook и https://aka.ms/filedataset-samplenotebook.

Модули

abstract_dataset

Содержит абстрактный базовый класс для наборов данных в Машинном обучении Azure.

abstract_datastore

Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к службам хранилища Azure.

azure_data_lake_datastore

Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к Azure Data Lake Storage.

azure_my_sql_datastore

Содержит базовые функциональные возможности для хранилищ данных, которые сохраняют сведения о подключении в Базе данных Azure для MySQL.

azure_postgre_sql_datastore

Содержит базовые функциональные возможности для хранилищ данных, которые сохраняют сведения о подключении в Базе данных Azure для PostgreSQL.

azure_sql_database_datastore

Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к Базе данных SQL Azure.

azure_storage_datastore

Содержит функциональные возможности для хранилищ данных со сведениями о подключении к большому двоичному объекту Azure и хранилищу файлов Azure.

constants

Константы, используемые в пакете azureml.data. Только для внутреннего применения.

context_managers

Содержит функциональные возможности для управления контекстом данных для хранилищ и наборов данных. Только для внутреннего применения.

data_reference

Содержит функциональные возможности, определяющие способ создания ссылок на данные в хранилищах данных.

datacache

Содержит функциональные возможности для управления объектами DatacacheStore и Datacache в Машинном обучении Azure.

datacache_client

Только для внутреннего применения.

datacache_consumption_config

Содержит функциональные возможности для конфигурации потребления DataCache.

datacache_singularity_settings

Содержит объекты, необходимые для представления параметров сингулярности Datacache.

datapath

Содержит функциональные возможности для создания ссылок на данные в хранилищах данных.

Этот модуль содержит класс DataPath, который представляет расположение данных, и класс DataPathComputeBinding, который представляет, как данные становятся доступными в целевых объектах вычислений.

dataset_action_run

Содержит функциональные возможности, управляющие выполнением действий с наборами данных.

Этот модуль предоставляет удобные методы для создания действий с наборами данных и получения результатов после завершения.

dataset_consumption_config

Содержит функциональные возможности для конфигурации использования набора данных.

dataset_definition

Содержит функциональные возможности для управления определением набора данных и его операциями.

Примечание

Этот модуль не рекомендуется. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

dataset_error_handling

Содержит исключения для обработки ошибок набора данных в Машинном обучении Azure.

dataset_factory

Содержит функциональные возможности для создания наборов данных для Машинного обучения Azure.

dataset_profile

Класс для сбора статистической сводки по данным, созданным DataFlow.

Функциональные возможности этого модуля включают сбор сведений о том, какой запуск создал профиль, а также является ли профиль устаревшим.

dataset_profile_run

Содержит конфигурацию для мониторинга выполнения профиля набора данных в Машинном обучение Azure.

Функциональные возможности этого модуля включают в себя обработку и мониторинг выполнения профиля набора данных, связанного с объектом эксперимента и отдельным идентификатором выполнения.

dataset_profile_run_config

Содержит конфигурацию для создания сводки статистики по наборам данных в Машинном обучении Azure.

Функциональные возможности этого модуля включают методы для отправки локального или удаленного профиля и визуализации результатов выполнения отправленного профиля.

dataset_snapshot

Содержит функциональные возможности для управления операциями с моментальными снимками Dataset.

Примечание

Этот модуль не рекомендуется. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

dataset_type_definitions

Содержит значения перечисления, используемые с Dataset.

datastore_client

Только для внутреннего применения.

dbfs_datastore

Содержит функциональные возможности для хранилищ данных, которые сохраняют сведения о подключении к файлу DBFS.

file_dataset

Содержит функциональные возможности для ссылки на один или несколько файлов в хранилищах данных или общедоступных URL-адресах.

Дополнительные сведения см. в статье Добавление наборов данных & регистрации. Чтобы приступить к работе с файловым набором данных, перейдите по ссылке https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к кластеру HDFS.

output_dataset_config

Содержит конфигурации, определяющие, как отправлять и передавать в набор данных выходные данные задания.

Подробнее см. в статье о способах указания выходных данных.

sql_data_reference

Содержит функциональные возможности для создания ссылок на данные в хранилищах данных, которые сохраняют сведения о соединении с базами данных SQL.

stored_procedure_parameter

Содержит функциональные возможности для создания параметра, передаваемого в хранимую процедуру SQL.

tabular_dataset

Функциональные возможности для представления данных в табличном формате путем синтаксического анализа указанного файла или списка файлов.

Дополнительные сведения см. в статье Добавление & регистрировать наборы данных. Чтобы приступить к работе с табличным набором данных, перейдите по ссылке https://aka.ms/tabulardataset-samplenotebook.

Классы

DataType

Настраивает типы данных столбцов для набора данных, созданного в Машинном обучении Azure.

Методы DataType используются в методах from_* класса TabularDatasetFactory, предназначенных для создания новых объектов TabularDataset.

DatacacheStore

Примечание

Это экспериментальный класс, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Представляет абстракцию хранилища для учетной записи хранения Машинного обучения Azure.

Хранилища DatacacheStores присоединяются к рабочим областям и используются для хранения сведений, относящихся к базовому решению DataCache. Сейчас поддерживается только секционированное решение BLOB-объектов. Datacachestores определяет различные хранилища BLOB-объектов, которые могут использоваться для кэширования.

Этот класс используется для выполнения операций управления, включая регистрацию, вывод списка, получение и обновление хранилищ кэшированных данных. Хранилища DatacacheStores для каждой службы создаются с помощью методов register* данного класса.

Получение хранилища данных кэша по имени. Этот вызов выполнит запрос к службе datacache.

FileDataset

Представляет коллекцию ссылок на файлы в хранилищах данных или общедоступных URL-адресах для использования в Машинном обучении Azure.

FileDataset определяет ряд неактивно оцениваемых, неизменяемых операций для загрузки данных из источника данных в потоки файлов. Данные не загружаются из источника, пока FileDataset не получит запрос на доставку данных.

FileDataset создается с помощью метода from_files класса FileDatasetFactory.

Дополнительные сведения см. в статье Добавление наборов данных & регистрации. Чтобы приступить к работе с файловым набором данных, перейдите по ссылке https://aka.ms/filedataset-samplenotebook.

Инициализируйте объект FileDataset.

Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью FileDatasetFactory класса .

HDFSOutputDatasetConfig

Объясняет способ вывода данных в путь HDFS и повышения их уровня до FileDataset.

Инициализируйте HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Примечание

Это экспериментальный класс, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Представление способа связывания выходных данных выполнения и их повышения до уровня FileDataset.

LinkFileOutputDatasetConfig позволяет подключить файловый набор данных как выходной набор данных


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Инициализируйте LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Примечание

Это экспериментальный класс, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Представление способа связывания выходных данных выполнения и их повышения до уровня TabularDataset.

LinkTabularOutputDatasetConfig позволяет связать файловые табличные данные как выходной набор данных.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Инициализируйте LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Объясняет, как копировать выходные данные запуска и повышать их до уровня FileDataset.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Инициализация OutputFileDatasetConfig.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Набор табличных данных для использования в Машинном обучении Microsoft Azure.

TabularDataset определяет ряд неактивно оцениваемых, неизменяемых операций для загрузки данных из источника данных в табличное представление. Данные не загружаются из источника, пока TabularDataset не получит запрос на доставку данных.

TabularDataset создается с помощью таких методов, как from_delimited_files из класса TabularDatasetFactory.

Дополнительные сведения см. в статье Добавление & регистрировать наборы данных. Чтобы приступить к работе с табличным набором данных, перейдите по ссылке https://aka.ms/tabulardataset-samplenotebook.

Инициализация объекта TabularDataset.

Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью TabularDatasetFactory класса .