data Пакет
Содержит модули, поддерживающие представление данных для хранилищ и наборов данных в Машинном обучении Azure.
Этот пакет содержит основные функциональные возможности для поддержки классов Datastore и Dataset в пакете core. Объекты хранилища данных содержат сведения о подключении к службам хранилища Azure, к которым можно обращаться по имени, что избавляет от необходимости работать с ними напрямую или жестко кодировать информацию о подключении в скриптах. Хранилище данных поддерживает ряд различных служб, представленных классами в этом пакете, включая AzureBlobDatastore, AzureFileDatastore и AzureDataLakeDatastore. Полный список поддерживаемых служб хранилища см. в описании класса Datastore.
Хранилище данных выступает в качестве контейнера для файлов с данными, а набор данных можно представить как ссылку или указатель на определенные данные в хранилище. Поддерживаются следующие типы наборов данных:
TabularDataset представляет в табличном формате данные, созданные путем синтаксического анализа указанного файла или списка файлов.
FileDataset ссылается на один или несколько файлов, размещенных в хранилищах данных или имеющих общедоступные URL-адреса.
Дополнительные сведения см. в статье Добавление & регистрировать наборы данных. Чтобы приступить к работе с наборами данных, ознакомьтесь с материалами на страницах https://aka.ms/tabulardataset-samplenotebook и https://aka.ms/filedataset-samplenotebook.
Модули
abstract_dataset |
Содержит абстрактный базовый класс для наборов данных в Машинном обучении Azure. |
abstract_datastore |
Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к службам хранилища Azure. |
azure_data_lake_datastore |
Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к Azure Data Lake Storage. |
azure_my_sql_datastore |
Содержит базовые функциональные возможности для хранилищ данных, которые сохраняют сведения о подключении в Базе данных Azure для MySQL. |
azure_postgre_sql_datastore |
Содержит базовые функциональные возможности для хранилищ данных, которые сохраняют сведения о подключении в Базе данных Azure для PostgreSQL. |
azure_sql_database_datastore |
Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к Базе данных SQL Azure. |
azure_storage_datastore |
Содержит функциональные возможности для хранилищ данных со сведениями о подключении к большому двоичному объекту Azure и хранилищу файлов Azure. |
constants |
Константы, используемые в пакете azureml.data. Только для внутреннего применения. |
context_managers |
Содержит функциональные возможности для управления контекстом данных для хранилищ и наборов данных. Только для внутреннего применения. |
data_reference |
Содержит функциональные возможности, определяющие способ создания ссылок на данные в хранилищах данных. |
datacache |
Содержит функциональные возможности для управления объектами DatacacheStore и Datacache в Машинном обучении Azure. |
datacache_client |
Только для внутреннего применения. |
datacache_consumption_config |
Содержит функциональные возможности для конфигурации потребления DataCache. |
datacache_singularity_settings |
Содержит объекты, необходимые для представления параметров сингулярности Datacache. |
datapath |
Содержит функциональные возможности для создания ссылок на данные в хранилищах данных. Этот модуль содержит класс DataPath, который представляет расположение данных, и класс DataPathComputeBinding, который представляет, как данные становятся доступными в целевых объектах вычислений. |
dataset_action_run |
Содержит функциональные возможности, управляющие выполнением действий с наборами данных. Этот модуль предоставляет удобные методы для создания действий с наборами данных и получения результатов после завершения. |
dataset_consumption_config |
Содержит функциональные возможности для конфигурации использования набора данных. |
dataset_definition |
Содержит функциональные возможности для управления определением набора данных и его операциями. Примечание Этот модуль не рекомендуется. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Содержит исключения для обработки ошибок набора данных в Машинном обучении Azure. |
dataset_factory |
Содержит функциональные возможности для создания наборов данных для Машинного обучения Azure. |
dataset_profile |
Класс для сбора статистической сводки по данным, созданным DataFlow. Функциональные возможности этого модуля включают сбор сведений о том, какой запуск создал профиль, а также является ли профиль устаревшим. |
dataset_profile_run |
Содержит конфигурацию для мониторинга выполнения профиля набора данных в Машинном обучение Azure. Функциональные возможности этого модуля включают в себя обработку и мониторинг выполнения профиля набора данных, связанного с объектом эксперимента и отдельным идентификатором выполнения. |
dataset_profile_run_config |
Содержит конфигурацию для создания сводки статистики по наборам данных в Машинном обучении Azure. Функциональные возможности этого модуля включают методы для отправки локального или удаленного профиля и визуализации результатов выполнения отправленного профиля. |
dataset_snapshot |
Содержит функциональные возможности для управления операциями с моментальными снимками Dataset. Примечание Этот модуль не рекомендуется. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Содержит значения перечисления, используемые с Dataset. |
datastore_client |
Только для внутреннего применения. |
dbfs_datastore |
Содержит функциональные возможности для хранилищ данных, которые сохраняют сведения о подключении к файлу DBFS. |
file_dataset |
Содержит функциональные возможности для ссылки на один или несколько файлов в хранилищах данных или общедоступных URL-адресах. Дополнительные сведения см. в статье Добавление наборов данных & регистрации. Чтобы приступить к работе с файловым набором данных, перейдите по ссылке https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Содержит базовые функциональные возможности для хранилищ данных, в которых сохраняются сведения о подключении к кластеру HDFS. |
output_dataset_config |
Содержит конфигурации, определяющие, как отправлять и передавать в набор данных выходные данные задания. Подробнее см. в статье о способах указания выходных данных. |
sql_data_reference |
Содержит функциональные возможности для создания ссылок на данные в хранилищах данных, которые сохраняют сведения о соединении с базами данных SQL. |
stored_procedure_parameter |
Содержит функциональные возможности для создания параметра, передаваемого в хранимую процедуру SQL. |
tabular_dataset |
Функциональные возможности для представления данных в табличном формате путем синтаксического анализа указанного файла или списка файлов. Дополнительные сведения см. в статье Добавление & регистрировать наборы данных. Чтобы приступить к работе с табличным набором данных, перейдите по ссылке https://aka.ms/tabulardataset-samplenotebook. |
Классы
DataType |
Настраивает типы данных столбцов для набора данных, созданного в Машинном обучении Azure. Методы DataType используются в методах |
DatacacheStore |
Примечание Это экспериментальный класс, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental. Представляет абстракцию хранилища для учетной записи хранения Машинного обучения Azure. Хранилища DatacacheStores присоединяются к рабочим областям и используются для хранения сведений, относящихся к базовому решению DataCache. Сейчас поддерживается только секционированное решение BLOB-объектов. Datacachestores определяет различные хранилища BLOB-объектов, которые могут использоваться для кэширования. Этот класс используется для выполнения операций управления, включая регистрацию, вывод списка, получение и обновление хранилищ кэшированных данных.
Хранилища DatacacheStores для каждой службы создаются с помощью методов Получение хранилища данных кэша по имени. Этот вызов выполнит запрос к службе datacache. |
FileDataset |
Представляет коллекцию ссылок на файлы в хранилищах данных или общедоступных URL-адресах для использования в Машинном обучении Azure. FileDataset определяет ряд неактивно оцениваемых, неизменяемых операций для загрузки данных из источника данных в потоки файлов. Данные не загружаются из источника, пока FileDataset не получит запрос на доставку данных. FileDataset создается с помощью метода from_files класса FileDatasetFactory. Дополнительные сведения см. в статье Добавление наборов данных & регистрации. Чтобы приступить к работе с файловым набором данных, перейдите по ссылке https://aka.ms/filedataset-samplenotebook. Инициализируйте объект FileDataset. Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью FileDatasetFactory класса . |
HDFSOutputDatasetConfig |
Объясняет способ вывода данных в путь HDFS и повышения их уровня до FileDataset. Инициализируйте HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Примечание Это экспериментальный класс, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental. Представление способа связывания выходных данных выполнения и их повышения до уровня FileDataset. LinkFileOutputDatasetConfig позволяет подключить файловый набор данных как выходной набор данных
Инициализируйте LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Примечание Это экспериментальный класс, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental. Представление способа связывания выходных данных выполнения и их повышения до уровня TabularDataset. LinkTabularOutputDatasetConfig позволяет связать файловые табличные данные как выходной набор данных.
Инициализируйте LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Объясняет, как копировать выходные данные запуска и повышать их до уровня FileDataset. OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь. Пример ситуации, когда аргументы не передаются:
Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":
Инициализация OutputFileDatasetConfig. OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь. Пример ситуации, когда аргументы не передаются:
Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":
|
TabularDataset |
Набор табличных данных для использования в Машинном обучении Microsoft Azure. TabularDataset определяет ряд неактивно оцениваемых, неизменяемых операций для загрузки данных из источника данных в табличное представление. Данные не загружаются из источника, пока TabularDataset не получит запрос на доставку данных. TabularDataset создается с помощью таких методов, как from_delimited_files из класса TabularDatasetFactory. Дополнительные сведения см. в статье Добавление & регистрировать наборы данных. Чтобы приступить к работе с табличным набором данных, перейдите по ссылке https://aka.ms/tabulardataset-samplenotebook. Инициализация объекта TabularDataset. Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью TabularDatasetFactory класса . |