AbstractDataset Класс
Базовый класс наборов данных в Машинном обучении Azure.
Для создания экземпляров набора данных следует ссылаться на классы TabularDatasetFactory и FileDatasetFactory.
Конструктор Класса AbstractDataset.
Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью TabularDatasetFactory класса и FileDatasetFactory класса .
- Наследование
-
builtins.objectAbstractDataset
Конструктор
AbstractDataset()
Методы
add_tags |
Добавление пар "ключ-значение" в словарь тегов этого набора данных. |
as_named_input |
Укажите имя для этого набора данных, которое будет использоваться для получения материализованных наборов данных в запуске. |
get_all |
Получение всех зарегистрированных наборов данных в рабочей области. |
get_by_id |
Получает набор данных, который сохраняется в рабочей области. |
get_by_name |
Получение из рабочей области зарегистрированного набора данных по имени регистрации. |
get_partition_key_values |
Возвращение уникальных значений ключа "partition_keys". проверить, является ли partition_keys допустимым подмножеством полного набора ключей секций, возвратить уникальные значения ключа partition_keys, по умолчанию возвратить уникальные сочетания ключа, используя полный набор ключей разделов этого набора данных, если partition_keys имеет значение "None"
|
register |
Регистрация набора данных в предоставленной рабочей области. |
remove_tags |
Удалить указанные ключи из словаря тегов этого набора данных. |
unregister_all_versions |
Отмените регистрацию всех версий с именем регистрации этого набора данных из рабочей области. |
update |
Выполните обновление действующего набора данных. |
add_tags
Добавление пар "ключ-значение" в словарь тегов этого набора данных.
add_tags(tags=None)
Параметры
Имя | Описание |
---|---|
tags
Обязательно
|
Словарь тегов для добавления. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных. |
as_named_input
Укажите имя для этого набора данных, которое будет использоваться для получения материализованных наборов данных в запуске.
as_named_input(name)
Параметры
Имя | Описание |
---|---|
name
Обязательно
|
Имя набора данных для запуска. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект конфигурации, описывающий, как следует материализовать набор данных при выполнении. |
Комментарии
Это имя будет применяться только в процессе выполнения Машинного обучения Azure. Имя должно содержать только буквы, цифры и символы подчеркивания, чтобы его можно было сделать доступным в качестве переменной среды. Это имя можно использовать для получения набора данных в контексте выполнения с помощью двух подходов:
Переменная среды:
Имя будет представлять собой имя переменной среды, а материализованный набор данных будет доступен в качестве значения переменной среды. Если набор данных скачан / подключен, то значением будет путь скачивания / подключения. Пример:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Примечание
Если набор данных внесен в прямом режиме, то значением будет идентификатор набора данных. Далее можно выполнить следующее.
Получить объект набора данных, выполнив команду Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Это словарь, где ключ будет именем набора данных, указанным в этом методе, а значение будет материализованным набором данных. Для скачанного и подключенного набора данных значением будет путь скачивания / подключения. В прямом режиме значением будет тот же объект набора данных, который указан в сценарии отправки задания.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Получение всех зарегистрированных наборов данных в рабочей области.
static get_all(workspace)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой зарегистрированы наборы данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Словарь объектов TabularDataset и FileDataset, для которого в качестве ключа применяется имя регистрации. |
get_by_id
Получает набор данных, который сохраняется в рабочей области.
static get_by_id(workspace, id, **kwargs)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой сохранен набор данных. |
id
Обязательно
|
Идентификатор набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. Если набор данных зарегистрирован, будут также возвращены версия и имя регистрации. |
get_by_name
Получение из рабочей области зарегистрированного набора данных по имени регистрации.
static get_by_name(workspace, name, version='latest', **kwargs)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой был зарегистрирован набор данных. |
name
Обязательно
|
Имя регистрации. |
version
Обязательно
|
Версия регистрации. По умолчанию имеет значение latest. |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный объект набора данных. |
get_partition_key_values
Возвращение уникальных значений ключа "partition_keys".
проверить, является ли partition_keys допустимым подмножеством полного набора ключей секций, возвратить уникальные значения ключа partition_keys, по умолчанию возвратить уникальные сочетания ключа, используя полный набор ключей разделов этого набора данных, если partition_keys имеет значение "None"
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Параметры
Имя | Описание |
---|---|
partition_keys
Обязательно
|
ключи секций |
register
Регистрация набора данных в предоставленной рабочей области.
register(workspace, name, description=None, tags=None, create_new_version=False)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область для регистрации набора данных. |
name
Обязательно
|
Имя для регистрации набора данных. |
description
Обязательно
|
Текстовое описание набора данных. Значение по умолчанию — "None". |
tags
Обязательно
|
Словарь тегов значений ключа для предоставления набора данных. Значение по умолчанию — "None". |
create_new_version
Обязательно
|
Логическое значение для регистрации набора данных в качестве новой версии с указанным именем. |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный объект набора данных. |
remove_tags
Удалить указанные ключи из словаря тегов этого набора данных.
remove_tags(tags=None)
Параметры
Имя | Описание |
---|---|
tags
Обязательно
|
Список ключей для удаления. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных. |
unregister_all_versions
Отмените регистрацию всех версий с именем регистрации этого набора данных из рабочей области.
unregister_all_versions()
Комментарии
Эта операция не изменяет исходные данные.
update
Выполните обновление действующего набора данных.
update(description=None, tags=None)
Параметры
Имя | Описание |
---|---|
description
Обязательно
|
Новое описание, используемое для набора данных. Данное описание заменяет существующее описание. По умолчанию используется существующее описание. Чтобы очистить описание, введите пустую строку. |
tags
Обязательно
|
Словарь тегов для обновления набора данных. Эти теги заменяют существующие теги для набора данных. По умолчанию используются существующие теги. Чтобы удалить теги, введите пустой словарь. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных. |
Атрибуты
data_changed_time
Возврат времени изменения исходных данных.
Возвращаемое значение
Тип | Описание |
---|---|
Время, когда произошло самое последнее изменение в источнике данных. |
Комментарии
Время изменения данных доступно для файлового источника данных. Значение "None" возвращается, если источник данных не поддерживается для проверки того, когда произошло изменение.
description
id
Возврат идентификатора набора данных.
Возвращаемое значение
Тип | Описание |
---|---|
Идентификатор набора данных. Если набор данных не сохранен в какой-либо рабочей области, идентификатор будет иметь значение "None". |