DatasetSnapshot Класс
Управляет моментальными снимками наборов данных с помощью операций для получения моментального снимка, возврата его состояния и его преобразования в кадр данных.
Примечание
Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Объект DataSnapshot возвращается из метода create_snapshot класса Dataset.
Набор данных snapshot представляет собой сочетание профиля и необязательной материализованной копии данных.
Дополнительные сведения о моментальных снимках наборов данных см. на https://aka.ms/azureml/howto/createsnapshots
- Наследование
-
builtins.objectDatasetSnapshot
Конструктор
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
<xref:azureml.core.Workspace.>
Рабочая область, в которой зарегистрирован набор данных. |
snapshot_name
Обязательно
|
Имя моментального снимка набора данных. |
dataset_id
Обязательно
|
Идентификатор набора данных. |
definition_version
Обязательно
|
Версия определения набора данных. |
time_stamp
Обязательно
|
Время создания snapshot. |
profile_action_id
Обязательно
|
Идентификатор действия профиля snapshot. |
datastore_name
Обязательно
|
Имя хранилища данных snapshot. |
relative_path
Обязательно
|
Относительный путь к данным snapshot. |
dataset_name
Обязательно
|
Имя набора данных. |
Методы
compare_profiles |
Сравнивает текущий профиль набора данных с профилем rhs_dataset. Если профили не существуют, этот метод вызовет исключение. |
get |
Получение моментального снимка набора данных по имени моментального снимка. |
get_all |
Возвращает все моментальные снимки заданного набора данных. |
get_profile |
Возвращает профиль моментального снимка набора данных. |
get_status |
Возвращает состояние создания моментального снимка набора данных. |
is_data_snapshot_available |
Проверяет, доступен ли материализованный экземпляр моментального снимка. |
to_pandas_dataframe |
Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка. |
to_spark_dataframe |
Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка. |
wait_for_completion |
Дождитесь завершения создания DatasetSnapshot. |
compare_profiles
Сравнивает текущий профиль набора данных с профилем rhs_dataset.
Если профили не существуют, этот метод вызовет исключение.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Параметры
Имя | Описание |
---|---|
rhs_dataset_snapshot
Обязательно
|
Моментальный снимок набора данных для сравнения. |
include_columns
|
Список имен столбцов, учитываемых при сравнении. Default value: None
|
exclude_columns
|
Список имен столбцов, исключаемых при сравнении. Default value: None
|
histogram_compare_method
|
Перечисление, описывающее метод сравнения, например, WASSERSTEIN или ENERGY. Default value: HistogramCompareMethod.WASSERSTEIN
|
Возвращаемое значение
Тип | Описание |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Разница между профилями. |
get
Получение моментального снимка набора данных по имени моментального снимка.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область, в которой зарегистрирован набор данных. |
snapshot_name
Обязательно
|
Имя моментального снимка набора данных. |
dataset_name
Обязательно
|
Имя набора данных. |
dataset_id
Обязательно
|
Идентификатор набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект DatasetSnapshot. |
get_all
Возвращает все моментальные снимки заданного набора данных.
static get_all(workspace, dataset_name)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область, в которой зарегистрирован набор данных. |
dataset_name
Обязательно
|
Имя набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Список моментальных снимков набора данных |
get_profile
Возвращает профиль моментального снимка набора данных.
get_profile()
Возвращаемое значение
Тип | Описание |
---|---|
<xref:azureml.dataprep.DataProfile>
|
Профиль данных моментального снимка набора данных |
get_status
Возвращает состояние создания моментального снимка набора данных.
get_status()
Возвращаемое значение
Тип | Описание |
---|---|
Состояние моментального снимка набора данных. |
is_data_snapshot_available
Проверяет, доступен ли материализованный экземпляр моментального снимка.
is_data_snapshot_available()
Возвращаемое значение
Тип | Описание |
---|---|
Значение True, если моментальный снимок данных доступен. |
to_pandas_dataframe
Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.
to_pandas_dataframe()
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Pandas. |
Комментарии
Кадр данных Pandas полностью материализован в памяти. Если моментальный снимок был создан с помощью create_data_snapshot=False
, создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте функцию is_data_snapshot_available.
to_spark_dataframe
Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.
to_spark_dataframe()
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Spark. |
Комментарии
Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно. Если моментальный снимок был создан с помощью create_data_snapshot=False
, при попытке получить доступ к данным создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте is_data_snapshot_available.
wait_for_completion
Дождитесь завершения создания DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Параметры
Имя | Описание |
---|---|
show_output
|
Указывает, позволяет ли метод печатать выходные данные. Default value: True
|
status_update_frequency
|
Частота обновления состояния выполнения действия в секундах. Default value: 10
|
Атрибуты
dataset_id
Возвращает идентификатор набора данных.
Возвращаемое значение
Тип | Описание |
---|---|
Идентификатор набора данных. |
name
Возвращает имя моментального снимка набора данных.
Возвращаемое значение
Тип | Описание |
---|---|
Имя моментального снимка набора данных. |
workspace
Возвращает рабочую область Машинного обучения Azure, где зарегистрирован набор данных.
Возвращаемое значение
Тип | Описание |
---|---|
Рабочая область, в которой зарегистрирован набор данных. |