DatasetSnapshot 클래스

참조

스냅샷을 가져와 상태를 반환하고 데이터 프레임으로 변환하는 작업을 수행하여 데이터 세트 스냅샷을 관리합니다.

참고

이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

DataSnapshot 개체는 Dataset 클래스의 create_snapshot 메서드에서 반환됩니다.

데이터 세트 스냅샷 프로필과 데이터의 선택적 구체화된 복사본의 조합입니다.

데이터 세트 스냅샷에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots

상속: builtins.object

DatasetSnapshot

생성자

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

매개 변수

Name	Description
workspace 필수	<xref:azureml.core.Workspace.> 데이터 세트가 등록된 작업 영역입니다.
snapshot_name 필수	str 데이터 세트 스냅샷의 이름입니다.
dataset_id 필수	str 데이터 세트의 식별자입니다.
definition_version 필수	str 데이터 세트의 정의 버전입니다.
time_stamp 필수	datetime 스냅샷 생성 시간입니다.
profile_action_id 필수	str 스냅샷 프로필 작업 ID입니다.
datastore_name 필수	str 스냅샷 데이터 저장소 이름입니다.
relative_path 필수	str 스냅샷 데이터의 상대 경로입니다.
dataset_name 필수	str 데이터 세트의 이름입니다.

메서드

compare_profiles	현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다. 프로필이 없으면 이 메서드는 예외를 발생합니다.
get	스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.
get_all	지정된 데이터 세트의 모든 스냅샷을 가져옵니다.
get_profile	데이터 세트 스냅샷의 프로필을 가져옵니다.
get_status	데이터 세트 스냅샷 만들기 상태를 가져옵니다.
is_data_snapshot_available	스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.
to_pandas_dataframe	스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.
to_spark_dataframe	스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.
wait_for_completion	DatasetSnapshot 생성이 완료될 때까지 기다립니다.

compare_profiles

현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다.

프로필이 없으면 이 메서드는 예외를 발생합니다.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

매개 변수

Name	Description
rhs_dataset_snapshot 필수	DatasetSnapshot 비교할 데이터 세트 스냅샷입니다.
include_columns	list[str] 비교에 포함할 열 이름 목록입니다. Default value: None
exclude_columns	list[str] 비교에서 제외할 열 이름 목록입니다. Default value: None
histogram_compare_method	HistogramCompareMethod 비교 메서드를 설명하는 열거형입니다(예: WASSERSTEIN 또는 ENERGY). Default value: HistogramCompareMethod.WASSERSTEIN

반환

형식	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	프로필 간의 차이입니다.

get

스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

매개 변수

Name	Description
workspace 필수	Workspace 데이터 세트가 등록된 작업 영역입니다.
snapshot_name 필수	str 데이터 세트 스냅샷의 이름입니다.
dataset_name 필수	데이터 세트의 이름입니다.
dataset_id 필수	uuid 데이터 세트의 식별자입니다.

반환

형식	Description
DatasetSnapshot	DatasetSnapshot 개체입니다.

get_all

지정된 데이터 세트의 모든 스냅샷을 가져옵니다.

static get_all(workspace, dataset_name)

매개 변수

Name	Description
workspace 필수	Workspace 데이터 세트가 등록된 작업 영역입니다.
dataset_name 필수	데이터 세트의 이름입니다.

반환

형식	Description
list[DatasetSnapshot]	데이터 세트 스냅샷 목록

get_profile

데이터 세트 스냅샷의 프로필을 가져옵니다.

get_profile()

반환

형식	Description
<xref:azureml.dataprep.DataProfile>	데이터 세트 스냅샷의 DataProfile

get_status

데이터 세트 스냅샷 만들기 상태를 가져옵니다.

get_status()

반환

형식	Description
str	데이터 세트 스냅샷의 상태입니다.

is_data_snapshot_available

스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.

is_data_snapshot_available()

반환

형식	Description
bool	True이면 데이터 스냅샷을 사용할 수 있습니다.

to_pandas_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.

to_pandas_dataframe()

반환

형식	Description
DataFrame	Pandas DataFrame입니다.

설명

메모리에서 완전히 구체화된 Pandas DataFrame입니다. create_data_snapshot=False를 사용하여 스냅샷을 만든 경우 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 함수 is_data_snapshot_available을 사용합니다.

to_spark_dataframe

스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.

to_spark_dataframe()

반환

형식	Description
DataFrame	Spark DataFrame입니다.

설명

반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다. create_data_snapshot=False를 사용하여 스냅샷을 만든 경우 데이터에 액세스하려고 하면 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 is_data_snapshot_available을 사용합니다.

wait_for_completion

DatasetSnapshot 생성이 완료될 때까지 기다립니다.

wait_for_completion(show_output=True, status_update_frequency=10)

매개 변수

Name	Description
show_output	bool 메서드가 출력을 인쇄할지 여부를 나타냅니다. Default value: True
status_update_frequency	int 작업 실행 상태 업데이트 빈도(초)입니다. Default value: 10

특성

dataset_id

데이터 세트 식별자를 가져옵니다.

반환

형식	Description
str	데이터 세트 ID입니다.

name

데이터 세트 스냅샷 이름을 가져옵니다.

반환

형식	Description
str	데이터 세트 스냅샷 이름입니다.

workspace

데이터 세트가 등록된 Azure Machine Learning 작업 영역을 가져옵니다.

반환

형식	Description
Workspace	데이터 세트가 등록된 작업 영역입니다.

다음을 통해 공유

DatasetSnapshot 클래스

생성자

매개 변수

메서드

compare_profiles

매개 변수

반환

get

매개 변수

반환

get_all

매개 변수

반환

get_profile

반환

get_status

반환

is_data_snapshot_available

반환

to_pandas_dataframe

반환

설명

to_spark_dataframe

반환

설명

wait_for_completion

매개 변수

특성

dataset_id

반환

name

반환

workspace

반환

피드백

추가 리소스