DatasetSnapshot 클래스
스냅샷을 가져와 상태를 반환하고 데이터 프레임으로 변환하는 작업을 수행하여 데이터 세트 스냅샷을 관리합니다.
참고
이 클래스는 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
DataSnapshot 개체는 Dataset 클래스의 create_snapshot 메서드에서 반환됩니다.
데이터 세트 스냅샷 프로필과 데이터의 선택적 구체화된 복사본의 조합입니다.
데이터 세트 스냅샷에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots
- 상속
-
builtins.objectDatasetSnapshot
생성자
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
매개 변수
Name | Description |
---|---|
workspace
필수
|
<xref:azureml.core.Workspace.>
데이터 세트가 등록된 작업 영역입니다. |
snapshot_name
필수
|
데이터 세트 스냅샷의 이름입니다. |
dataset_id
필수
|
데이터 세트의 식별자입니다. |
definition_version
필수
|
데이터 세트의 정의 버전입니다. |
time_stamp
필수
|
스냅샷 생성 시간입니다. |
profile_action_id
필수
|
스냅샷 프로필 작업 ID입니다. |
datastore_name
필수
|
스냅샷 데이터 저장소 이름입니다. |
relative_path
필수
|
스냅샷 데이터의 상대 경로입니다. |
dataset_name
필수
|
데이터 세트의 이름입니다. |
메서드
compare_profiles |
현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다. 프로필이 없으면 이 메서드는 예외를 발생합니다. |
get |
스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다. |
get_all |
지정된 데이터 세트의 모든 스냅샷을 가져옵니다. |
get_profile |
데이터 세트 스냅샷의 프로필을 가져옵니다. |
get_status |
데이터 세트 스냅샷 만들기 상태를 가져옵니다. |
is_data_snapshot_available |
스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다. |
to_pandas_dataframe |
스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다. |
to_spark_dataframe |
스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다. |
wait_for_completion |
DatasetSnapshot 생성이 완료될 때까지 기다립니다. |
compare_profiles
현재 데이터 세트의 프로필을 rhs_dataset 프로필과 비교합니다.
프로필이 없으면 이 메서드는 예외를 발생합니다.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
매개 변수
Name | Description |
---|---|
rhs_dataset_snapshot
필수
|
비교할 데이터 세트 스냅샷입니다. |
include_columns
|
비교에 포함할 열 이름 목록입니다. Default value: None
|
exclude_columns
|
비교에서 제외할 열 이름 목록입니다. Default value: None
|
histogram_compare_method
|
비교 메서드를 설명하는 열거형입니다(예: WASSERSTEIN 또는 ENERGY). Default value: HistogramCompareMethod.WASSERSTEIN
|
반환
형식 | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
프로필 간의 차이입니다. |
get
스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 작업 영역입니다. |
snapshot_name
필수
|
데이터 세트 스냅샷의 이름입니다. |
dataset_name
필수
|
데이터 세트의 이름입니다. |
dataset_id
필수
|
데이터 세트의 식별자입니다. |
반환
형식 | Description |
---|---|
DatasetSnapshot 개체입니다. |
get_all
지정된 데이터 세트의 모든 스냅샷을 가져옵니다.
static get_all(workspace, dataset_name)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 작업 영역입니다. |
dataset_name
필수
|
데이터 세트의 이름입니다. |
반환
형식 | Description |
---|---|
데이터 세트 스냅샷 목록 |
get_profile
데이터 세트 스냅샷의 프로필을 가져옵니다.
get_profile()
반환
형식 | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
데이터 세트 스냅샷의 DataProfile |
get_status
is_data_snapshot_available
스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.
is_data_snapshot_available()
반환
형식 | Description |
---|---|
True이면 데이터 스냅샷을 사용할 수 있습니다. |
to_pandas_dataframe
스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.
to_pandas_dataframe()
반환
형식 | Description |
---|---|
Pandas DataFrame입니다. |
설명
메모리에서 완전히 구체화된 Pandas DataFrame입니다.
create_data_snapshot=False
를 사용하여 스냅샷을 만든 경우 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 함수 is_data_snapshot_available을 사용합니다.
to_spark_dataframe
스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.
to_spark_dataframe()
반환
형식 | Description |
---|---|
Spark DataFrame입니다. |
설명
반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다.
create_data_snapshot=False
를 사용하여 스냅샷을 만든 경우 데이터에 액세스하려고 하면 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 is_data_snapshot_available을 사용합니다.
wait_for_completion
DatasetSnapshot 생성이 완료될 때까지 기다립니다.
wait_for_completion(show_output=True, status_update_frequency=10)
매개 변수
Name | Description |
---|---|
show_output
|
메서드가 출력을 인쇄할지 여부를 나타냅니다. Default value: True
|
status_update_frequency
|
작업 실행 상태 업데이트 빈도(초)입니다. Default value: 10
|