AbstractDataset 클래스
Azure Machine Learning의 데이터 세트 기본 클래스입니다.
데이터 집합의 인스턴스를 만들려면 TabularDatasetFactory 클래스 및 FileDatasetFactory 클래스를 참조하세요.
클래스 AbstractDataset 생성자입니다.
이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스 및 FileDatasetFactory 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.
- 상속
-
builtins.objectAbstractDataset
생성자
AbstractDataset()
메서드
add_tags |
이 데이터 세트의 태그 사전에 키 값 쌍을 추가합니다. |
as_named_input |
실행 시 구체화된 데이터 세트를 검색하는 데 사용할 이 데이터 세트의 이름을 제공합니다. |
get_all |
작업 영역에서 등록된 모든 데이터 세트를 가져옵니다. |
get_by_id |
작업 영역에 저장된 데이터 세트를 가져옵니다. |
get_by_name |
작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다. |
get_partition_key_values |
partition_keys 고유 키 값을 반환합니다. partition_keys가 전체 파티션 키 집합의 유효한 하위 집합인지 확인하고, partition_keys의 고유 키 값을 반환하고, partition_keys가 None인 경우 이 데이터 세트의 전체 파티션 키 집합을 가져와서 고유 키 조합을 반환합니다.
|
register |
제공된 작업 영역에 데이터 세트를 등록합니다. |
remove_tags |
이 데이터 세트의 태그 사전에서 지정된 키를 제거합니다. |
unregister_all_versions |
작업 영역에서 이 데이터 세트의 등록 이름 아래에 있는 모든 버전을 등록 취소합니다. |
update |
데이터 세트의 전체 업데이트를 수행합니다. |
add_tags
이 데이터 세트의 태그 사전에 키 값 쌍을 추가합니다.
add_tags(tags=None)
매개 변수
Name | Description |
---|---|
tags
필수
|
추가할 태그의 사전입니다. |
반환
형식 | Description |
---|---|
업데이트된 데이터 세트 개체입니다. |
as_named_input
실행 시 구체화된 데이터 세트를 검색하는 데 사용할 이 데이터 세트의 이름을 제공합니다.
as_named_input(name)
매개 변수
Name | Description |
---|---|
name
필수
|
실행할 데이터 세트의 이름입니다. |
반환
형식 | Description |
---|---|
실행 시 데이터 세트를 구체화하는 방법을 설명하는 구성 개체입니다. |
설명
이 이름은 Azure Machine Learning 실행 내에서만 적용됩니다. 환경 변수로 사용할 수 있도록 이름에는 영숫자 및 밑줄 문자만 포함되어야 합니다. 이 이름을 사용하여 다음 두 가지 방법으로 실행 컨텍스트에서 데이터 세트를 검색할 수 있습니다.
환경 변수:
이름은 환경 변수 이름이고 구체화된 데이터 세트는 환경 변수의 값으로 사용할 수 있게 됩니다. 데이터 세트를 다운로드하거나 탑재하면 값은 다운로드된/탑재된 경로가 됩니다. 예를 들면 다음과 같습니다.
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
참고
데이터 세트가 직접 모드로 설정된 경우 값은 데이터 세트 ID가 됩니다. 그런 다음, 아래의 작업을 수행할 수 있습니다.
Dataset.get_by_id(os.environ[‘foo’])를 수행하여 데이터 세트 개체를 검색합니다.
Run.input_datasets:
키는 이 메서드에서 지정한 데이터 세트 이름이 되고 값은 구체화된 데이터 세트가 되는 사전입니다. 다운로드 및 탑재된 데이터 세트의 경우 값은 다운로드된/탑재된 경로가 됩니다. 직접 모드의 경우 값은 작업 제출 스크립트에서 지정한 것과 동일한 데이터 세트 개체가 됩니다.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.
static get_all(workspace)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 기존 AzureML 작업 영역입니다. |
반환
형식 | Description |
---|---|
등록 이름으로 키가 지정된 TabularDataset 및 FileDataset 개체의 사전입니다. |
get_by_id
작업 영역에 저장된 데이터 세트를 가져옵니다.
static get_by_id(workspace, id, **kwargs)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 저장된 기존 AzureML 작업 영역입니다. |
id
필수
|
데이터 세트의 ID입니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. 데이터 세트가 등록되면 등록 이름 및 버전도 반환됩니다. |
get_by_name
작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다.
static get_by_name(workspace, name, version='latest', **kwargs)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 기존 AzureML 작업 영역입니다. |
name
필수
|
등록 이름입니다. |
version
필수
|
등록 버전입니다. 기본값은 'latest'입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트 개체입니다. |
get_partition_key_values
partition_keys 고유 키 값을 반환합니다.
partition_keys가 전체 파티션 키 집합의 유효한 하위 집합인지 확인하고, partition_keys의 고유 키 값을 반환하고, partition_keys가 None인 경우 이 데이터 세트의 전체 파티션 키 집합을 가져와서 고유 키 조합을 반환합니다.
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
매개 변수
Name | Description |
---|---|
partition_keys
필수
|
파티션 키 |
register
제공된 작업 영역에 데이터 세트를 등록합니다.
register(workspace, name, description=None, tags=None, create_new_version=False)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트를 등록할 작업 영역입니다. |
name
필수
|
데이터 세트를 등록할 이름입니다. |
description
필수
|
데이터 세트에 대한 설명입니다. 기본값은 None입니다. |
tags
필수
|
데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다. |
create_new_version
필수
|
데이터 세트를 지정된 이름의 새 버전으로 등록하는 부울입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트 개체입니다. |
remove_tags
이 데이터 세트의 태그 사전에서 지정된 키를 제거합니다.
remove_tags(tags=None)
매개 변수
Name | Description |
---|---|
tags
필수
|
제거할 키 목록입니다. |
반환
형식 | Description |
---|---|
업데이트된 데이터 세트 개체입니다. |
unregister_all_versions
작업 영역에서 이 데이터 세트의 등록 이름 아래에 있는 모든 버전을 등록 취소합니다.
unregister_all_versions()
설명
이 작업은 원본 데이터를 변경하지 않습니다.
update
데이터 세트의 전체 업데이트를 수행합니다.
update(description=None, tags=None)
매개 변수
Name | Description |
---|---|
description
필수
|
데이터 세트에 사용할 새 설명입니다. 이 설명은 기존 설명을 대체합니다. 기본값은 기존 설명입니다. 설명을 지우려면 빈 문자열을 입력합니다. |
tags
필수
|
데이터 세트를 업데이트할 태그 사전입니다. 이러한 태그는 데이터 세트의 기존 태그를 대체합니다. 기본값은 기존 태그입니다. 태그를 지우려면 빈 사전을 입력합니다. |
반환
형식 | Description |
---|---|
업데이트된 데이터 세트 개체입니다. |
특성
data_changed_time
원본 데이터 변경 시간을 반환합니다.
반환
형식 | Description |
---|---|
가장 최근에 원본 데이터가 변경된 시간입니다. |
설명
데이터 변경 시간은 파일 기반 데이터 원본에 사용할 수 있습니다. 변경 시간을 확인할 수 있는 데이터 원본이 지원되지 않으면 아무 것도 반환되지 않습니다.