data 패키지
Azure Machine Learning의 데이터 저장소 및 데이터 집합에 대한 데이터 표현을 지원하는 모듈이 포함되어 있습니다.
이 패키지에는 core 패키지의 Datastore 및 Dataset 클래스를 지원하는 핵심 기능이 포함되어 있습니다. 데이터 저장소 개체에는 스크립트에서 직접 작업하거나 연결 정보를 하드 코딩할 필요 없이 이름으로 쉽게 참조할 수 있는 Azure Storage 서비스에 대한 연결 정보가 포함되어 있습니다. 데이터 저장소는 AzureBlobDatastore, AzureFileDatastore, AzureDataLakeDatastore를 포함하여 이 패키지의 클래스로 표시되는 다양한 서비스를 지원합니다. 지원되는 스토리지 서비스의 전체 목록은 Datastore 클래스를 참조하세요.
데이터 저장소는 데이터 파일의 컨테이너 역할을 하지만 데이터 집합은 데이터 저장소에 있는 특정 데이터에 대한 참조 또는 포인터로 생각할 수 있습니다. 지원되는 데이터 집합 형식은 다음과 같습니다.
TabularDataset는 제공된 파일 또는 파일 목록을 구문 분석하여 만든 데이터를 테이블 형식으로 나타냅니다.
FileDataset는 데이터 저장소 또는 공용 URL의 단일 파일 또는 여러 파일을 참조합니다.
자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook 및 https://aka.ms/filedataset-samplenotebook을 참조하세요.
모듈
abstract_dataset |
Azure Machine Learning 데이터 세트에 대한 추상 기본 클래스를 포함하고 있습니다. |
abstract_datastore |
Azure Storage 서비스에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다. |
azure_data_lake_datastore |
Azure Data Lake Storage에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다. |
azure_my_sql_datastore |
Azure Database for MySQL에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다. |
azure_postgre_sql_datastore |
Azure Database for PostgreSQL에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다. |
azure_sql_database_datastore |
Azure SQL Database에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다. |
azure_storage_datastore |
Azure Blob 및 Azure File Storage에 대한 연결 정보를 저장하는 데이터 저장소에 대한 기능이 포함되어 있습니다. |
constants |
azureml.data 패키지에 사용되는 상수입니다. 내부 전용입니다. |
context_managers |
데이터 저장소 및 데이터 세트의 데이터 컨텍스트를 관리하는 기능이 포함되어 있습니다. 내부 전용입니다. |
data_reference |
데이터 저장소의 데이터에 대한 참조를 만드는 방법을 정의하는 기능이 포함되어 있습니다. |
datacache |
Azure Machine Learning에서 DatacacheStore 및 Datacache를 관리하기 위한 기능이 포함되어 있습니다. |
datacache_client |
내부 전용입니다. |
datacache_consumption_config |
DataCache 사용량 구성을 위한 기능이 포함되어 있습니다. |
datacache_singularity_settings |
Datacache 특이점 설정 표현에 필요한 개체를 포함합니다. |
datapath |
데이터 저장소의 데이터에 대한 참조를 만드는 기능이 포함되어 있습니다. 이 모듈에는 데이터 위치를 나타내는 DataPath 클래스와 컴퓨팅 대상에서 데이터를 사용할 수 있는 방법을 나타내는 DataPathComputeBinding 클래스가 포함되어 있습니다. |
dataset_action_run |
데이터 세트 작업의 실행을 관리하는 기능이 포함되어 있습니다. 이 모듈은 데이터 세트 작업을 만들고 완료 후 결과를 얻을 수 있는 편리한 메서드를 제공합니다. |
dataset_consumption_config |
데이터 세트 사용량 구성을 위한 기능이 포함되어 있습니다. |
dataset_definition |
데이터 세트 정의 및 해당 작업을 관리하는 기능이 포함되어 있습니다. 참고 이 모듈은 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
dataset_error_handling |
Azure Machine Learning의 데이터 세트 오류 처리에 대한 예외를 포함합니다. |
dataset_factory |
Azure Machine Learning에 대한 데이터 세트를 만드는 기능이 포함되어 있습니다. |
dataset_profile |
Dataflow에서 생성된 데이터에 대한 요약 통계를 수집하기 위한 클래스입니다. 이 모듈의 기능에는 프로필이 부실한지 여부에 관계없이 프로필을 생성한 실행에 관한 정보 수집이 포함됩니다. |
dataset_profile_run |
Azure Machine Learning에서 실행되는 데이터 세트 프로필을 모니터링하기 위한 구성이 포함되어 있습니다. 이 모듈의 기능에는 실험 개체 및 개별 실행 ID와 연결된 데이터 세트 프로필 실행 처리 및 모니터링이 포함됩니다. |
dataset_profile_run_config |
Azure Machine Learning에서 데이터 세트의 통계 요약을 생성하기 위한 구성이 포함되어 있습니다. 이 모듈의 기능에는 로컬 또는 원격 프로필 실행을 제출하고 제출된 프로필 실행 결과를 시각화하는 메서드가 포함됩니다. |
dataset_snapshot |
데이터 세트 스냅샷 작업을 관리하는 기능이 포함되어 있습니다. 참고 이 모듈은 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
dataset_type_definitions |
Dataset와 함께 사용되는 열거형 값을 포함합니다. |
datastore_client |
내부 전용입니다. |
dbfs_datastore |
DBFS(Databricks File Sytem)에 대한 연결 정보를 저장하는 데이터 저장소에 대한 기능이 포함되어 있습니다. |
file_dataset |
데이터 저장소 또는 공용 URL에서 단일 또는 여러 파일을 참조하는 기능이 포함되어 있습니다. 자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 파일 데이터 세트 작업을 시작하려면 https://aka.ms/filedataset-samplenotebook을 참조하세요. |
hdfs_datastore |
HDFS 클러스터에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다. |
output_dataset_config |
작업에 대한 출력을 업로드하고 데이터 집합으로 승격하는 방법을 지정하는 구성이 포함되어 있습니다. 자세한 내용은 출력을 지정하는 방법 문서를 참조하세요. |
sql_data_reference |
SQL 데이터베이스에 대한 연결 정보를 저장하는 데이터 저장소의 데이터에 대한 참조를 만들기 위한 기능이 포함되어 있습니다. |
stored_procedure_parameter |
SQL 저장 프로시저에 전달할 매개 변수를 만드는 기능이 포함되어 있습니다. |
tabular_dataset |
제공된 파일 또는 파일 목록을 구문 분석하여 테이블 형식으로 데이터를 나타내는 기능이 포함되어 있습니다. 자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요. |
클래스
DataType |
Azure Machine Learning에서 만든 데이터 세트에 대한 열 데이터 형식을 구성합니다. DataType 메서드는 새 TabularDataset 개체를 만드는 데 사용되는 TabularDatasetFactory 클래스 |
DatacacheStore |
참고 이는 실험적인 클래스이며 언제든지 변경될 수 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. Azure Machine Learning 스토리지 계정에 대한 스토리지 추상화를 나타냅니다. DatacacheStores는 작업 영역에 연결되며 기본 데이터 캐시 솔루션과 관련된 정보를 저장하는 데 사용됩니다. 현재 분할된 Blob 솔루션만 지원됩니다. Datacachestores는 캐싱에 사용할 수 있는 다양한 Blob 데이터 저장소를 정의합니다. 이 클래스를 사용하여 데이터 캐시 저장소 등록, 나열, 가져오기, 업데이트를 포함한 관리 작업을 수행합니다.
각 서비스의 DatacacheStores는 이 클래스의 이름으로 데이터 캐시 저장소를 가져옵니다. 이 호출은 datacache 서비스를 요청합니다. |
FileDataset |
Azure Machine Learning에서 사용할 데이터 저장소 또는 공용 URL의 파일 참조 컬렉션을 나타냅니다. FileDataset는 데이터 원본에서 파일 스트림으로 데이터를 로드하는 일련의 지연 평가되고 변경이 불가능한 작업을 정의합니다. FileDataset에 데이터 전달이 요청될 때까지 데이터는 원본에서 로드되지 않습니다. FileDatasetFactory 클래스의 from_files 메서드를 사용하여 FileDataset가 만들어집니다. 자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 파일 데이터 집합 작업을 시작하려면 https://aka.ms/filedataset-samplenotebook을 참조하세요. FileDataset 개체를 초기화합니다. 이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 FileDatasetFactory 만들기 위한 것입니다. |
HDFSOutputDatasetConfig |
HDFS 경로로 출력하고 FileDataset로 승격하는 방법을 나타냅니다. HDFSOutputDatasetConfig를 초기화합니다. |
LinkFileOutputDatasetConfig |
참고 이는 실험적인 클래스이며 언제든지 변경될 수 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 실행의 출력을 연결하고 FileDataset로 승격하는 방법을 나타냅니다. LinkFileOutputDatasetConfig를 사용하면 파일 데이터 세트를 출력 데이터 세트로 연결할 수 있습니다.
LinkFileOutputDatasetConfig를 초기화합니다. |
LinkTabularOutputDatasetConfig |
참고 이는 실험적인 클래스이며 언제든지 변경될 수 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. 실행의 출력을 연결하고 TabularDataset으로 승격하는 방법을 나타냅니다. LinkTabularOutputDatasetConfig를 사용하면 표 형식 파일을 출력 데이터 세트로 연결할 수 있습니다.
LinkTabularOutputDatasetConfig를 초기화합니다. |
OutputFileDatasetConfig |
실행 결과를 복사하고 FileDataset으로 승격하는 방법을 나타냅니다. OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드하는 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다. 인수를 전달하지 않는 예:
출력을 만든 다음 출력을 표 형식 데이터 세트로 승격하고 이름 foo로 등록하는 예:
OutputFileDatasetConfig를 초기화합니다. OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드하는 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다. 인수를 전달하지 않는 예:
출력을 만든 다음 출력을 표 형식 데이터 세트로 승격하고 이름 foo로 등록하는 예:
|
TabularDataset |
Azure Machine Learning에 사용할 테이블 형식 데이터 세트를 나타냅니다. TabularDataset은 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가되고, 변경이 불가능한 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 원본에서 데이터가 로드되지 않습니다. TabularDataset은 TabularDatasetFactory 클래스의 from_delimited_files와 같은 메서드를 사용하여 만들어집니다. 자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요. TabularDataset 개체를 초기화합니다. 이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다. |