다음을 통해 공유


data 패키지

Azure Machine Learning의 데이터 저장소 및 데이터 집합에 대한 데이터 표현을 지원하는 모듈이 포함되어 있습니다.

이 패키지에는 core 패키지의 DatastoreDataset 클래스를 지원하는 핵심 기능이 포함되어 있습니다. 데이터 저장소 개체에는 스크립트에서 직접 작업하거나 연결 정보를 하드 코딩할 필요 없이 이름으로 쉽게 참조할 수 있는 Azure Storage 서비스에 대한 연결 정보가 포함되어 있습니다. 데이터 저장소는 AzureBlobDatastore, AzureFileDatastore, AzureDataLakeDatastore를 포함하여 이 패키지의 클래스로 표시되는 다양한 서비스를 지원합니다. 지원되는 스토리지 서비스의 전체 목록은 Datastore 클래스를 참조하세요.

데이터 저장소는 데이터 파일의 컨테이너 역할을 하지만 데이터 집합은 데이터 저장소에 있는 특정 데이터에 대한 참조 또는 포인터로 생각할 수 있습니다. 지원되는 데이터 집합 형식은 다음과 같습니다.

  • TabularDataset는 제공된 파일 또는 파일 목록을 구문 분석하여 만든 데이터를 테이블 형식으로 나타냅니다.

  • FileDataset는 데이터 저장소 또는 공용 URL의 단일 파일 또는 여러 파일을 참조합니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebook을 참조하세요.

모듈

abstract_dataset

Azure Machine Learning 데이터 세트에 대한 추상 기본 클래스를 포함하고 있습니다.

abstract_datastore

Azure Storage 서비스에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다.

azure_data_lake_datastore

Azure Data Lake Storage에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다.

azure_my_sql_datastore

Azure Database for MySQL에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다.

azure_postgre_sql_datastore

Azure Database for PostgreSQL에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다.

azure_sql_database_datastore

Azure SQL Database에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다.

azure_storage_datastore

Azure Blob 및 Azure File Storage에 대한 연결 정보를 저장하는 데이터 저장소에 대한 기능이 포함되어 있습니다.

constants

azureml.data 패키지에 사용되는 상수입니다. 내부 전용입니다.

context_managers

데이터 저장소 및 데이터 세트의 데이터 컨텍스트를 관리하는 기능이 포함되어 있습니다. 내부 전용입니다.

data_reference

데이터 저장소의 데이터에 대한 참조를 만드는 방법을 정의하는 기능이 포함되어 있습니다.

datacache

Azure Machine Learning에서 DatacacheStore 및 Datacache를 관리하기 위한 기능이 포함되어 있습니다.

datacache_client

내부 전용입니다.

datacache_consumption_config

DataCache 사용량 구성을 위한 기능이 포함되어 있습니다.

datacache_singularity_settings

Datacache 특이점 설정 표현에 필요한 개체를 포함합니다.

datapath

데이터 저장소의 데이터에 대한 참조를 만드는 기능이 포함되어 있습니다.

이 모듈에는 데이터 위치를 나타내는 DataPath 클래스와 컴퓨팅 대상에서 데이터를 사용할 수 있는 방법을 나타내는 DataPathComputeBinding 클래스가 포함되어 있습니다.

dataset_action_run

데이터 세트 작업의 실행을 관리하는 기능이 포함되어 있습니다.

이 모듈은 데이터 세트 작업을 만들고 완료 후 결과를 얻을 수 있는 편리한 메서드를 제공합니다.

dataset_consumption_config

데이터 세트 사용량 구성을 위한 기능이 포함되어 있습니다.

dataset_definition

데이터 세트 정의 및 해당 작업을 관리하는 기능이 포함되어 있습니다.

참고

이 모듈은 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

dataset_error_handling

Azure Machine Learning의 데이터 세트 오류 처리에 대한 예외를 포함합니다.

dataset_factory

Azure Machine Learning에 대한 데이터 세트를 만드는 기능이 포함되어 있습니다.

dataset_profile

Dataflow에서 생성된 데이터에 대한 요약 통계를 수집하기 위한 클래스입니다.

이 모듈의 기능에는 프로필이 부실한지 여부에 관계없이 프로필을 생성한 실행에 관한 정보 수집이 포함됩니다.

dataset_profile_run

Azure Machine Learning에서 실행되는 데이터 세트 프로필을 모니터링하기 위한 구성이 포함되어 있습니다.

이 모듈의 기능에는 실험 개체 및 개별 실행 ID와 연결된 데이터 세트 프로필 실행 처리 및 모니터링이 포함됩니다.

dataset_profile_run_config

Azure Machine Learning에서 데이터 세트의 통계 요약을 생성하기 위한 구성이 포함되어 있습니다.

이 모듈의 기능에는 로컬 또는 원격 프로필 실행을 제출하고 제출된 프로필 실행 결과를 시각화하는 메서드가 포함됩니다.

dataset_snapshot

데이터 세트 스냅샷 작업을 관리하는 기능이 포함되어 있습니다.

참고

이 모듈은 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

dataset_type_definitions

Dataset와 함께 사용되는 열거형 값을 포함합니다.

datastore_client

내부 전용입니다.

dbfs_datastore

DBFS(Databricks File Sytem)에 대한 연결 정보를 저장하는 데이터 저장소에 대한 기능이 포함되어 있습니다.

file_dataset

데이터 저장소 또는 공용 URL에서 단일 또는 여러 파일을 참조하는 기능이 포함되어 있습니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 파일 데이터 세트 작업을 시작하려면 https://aka.ms/filedataset-samplenotebook을 참조하세요.

hdfs_datastore

HDFS 클러스터에 연결 정보를 저장하는 데이터 저장소의 기본 기능이 포함되어 있습니다.

output_dataset_config

작업에 대한 출력을 업로드하고 데이터 집합으로 승격하는 방법을 지정하는 구성이 포함되어 있습니다.

자세한 내용은 출력을 지정하는 방법 문서를 참조하세요.

sql_data_reference

SQL 데이터베이스에 대한 연결 정보를 저장하는 데이터 저장소의 데이터에 대한 참조를 만들기 위한 기능이 포함되어 있습니다.

stored_procedure_parameter

SQL 저장 프로시저에 전달할 매개 변수를 만드는 기능이 포함되어 있습니다.

tabular_dataset

제공된 파일 또는 파일 목록을 구문 분석하여 테이블 형식으로 데이터를 나타내는 기능이 포함되어 있습니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요.

클래스

DataType

Azure Machine Learning에서 만든 데이터 세트에 대한 열 데이터 형식을 구성합니다.

DataType 메서드는 새 TabularDataset 개체를 만드는 데 사용되는 TabularDatasetFactory 클래스 from_* 메서드에서 사용됩니다.

DatacacheStore

참고

이는 실험적인 클래스이며 언제든지 변경될 수 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

Azure Machine Learning 스토리지 계정에 대한 스토리지 추상화를 나타냅니다.

DatacacheStores는 작업 영역에 연결되며 기본 데이터 캐시 솔루션과 관련된 정보를 저장하는 데 사용됩니다. 현재 분할된 Blob 솔루션만 지원됩니다. Datacachestores는 캐싱에 사용할 수 있는 다양한 Blob 데이터 저장소를 정의합니다.

이 클래스를 사용하여 데이터 캐시 저장소 등록, 나열, 가져오기, 업데이트를 포함한 관리 작업을 수행합니다. 각 서비스의 DatacacheStores는 이 클래스의 register* 메서드로 만들어집니다.

이름으로 데이터 캐시 저장소를 가져옵니다. 이 호출은 datacache 서비스를 요청합니다.

FileDataset

Azure Machine Learning에서 사용할 데이터 저장소 또는 공용 URL의 파일 참조 컬렉션을 나타냅니다.

FileDataset는 데이터 원본에서 파일 스트림으로 데이터를 로드하는 일련의 지연 평가되고 변경이 불가능한 작업을 정의합니다. FileDataset에 데이터 전달이 요청될 때까지 데이터는 원본에서 로드되지 않습니다.

FileDatasetFactory 클래스의 from_files 메서드를 사용하여 FileDataset가 만들어집니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 파일 데이터 집합 작업을 시작하려면 https://aka.ms/filedataset-samplenotebook을 참조하세요.

FileDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 FileDatasetFactory 만들기 위한 것입니다.

HDFSOutputDatasetConfig

HDFS 경로로 출력하고 FileDataset로 승격하는 방법을 나타냅니다.

HDFSOutputDatasetConfig를 초기화합니다.

LinkFileOutputDatasetConfig

참고

이는 실험적인 클래스이며 언제든지 변경될 수 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

실행의 출력을 연결하고 FileDataset로 승격하는 방법을 나타냅니다.

LinkFileOutputDatasetConfig를 사용하면 파일 데이터 세트를 출력 데이터 세트로 연결할 수 있습니다.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

LinkFileOutputDatasetConfig를 초기화합니다.

LinkTabularOutputDatasetConfig

참고

이는 실험적인 클래스이며 언제든지 변경될 수 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

실행의 출력을 연결하고 TabularDataset으로 승격하는 방법을 나타냅니다.

LinkTabularOutputDatasetConfig를 사용하면 표 형식 파일을 출력 데이터 세트로 연결할 수 있습니다.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

LinkTabularOutputDatasetConfig를 초기화합니다.

OutputFileDatasetConfig

실행 결과를 복사하고 FileDataset으로 승격하는 방법을 나타냅니다.

OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드하는 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다.

인수를 전달하지 않는 예:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

출력을 만든 다음 출력을 표 형식 데이터 세트로 승격하고 이름 foo로 등록하는 예:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

OutputFileDatasetConfig를 초기화합니다.

OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드하는 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다.

인수를 전달하지 않는 예:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

출력을 만든 다음 출력을 표 형식 데이터 세트로 승격하고 이름 foo로 등록하는 예:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Azure Machine Learning에 사용할 테이블 형식 데이터 세트를 나타냅니다.

TabularDataset은 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가되고, 변경이 불가능한 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 원본에서 데이터가 로드되지 않습니다.

TabularDataset은 TabularDatasetFactory 클래스의 from_delimited_files와 같은 메서드를 사용하여 만들어집니다.

자세한 내용은 데이터 세트 등록 & 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 https://aka.ms/tabulardataset-samplenotebook을 참조하세요.

TabularDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.