Dataset 클래스
Azure Machine Learning에서 데이터를 탐색, 변환, 관리하는 데 사용되는 리소스를 나타냅니다.
데이터 세트는 Datastore에 있거나 퍼블릭 웹 URL 뒤에 있는 데이터에 대한 참조입니다.
이 클래스에서 사용되지 않는 메서드는 향상된 API의 AbstractDataset 클래스를 확인하세요.
지원되는 데이터 세트 형식은 다음과 같습니다.
TabularDataset는 제공된 파일 또는 파일 목록을 구문 분석하여 만든 데이터를 테이블 형식으로 나타냅니다.
FileDataset는 데이터 저장소 또는 공개 URL에서 하나 또는 여러 파일을 참조합니다.
데이터 세트를 시작하려면 데이터 세트 등록 & 추가 문서를 참조하거나 Notebook 및 를 참조하세요 https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebook.
데이터 세트 개체를 초기화합니다.
작업 영역에 이미 등록된 데이터 세트를 가져오려면 get 메서드를 사용합니다.
- 상속
-
builtins.objectDataset
생성자
Dataset(definition, workspace=None, name=None, id=None)
매개 변수
Name | Description |
---|---|
definition
필수
|
<xref:azureml.data.DatasetDefinition>
데이터 세트 정의입니다. |
workspace
필수
|
데이터 세트가 있는 작업 영역입니다. |
name
필수
|
데이터 세트의 이름입니다. |
id
필수
|
데이터 세트의 고유 식별자입니다. |
설명
Dataset 클래스는 해당 팩터리 메서드로 작업하지 않고도 Dataset를 만드는 데 사용할 수 있는 두 가지 편의 클래스 특성(File
및 Tabular
)을 노출합니다. 예를 들어 다음 특성을 사용하여 데이터 세트를 만들려면 다음을 수행합니다.
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
TabularDatasetFactory 및 FileDatasetFactory에 정의된 클래스의 해당 팩터리 메서드를 직접 호출하여 새로운 TabularDataset 또는 FileDataset를 만들 수도 있습니다.
다음 예제에서는 데이터 저장소의 단일 경로를 가리키는 TabularDataset를 만드는 방법을 보여 줍니다.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
전체 샘플은 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb에서 사용할 수 있습니다.
변수
Name | Description |
---|---|
azureml.core.Dataset.File
|
새 FileDataset 개체를 만들기 위한 FileDatasetFactory 메서드에 대한 액세스를 제공하는 클래스 특성입니다. 사용법: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
새 TabularDataset 개체를 만들기 위한 TabularDatasetFactory 메서드에 대한 액세스를 제공하는 클래스 특성입니다. 사용법: Dataset.Tabular.from_delimited_files(). |
메서드
archive |
활성 또는 사용되지 않는 데이터 세트를 보관합니다. |
auto_read_files |
지정된 경로의 파일을 분석하고 새 데이터 세트를 반환합니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. Dataset.Tabular.from_* 메서드를 사용하여 파일을 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
compare_profiles |
현재 데이터 세트의 프로필을 다른 데이터 세트 프로필과 비교합니다. 두 데이터 세트의 차이점을 요약 통계로 보여 줍니다. 'rhs_dataset' 매개 변수는 "오른쪽"을 의미하며 단순히 두 번째 데이터 세트입니다. 첫 번째 데이터 세트(현재 데이터 세트 개체)는 "왼쪽"으로 간주합니다. |
create_snapshot |
등록된 데이터 세트의 스냅샷을 만듭니다. |
delete_snapshot |
이름을 기준으로 데이터 세트의 스냅샷을 삭제합니다. |
deprecate |
작업 영역의 활성 데이터 세트를 다른 데이터 세트로 사용 중단합니다. |
diff |
rhs_dataset를 사용하여 현재 데이터 세트를 비교합니다. |
from_binary_files |
이진 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 Dataset.File.from_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
from_delimited_files |
구분된 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 Dataset.Tabular.from_delimited_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
|
from_excel_files |
Excel 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. |
from_json_files |
JSON 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 Dataset.Tabular.from_json_lines_files를 사용하여 JSON 라인 파일에서 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
from_pandas_dataframe |
pandas 데이터 프레임에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 Dataset.Tabular.register_pandas_dataframe을 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
from_parquet_files |
parquet 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 Dataset.Tabular.from_parquet_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
from_sql_query |
SQL 쿼리에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 Dataset.Tabular.from_sql_query를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
generate_profile |
데이터 세트에 대한 새 프로필을 생성합니다. |
get |
이름이나 ID를 지정하여 작업 영역에 이미 존재하는 데이터 세트를 가져옵니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 get_by_name 및 get_by_id를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
get_all |
작업 영역에서 등록된 모든 데이터 세트를 가져옵니다. |
get_all_snapshots |
데이터 세트의 모든 스냅샷을 가져옵니다. |
get_by_id |
작업 영역에 저장된 데이터 세트를 가져옵니다. |
get_by_name |
작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다. |
get_definition |
데이터 세트의 특정 정의를 가져옵니다. |
get_definitions |
데이터 세트의 모든 정의를 가져옵니다. |
get_profile |
이전에 컴퓨팅된 데이터 세트에 대한 요약 통계를 가져옵니다. |
get_snapshot |
이름으로 데이터 세트의 스냅샷을 가져옵니다. |
head |
이 데이터 세트에서 지정한 레코드 수를 끌어와서 DataFrame으로 반환합니다. |
list |
참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 get_all를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
reactivate |
보관되거나 사용되지 않는 데이터 세트를 다시 활성화합니다. |
register |
작업 영역의 다른 사용자가 사용할 수 있도록 데이터 세트를 작업 영역에 등록합니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. 대신 register를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
sample |
제공된 샘플링 전략 및 매개 변수를 사용하여 원본 데이터 세트에서 새 샘플을 생성합니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 take_sample 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
to_pandas_dataframe |
이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_pandas_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
to_spark_dataframe |
이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark DataFrame을 만듭니다. 참고 이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다. Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_spark_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
update |
작업 영역에서 데이터 세트 변경 가능 특성을 업데이트하고 작업 영역에서 업데이트된 데이터 세트를 반환합니다. |
update_definition |
데이터 세트 정의를 업데이트합니다. |
archive
활성 또는 사용되지 않는 데이터 세트를 보관합니다.
archive()
반환
형식 | Description |
---|---|
없음 |
설명
보관 후, 데이터 세트를 사용하려고 하면 오류가 발생합니다. 실수로 보관한 경우 다시 활성화하면 활성화됩니다.
auto_read_files
지정된 경로의 파일을 분석하고 새 데이터 세트를 반환합니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
Dataset.Tabular.from_* 메서드를 사용하여 파일을 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static auto_read_files(path, include_path=False, partition_format=None)
매개 변수
Name | Description |
---|---|
path
필수
|
DataReference 또는
str
등록된 데이터 저장소의 데이터 경로, 로컬 경로 또는 HTTP URL(CSV/TSV)입니다. |
include_path
필수
|
데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽을 때와 특정 레코드가 시작된 파일을 알고 싶을 때 유용합니다. 열에 넣고 싶은 정보가 파일 경로 또는 이름에 있는 경우에도 유용합니다. |
partition_format
필수
|
경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.csv'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. |
설명
파일 형식 및 구분 기호를 자동으로 검색하려면 이 메서드를 사용합니다.
데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다.
반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.
compare_profiles
현재 데이터 세트의 프로필을 다른 데이터 세트 프로필과 비교합니다.
두 데이터 세트의 차이점을 요약 통계로 보여 줍니다. 'rhs_dataset' 매개 변수는 "오른쪽"을 의미하며 단순히 두 번째 데이터 세트입니다. 첫 번째 데이터 세트(현재 데이터 세트 개체)는 "왼쪽"으로 간주합니다.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
매개 변수
Name | Description |
---|---|
rhs_dataset
필수
|
"오른쪽" 데이터 세트라고도 하는 두 번째 데이터 세트는 비교를 위한 데이터 세트입니다. |
profile_arguments
필수
|
특정 프로필을 검색하기 위한 인수입니다. |
include_columns
필수
|
비교에 포함할 열 이름 목록입니다. |
exclude_columns
필수
|
비교에서 제외할 열 이름 목록입니다. |
histogram_compare_method
필수
|
비교 메서드를 설명하는 열거형입니다(예: Wasserstein 또는 Energy). |
반환
형식 | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
두 데이터 세트 프로필 간의 차이점입니다. |
설명
등록된 데이터 세트에만 해당됩니다. 현재 데이터 세트의 프로필이 없으면 예외를 발생시킵니다. 등록되지 않은 데이터 세트에는 profile.compare 메서드를 사용합니다.
create_snapshot
등록된 데이터 세트의 스냅샷을 만듭니다.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
매개 변수
Name | Description |
---|---|
snapshot_name
필수
|
스냅샷 이름입니다. 스냅샷 이름은 데이터 세트 내에서 고유해야 합니다. |
compute_target
필수
|
스냅샷 프로필 만들기를 수행할 선택적 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다. |
create_data_snapshot
필수
|
True이면 데이터의 구체화된 복사본이 만들어집니다. |
target_datastore
필수
|
스냅샷을 저장할 대상 데이터 저장소입니다. 생략하면 스냅샷이 작업 영역의 기본 스토리지에 만들어집니다. |
반환
형식 | Description |
---|---|
데이터 세트 스냅샷 개체입니다. |
설명
스냅샷은 기본 데이터의 특정 시점 요약 통계와 데이터 자체의 선택적 복사본을 캡처합니다. 스냅샷을 만드는 방법에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots로 이동하세요.
delete_snapshot
이름을 기준으로 데이터 세트의 스냅샷을 삭제합니다.
delete_snapshot(snapshot_name)
매개 변수
Name | Description |
---|---|
snapshot_name
필수
|
스냅샷 이름입니다. |
반환
형식 | Description |
---|---|
없음 |
설명
스냅샷에 저장된 데이터 중에서 더 이상 필요 없는 데이터가 사용하는 스토리지를 확보하려면 이 옵션을 사용합니다.
deprecate
작업 영역의 활성 데이터 세트를 다른 데이터 세트로 사용 중단합니다.
deprecate(deprecate_by_dataset_id)
매개 변수
Name | Description |
---|---|
deprecate_by_dataset_id
필수
|
이 데이터 세트를 대체할 데이터 세트 ID입니다. |
반환
형식 | Description |
---|---|
없음 |
설명
사용되지 않는 데이터 세트를 사용하면 경고가 기록됩니다. 데이터 세트를 사용 중단하면 데이터 세트의 모든 정의가 더 이상 사용되지 않습니다.
사용되지 않는 데이터 세트를 계속 사용할 수 있습니다. 데이터 세트가 사용되지 않도록 완전히 차단하려면 데이터 세트를 보관합니다.
실수로 사용 중단한 경우 다시 활성화하면 활성화됩니다.
diff
rhs_dataset를 사용하여 현재 데이터 세트를 비교합니다.
diff(rhs_dataset, compute_target=None, columns=None)
매개 변수
Name | Description |
---|---|
rhs_dataset
필수
|
오른쪽 데이터 세트라고도 하는 또 다른 데이터 세트이며 비교에 사용됩니다. |
compute_target
필수
|
비교를 수행할 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다. |
columns
필수
|
비교에 포함할 열 이름 목록입니다. |
반환
형식 | Description |
---|---|
데이터 세트 작업 실행 개체입니다. |
from_binary_files
이진 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 Dataset.File.from_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static from_binary_files(path)
매개 변수
Name | Description |
---|---|
path
필수
|
DataReference 또는
str
등록된 데이터 저장소의 데이터 경로 또는 로컬 경로입니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. |
설명
파일을 이진 데이터 스트림으로 읽으려면 이 메서드를 사용합니다. 파일 읽기당 하나의 파일 스트림 개체를 반환합니다. 이미지, 비디오, 오디오 또는 기타 이진 데이터를 읽을 때 이 메서드를 사용합니다.
get_profile 및 create_snapshot은 이 메서드로 만든 데이터 세트에 대해 예상대로 작동하지 않습니다.
반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.
from_delimited_files
구분된 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 Dataset.Tabular.from_delimited_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
매개 변수
Name | Description |
---|---|
path
필수
|
DataReference 또는
str
등록된 데이터 저장소의 데이터 경로, 로컬 경로 또는 HTTP URL입니다. |
separator
필수
|
열을 분할하는 데 사용되는 구분 기호입니다. |
header
필수
|
파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. |
encoding
필수
|
읽고 있는 파일의 인코딩입니다. |
quoting
필수
|
따옴표 안의 새 줄 문자를 처리하는 방법을 지정합니다. 기본값(False)은 새 줄 문자가 따옴표 안에 있는지 여부에 관계없이 새 줄 문자를 새로 시작하는 행으로 해석하는 것입니다. True로 설정하면 따옴표 안에 새 줄 문자가 있어도 새 행으로 해석되지 않으며, 파일 읽기 속도가 느려집니다. |
infer_column_types
필수
|
열 데이터 형식이 유추되는지 여부를 나타냅니다. |
skip_rows
필수
|
읽고 있는 파일에서 건너뛸 행 수입니다. |
skip_mode
필수
|
파일에서 읽을 때 행을 건너뛰는 방법을 제어합니다. |
comment
필수
|
읽는 파일의 주석 줄을 나타내는 데 사용되는 문자입니다. 이 문자열로 시작하는 줄은 건너뜁니다. |
include_path
필수
|
데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽고 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다. |
archive_options
필수
|
<xref:azureml.dataprep.ArchiveOptions>
보관 형식 및 항목 GLOB 패턴을 포함한 보관 파일 옵션입니다. 현재는 보관 형식으로 ZIP만 지원됩니다. 예를 들어 다음을 지정하면
ZIP에서 이름이 "10-20.csv"로 끝나는 모든 파일을 읽습니다. |
partition_format
필수
|
경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.csv'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. |
설명
사용된 옵션을 제어하려는 경우 이 메서드를 사용하여 구분된 텍스트 파일을 읽습니다.
데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다.
반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.
from_excel_files
Excel 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
매개 변수
Name | Description |
---|---|
path
필수
|
DataReference 또는
str
등록된 데이터 저장소의 데이터 경로 또는 로컬 경로입니다. |
sheet_name
필수
|
로드할 Excel 시트의 이름입니다. 기본적으로 각 Excel 파일에서 첫 번째 시트를 읽습니다. |
use_column_headers
필수
|
첫 번째 행을 열 헤더로 사용할지 여부를 제어합니다. |
skip_rows
필수
|
읽고 있는 파일에서 건너뛸 행 수입니다. |
include_path
필수
|
데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽고 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다. |
infer_column_types
필수
|
true이면 열 데이터 형식이 유추됩니다. |
partition_format
필수
|
경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.xlsx'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. |
설명
Excel 파일을 .xlsx 형식으로 읽으려면 이 메서드를 사용합니다. 각 Excel 파일의 한 시트에서 데이터를 읽을 수 있습니다. 데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다. 반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.
from_json_files
JSON 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 Dataset.Tabular.from_json_lines_files를 사용하여 JSON 라인 파일에서 읽는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
매개 변수
Name | Description |
---|---|
path
필수
|
DataReference 또는
str
로드하고 구문 분석하려는 파일 또는 폴더의 경로입니다. 로컬 경로 또는 Azure Blob URL입니다. 글로빙이 지원됩니다. 예를 들어 path = "./data*"를 사용하여 이름이 "data"로 시작하는 모든 파일을 읽을 수 있습니다. |
encoding
필수
|
읽고 있는 파일의 인코딩입니다. |
flatten_nested_arrays
필수
|
속성 제어 프로그램의 중첩 배열 처리입니다. 중첩된 JSON 배열을 병합하도록 선택하면 훨씬 더 많은 수의 행이 생성될 수 있습니다. |
include_path
필수
|
데이터를 읽은 경로가 포함된 열을 포함할지 여부를 나타냅니다. 이는 여러 파일을 읽을 때 유용하며 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려고 할 수 있습니다. |
partition_format
필수
|
경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.json'이고 데이터가 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json'을 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다. |
반환
형식 | Description |
---|---|
로컬 데이터 세트 개체입니다. |
from_pandas_dataframe
pandas 데이터 프레임에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 Dataset.Tabular.register_pandas_dataframe을 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
매개 변수
Name | Description |
---|---|
dataframe
필수
|
Pandas DataFrame입니다. |
path
필수
|
등록된 데이터 저장소 또는 로컬 폴더 경로의 데이터 경로입니다. |
in_memory
필수
|
디스크에 유지하는 대신 메모리에서 DataFrame을 읽을지 여부를 나타냅니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. |
설명
Pandas 데이터 프레임을 데이터 세트 개체로 변환하려면 이 메서드를 사용합니다. 이 메서드로 만든 데이터 세트는 데이터가 메모리에서 가져온 것이기 때문에 등록할 수 없습니다.
in_memory
가 False이면 Pandas DataFrame이 로컬에서 CSV 파일로 변환됩니다.
pat
가 DataReference 유형이면 Pandas 프레임이 데이터 저장소에 업로드되고 Dataset은 DataReference를 기반으로 합니다. ''path'가 로컬 폴더인 경우 삭제할 수 없는 로컬 파일에서 데이터 세트가 만들어집니다.
현재 DataReference가 폴더 경로가 아닌 경우 예외를 발생시킵니다.
from_parquet_files
parquet 파일에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 Dataset.Tabular.from_parquet_files를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static from_parquet_files(path, include_path=False, partition_format=None)
매개 변수
Name | Description |
---|---|
path
필수
|
DataReference 또는
str
등록된 데이터 저장소의 데이터 경로 또는 로컬 경로입니다. |
include_path
필수
|
데이터를 읽은 파일의 경로가 들어 있는 열을 포함할지 여부를 나타냅니다. 여러 파일을 읽고 특정 레코드가 어떤 파일에서 시작되었는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다. |
partition_format
필수
|
경로의 파티션 형식을 지정하고 '{x}' 형식의 문자열 열과 '{x:yyyy/MM/dd/HH/mm/ss}' 형식의 날짜/시간 열을 만듭니다. 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식에 대한 연, 월, 일, 시간, 분 및 초를 추출하기 위해 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 파일 경로가 '../Accounts/2019/01/01/data.parquet'인 경우 데이터는 부서 이름과 시간으로 분할됩니다. '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet'를 정의하여 문자열 형식의 'Department'와 날짜/시간 형식의 'PartitionDate'를 만들 수 있습니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. |
설명
Parquet 파일을 읽으려면 이 메서드를 사용합니다.
데이터 세트를 만든 후에는 get_profile을 사용하여 각 열에 대해 검색된 열 형식 및 요약 통계를 나열해야 합니다.
반환된 데이터 세트가 작업 영역에 등록되지 않았습니다.
from_sql_query
SQL 쿼리에서 등록되지 않은 메모리 내 데이터 세트를 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 Dataset.Tabular.from_sql_query를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static from_sql_query(data_source, query)
매개 변수
Name | Description |
---|---|
data_source
필수
|
Azure SQL 데이터 저장소의 세부 정보입니다. |
query
필수
|
데이터를 읽기 위해 실행할 쿼리입니다. |
반환
형식 | Description |
---|---|
로컬 데이터 세트 개체입니다. |
generate_profile
데이터 세트에 대한 새 프로필을 생성합니다.
generate_profile(compute_target=None, workspace=None, arguments=None)
매개 변수
Name | Description |
---|---|
compute_target
필수
|
스냅샷 프로필 만들기를 수행하기 위한 선택적 컴퓨팅 대상입니다. 생략하면 로컬 컴퓨팅이 사용됩니다. |
workspace
필수
|
임시(등록되지 않은) 데이터 세트에 필요한 작업 영역입니다. |
arguments
필수
|
프로필 인수입니다. 유효한 인수는 다음과 같습니다.
|
반환
형식 | Description |
---|---|
데이터 세트 작업 실행 개체입니다. |
설명
동기 호출은 완료될 때까지 차단됩니다. 작업 결과를 가져오려면 get_result를 호출합니다.
get
이름이나 ID를 지정하여 작업 영역에 이미 존재하는 데이터 세트를 가져옵니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 get_by_name 및 get_by_id를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static get(workspace, name=None, id=None)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 만들어진 기존 AzureML 작업 영역입니다. |
name
필수
|
검색할 데이터 세트의 이름입니다. |
id
필수
|
작업 영역에 있는 데이터 세트의 고유 식별자입니다. |
반환
형식 | Description |
---|---|
지정된 이름 또는 ID를 가진 데이터 세트입니다. |
설명
name
또는 id
를 제공할 수 있습니다. 다음과 같은 경우 예외가 발생합니다.
name
및id
가 모두 지정되었지만 일치하지 않습니다.지정된
name
또는id
가 있는 데이터 세트를 작업 영역에서 찾을 수 없습니다.
get_all
작업 영역에서 등록된 모든 데이터 세트를 가져옵니다.
get_all()
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 기존 AzureML 작업 영역입니다. |
반환
형식 | Description |
---|---|
등록 이름으로 키가 지정된 TabularDataset 및 FileDataset 개체의 사전입니다. |
get_all_snapshots
데이터 세트의 모든 스냅샷을 가져옵니다.
get_all_snapshots()
반환
형식 | Description |
---|---|
데이터 세트 스냅샷 목록입니다. |
get_by_id
작업 영역에 저장된 데이터 세트를 가져옵니다.
get_by_id(id, **kwargs)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 저장된 기존 AzureML 작업 영역입니다. |
id
필수
|
데이터 세트의 ID입니다. |
반환
형식 | Description |
---|---|
데이터 세트 개체입니다. 데이터 세트가 등록되면 등록 이름 및 버전도 반환됩니다. |
get_by_name
작업 영역에서 등록 이름을 기준으로 등록된 데이터 세트를 가져옵니다.
get_by_name(name, version='latest', **kwargs)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트가 등록된 기존 AzureML 작업 영역입니다. |
name
필수
|
등록 이름입니다. |
version
필수
|
등록 버전입니다. 기본값은 'latest'입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트 개체입니다. |
get_definition
데이터 세트의 특정 정의를 가져옵니다.
get_definition(version_id=None)
매개 변수
Name | Description |
---|---|
version_id
필수
|
데이터 세트 정의의 버전 ID입니다. |
반환
형식 | Description |
---|---|
데이터 세트 정의입니다. |
설명
version_id
가 제공되면 Azure Machine Learning은 해당 버전에 해당하는 정의를 가져오려고 시도합니다. 해당 버전이 없으면 예외가 throw됩니다.
version_id
를 생략하면 최신 버전이 검색됩니다.
get_definitions
데이터 세트의 모든 정의를 가져옵니다.
get_definitions()
반환
형식 | Description |
---|---|
데이터 세트 정의의 사전입니다. |
설명
AzureML 작업 영역에 등록된 데이터 세트에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의가 가장 최근에 생성된 정의입니다.
등록되지 않은 데이터 세트의 경우 하나의 정의만 존재합니다.
get_profile
이전에 컴퓨팅된 데이터 세트에 대한 요약 통계를 가져옵니다.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
매개 변수
Name | Description |
---|---|
arguments
필수
|
프로필 인수입니다. |
generate_if_not_exist
필수
|
프로필이 없는 경우 생성할지 여부를 나타냅니다. |
workspace
필수
|
임시(등록되지 않은) 데이터 세트에 필요한 작업 영역입니다. |
compute_target
필수
|
프로필 작업을 실행할 컴퓨팅 대상입니다. |
반환
형식 | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
데이터 세트의 DataProfile입니다. |
설명
Azure Machine Learning 작업 영역에 등록된 데이터 세트의 경우 이 메서드는 아직 유효한 경우 get_profile
을 호출하여 이전에 만든 기존 프로필을 검색합니다. 데이터 세트에서 변경된 데이터가 검색되거나 get_profile
에 대한 인수가 프로필이 생성될 때 사용된 인수와 다른 경우 프로필이 무효화됩니다. 프로필이 없거나 무효화된 경우 generate_if_not_exist
에서 새 프로필이 생성되는지 유효성 검사합니다.
Azure Machine Learning 작업 영역에 등록되지 않은 데이터 세트의 경우 이 메서드는 항상 generate_profile을 실행하고 결과를 반환합니다.
get_snapshot
이름으로 데이터 세트의 스냅샷을 가져옵니다.
get_snapshot(snapshot_name)
매개 변수
Name | Description |
---|---|
snapshot_name
필수
|
스냅샷 이름입니다. |
반환
형식 | Description |
---|---|
데이터 세트 스냅샷 개체입니다. |
head
이 데이터 세트에서 지정한 레코드 수를 끌어와서 DataFrame으로 반환합니다.
head(count)
매개 변수
Name | Description |
---|---|
count
필수
|
가져올 레코드 수입니다. |
반환
형식 | Description |
---|---|
Pandas DataFrame입니다. |
list
is_visible
속성이 False인 데이터 세트를 포함하여 작업 영역의 모든 데이터 세트를 나열합니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 get_all를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
static list(workspace)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트 목록을 검색할 작업 영역입니다. |
반환
형식 | Description |
---|---|
Dataset 개체의 목록입니다. |
reactivate
보관되거나 사용되지 않는 데이터 세트를 다시 활성화합니다.
reactivate()
반환
형식 | Description |
---|---|
없음 |
register
작업 영역의 다른 사용자가 사용할 수 있도록 데이터 세트를 작업 영역에 등록합니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
대신 register를 사용하는 것이 좋습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
매개 변수
Name | Description |
---|---|
workspace
필수
|
데이터 세트를 등록할 AzureML 작업 영역입니다. |
name
필수
|
작업 영역에 있는 데이터 세트의 이름입니다. |
description
필수
|
데이터 세트에 대한 설명입니다. |
tags
필수
|
데이터 세트와 연결할 태그입니다. |
visible
필수
|
데이터 세트가 UI에 표시되는지 여부를 나타냅니다. False이면 데이터 세트가 UI에 숨겨지고 SDK를 통해 사용할 수 있습니다. |
exist_ok
필수
|
True이면 지정된 작업 영역에 이미 있는 경우 데이터 세트가 반환되며, 그렇지 않으면 오류가 발생합니다. |
update_if_exist
필수
|
|
반환
형식 | Description |
---|---|
작업 영역에 등록된 데이터 세트 개체입니다. |
sample
제공된 샘플링 전략 및 매개 변수를 사용하여 원본 데이터 세트에서 새 샘플을 생성합니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 take_sample 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
sample(sample_strategy, arguments)
매개 변수
Name | Description |
---|---|
sample_strategy
필수
|
사용할 샘플 전략입니다. 허용되는 값은 "top_n", "simple_random" 또는 "stratified"입니다. |
arguments
필수
|
위에 표시된 목록의 "선택적 인수"의 키와 tye "Type" 열의 값이 있는 사전입니다. 해당 샘플링 방법의 인수만 사용할 수 있습니다. 예를 들어 "simple_random" 샘플 형식의 경우 "probability" 및 "seed" 키가 있는 사전만 지정할 수 있습니다. |
반환
형식 | Description |
---|---|
원래 데이터 세트의 샘플인 데이터 세트 개체입니다. |
설명
샘플은 이 데이터 세트에서 정의한 변환 파이프라인을 실행한 다음, 샘플링 전략 및 매개 변수를 출력 데이터에 적용하여 생성됩니다. 각 샘플링 메서드는 다음과 같은 선택적 인수를 지원합니다.
top_n
선택적 인수
- n, type integer. 샘플로 상위 N개 행을 선택합니다.
simple_random
선택적 인수
probability, type float. 각 행이 선택될 확률이 동일한 단순 임의 샘플링입니다. 확률은 0과 1 사이의 숫자여야 합니다.
seed, type float. 난수 생성기에서 사용합니다. 반복성을 위해 사용합니다.
stratified
선택적 인수
columns, type list[str]. 데이터의 계층 열 목록입니다.
seed, type float. 난수 생성기에서 사용합니다. 반복성을 위해 사용합니다.
fractions, type dict[tuple, float]. 튜플: 계층을 정의하는 열 값은 열 이름과 같은 순서여야 합니다. Float: 샘플링 중에 계층에 연결된 가중치입니다.
다음 코드 조각은 다양한 샘플 메서드에 대한 예제 디자인 패턴입니다.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행하여 Pandas 데이터 프레임을 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_pandas_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
to_pandas_dataframe()
반환
형식 | Description |
---|---|
Pandas DataFrame입니다. |
설명
메모리에서 완전히 구체화된 Pandas DataFrame을 반환합니다.
to_spark_dataframe
이 Dataset 정의에 의해 정의된 변환 파이프라인을 실행할 수 있는 Spark DataFrame을 만듭니다.
참고
이 메서드는 더 이상 사용되지 않으며 더 이상 지원되지 않습니다.
Dataset.Tabular에서 정적 메서드를 호출하여 TabularDataset를 만들고 거기에서 to_spark_dataframe 메서드를 사용합니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
to_spark_dataframe()
반환
형식 | Description |
---|---|
Spark DataFrame입니다. |
설명
반환된 Spark Dataframe은 실행 계획일 뿐이며 Spark Dataframe이 느리게 평가되기 때문에 실제로 데이터를 포함하지 않습니다.
update
작업 영역에서 데이터 세트 변경 가능 특성을 업데이트하고 작업 영역에서 업데이트된 데이터 세트를 반환합니다.
update(name=None, description=None, tags=None, visible=None)
매개 변수
Name | Description |
---|---|
name
필수
|
작업 영역에 있는 데이터 세트의 이름입니다. |
description
필수
|
데이터에 대한 설명입니다. |
tags
필수
|
데이터 세트를 연결할 태그입니다. |
visible
필수
|
데이터 세트가 UI에 표시되는지 여부를 나타냅니다. |
반환
형식 | Description |
---|---|
작업 영역에서 업데이트된 데이터 세트 개체입니다. |
update_definition
데이터 세트 정의를 업데이트합니다.
update_definition(definition, definition_update_message)
매개 변수
Name | Description |
---|---|
definition
필수
|
이 데이터 세트의 새로운 정의입니다. |
definition_update_message
필수
|
정의 업데이트 메시지입니다. |
반환
형식 | Description |
---|---|
작업 영역에서 업데이트된 데이터 세트 개체입니다. |
설명
업데이트된 데이터 세트를 사용하려면 이 메서드에서 반환된 개체를 사용합니다.
특성
definition
현재 데이터 세트 정의를 반환합니다.
반환
형식 | Description |
---|---|
데이터 세트 정의입니다. |
설명
데이터 세트 정의는 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계입니다.
AzureML 작업 영역에 등록된 데이터 세트에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 여러 정의가 있으면 이전 정의를 사용하는 모델 및 파이프라인을 중단하지 않고도 기존 데이터 세트를 변경할 수 있습니다.
등록되지 않은 데이터 세트의 경우 하나의 정의만 존재합니다.
definition_version
데이터 세트의 현재 정의 버전을 반환합니다.
반환
형식 | Description |
---|---|
데이터 세트 정의 버전입니다. |
설명
데이터 세트 정의는 데이터를 읽고 변환하는 방법을 지정하는 일련의 단계입니다.
AzureML 작업 영역에 등록된 데이터 세트에는 각각 update_definition을 호출하여 만들어진 여러 정의가 있을 수 있습니다. 각 정의에는 고유 식별자가 있습니다. 현재 정의는 가장 최근에 만들어진 정의이며, 정의의 ID는 고유 식별자를 통해 반환됩니다.
등록되지 않은 데이터 세트의 경우 하나의 정의만 존재합니다.
description
데이터 세트에 대한 설명을 반환합니다.
반환
형식 | Description |
---|---|
데이터 세트 설명입니다. |
설명
데이터 세트의 데이터에 대한 설명을 지정하면 작업 영역 사용자는 데이터가 나타내는 내용과 데이터 사용 방법을 이해할 수 있습니다.
id
is_visible
Azure ML 작업 영역 UI에 등록된 데이터 세트의 표시 유형을 제어합니다.
반환
형식 | Description |
---|---|
데이터 세트 표시 유형입니다. |
설명
반환된 값:
True: 데이터 세트가 작업 영역 UI에 표시됩니다. 기본값
False: 데이터 세트가 작업 영역 UI에서 숨겨집니다.
등록되지 않은 데이터 세트에는 영향을 주지 않습니다.
name
state
데이터 세트 상태를 반환합니다.
반환
형식 | Description |
---|---|
데이터 세트 상태입니다. |
설명
상태의 의미와 효과는 다음과 같습니다.
활성 활성 정의는 단어 뜻 그대로이며, 모든 작업은 활성 정의에서 수행할 수 있습니다.
더 이상 사용되지 않습니다. 사용되지 않는 정의를 사용할 수 있지만, 기본 데이터에 액세스할 때마다 로그에 경고가 기록됩니다.
보관됨. 보관된 정의는 작업을 수행하는 데 사용할 수 없습니다. 보관된 정의에서 작업을 수행하려면 정의를 다시 활성화해야 합니다.
tags
workspace
Tabular
만들기 위한 팩터리 FileDataset