Microsoft Fabric의 Data Factory에 있는 Parquet 형식
이 문서에서는 Microsoft Fabric의 Data Factory 데이터 파이프라인에서 Parquet 형식을 구성하는 방법을 간략히 설명합니다.
지원되는 기능
Parquet 형식은 원본 및 목적지로서 다음 작업과 커넥터에 대해 지원됩니다.
복사 작업의 Parquet 형식
Parquet 형식을 구성하려면 데이터 파이프라인 복사 작업의 원본 또는 목적지에서 연결을 선택한 다음, 파일 형식의 드롭다운 목록에서 Parquet를 선택합니다. 이 형식을 추가로 구성하려면 설정을 선택하세요.
Parquet 형식이 원본인 경우
파일 형식 섹션에서 설정을 선택하면 다음 속성이 팝업 파일 형식 설정 대화 상자에 표시됩니다.
- 압축 유형: 드롭다운 목록에서 Parquet 파일을 읽는 데 사용되는 압축 코덱을 선택합니다. 없음, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) 또는 lz4hadoop 중에서 선택할 수 있습니다.
Parquet 형식이 목적지인 경우
설정을 선택하면 다음 속성이 팝업 파일 형식 설정 대화 상자에 표시됩니다.
압축 유형: 드롭다운 목록에서 Parquet 파일을 쓰는 데 사용되는 압축 코덱을 선택합니다. 없음, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) 또는 lz4hadoop 중에서 선택할 수 있습니다.
V-Order 사용: parquet 파일 형식에 대한 쓰기 시간 최적화를 사용합니다. 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요. 기본적으로 사용하도록 설정되어 있습니다.
목적지 탭의 고급 설정에서 다음과 같은 Parquet 형식 관련 속성이 표시됩니다.
- 파일당 최대 행 수: 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. 파일당 쓰려고 하는 최대 행 수를 지정합니다.
- 파일 이름 접두사: 파일당 최대 행 수가 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은
<fileNamePrefix>_00000.<fileExtension>
입니다. 지정하지 않으면 파일 이름 접두사가 자동으로 생성됩니다. 원본인 파일 기반 저장소이거나 파티션 옵션이 활성화된 데이터 저장소인 경우 이 속성은 적용되지 않습니다.
테이블 요약
Parquet을 원본으로
Parquet 형식을 사용할 때 복사 작업 원본 섹션에서 지원되는 속성은 다음과 같습니다.
속성 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용하려는 파일 형식입니다. | Parquet | 예 | 유형(datasetSettings 에서):Parquet |
압축 유형 | Parquet 파일을 읽는 데 사용되는 압축 코덱입니다. | 이름을 없음 gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
아니요 | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet이 원본인 경우
Parquet 형식을 사용할 때 복사 작업 목적지 섹션에서 다음 속성이 지원됩니다.
속성 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
파일 형식 | 사용하려는 파일 형식입니다. | Parquet | 예 | 유형(datasetSettings 에서):Parquet |
V-Order 사용 | parquet 파일 형식에 대한 쓰기 시간 최적화입니다. | 선택됨 또는 선택 해제됨 | 아니요 | enableVertiParquet |
압축 유형 | Parquet 파일을 쓰는 데 사용되는 압축 코덱입니다. | 이름을 없음 gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
아니요 | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
파일당 최대 행 수 | 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. 파일당 쓰려고 하는 최대 행 수를 지정합니다. | <파일당 최대 행 수> | 아니요 | maxRowsPerFile |
파일 이름 접두사 | 파일당 최대 행 수가 구성된 경우에 적용됩니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은 <fileNamePrefix>_00000.<fileExtension> 입니다. 지정하지 않으면 파일 이름 접두사가 자동으로 생성됩니다. 원본인 파일 기반 저장소이거나 파티션 옵션이 활성화된 데이터 저장소인 경우 이 속성은 적용되지 않습니다. |
<파일 이름 접두사> | 아니요 | fileNamePrefix |