다음을 통해 공유


수집에 지원되는 데이터 형식

적용 대상: ✅Microsoft Fabric✅Azure Data Explorer

데이터 수집은 데이터가 테이블에 추가되고 쿼리에 사용할 수 있게 되는 프로세스입니다. 쿼리에서 수집 이외의 모든 수집 메서드의 경우 데이터는 지원되는 형식 중 하나로 지정해야 합니다. 다음 표에서는 데이터 수집에 지원되는 형식을 나열하고 설명합니다.

참고 항목

데이터를 수집하기 전에 데이터의 형식이 올바르게 지정되었는지 확인하고 필요한 필드를 정의합니다. 기본 유효성 검사기를 사용하여 형식이 유효한지 확인하는 것이 좋습니다. 예를 들어 CSV 또는 JSON 파일을 확인하는 데 유용한 다음과 같은 유효성 검사기를 찾을 수 있습니다.

수집이 실패하는 이유에 대한 자세한 내용은 수집 실패를 참조 하세요.

Azure Data Explorer의 수집 오류 코드입니다.

형식 내선 번호 Description
ApacheAvro .avro 논리적 형식에 대한 지원을 포함하는 AVRO 형식 다음 압축 코덱이 지원됩니다. null, deflatesnappy apacheavro 형식의 판독기 구현은 공식 Apache Avro 라이브러리를 기반으로 합니다. Event Hub 캡처 Avro 파일 수집에 대한 자세한 내용은 Event Hub 캡처 Avro 파일 수집을 참조하세요.
Avro .avro .NET 라이브러리를 기반으로 하는 AVRO 형식에 대한 레거시 구현입니다. 다음 압축 코덱이 지원됩니다. null, deflate(snappy의 경우 - ApacheAvro 데이터 형식 사용).
CSV .csv 쉼표(,)로 구분된 값을 사용하는 텍스트 파일입니다. RFC 4180: CSV(쉼표로 구분된 값) 파일의 일반 형식 및 MIME 형식을 참조하세요.
JSON .json JSON 개체가 \n 또는 \r\n으로 구분된 텍스트 파일입니다. JSON Lines(JSONL)를 참조하세요.
MultiJSON .multijson JSON 속성 모음 배열(각각 레코드를 나타냄) 또는 공백으로 구분된 여러 속성 모음(\n 또는 \r\n)이 있는 텍스트 파일입니다. 각 속성 모음을 여러 줄에 분배할 수 있습니다.
ORC .orc ORC 파일
Parquet .parquet Parquet 파일.
PSV .psv 파이프(|)로 구분된 값을 사용하는 텍스트 파일입니다.
RAW .raw 전체 내용이 단일 문자열 값인 텍스트 파일입니다.
SCsv .scsv 세미콜론(;)으로 구분된 값을 사용하는 텍스트 파일입니다.
SOHsv .sohsv SOH로 구분된 값을 사용하는 텍스트 파일입니다. (SOH는 ASCII 코드 포인트 1이며, 이 형식은 Hive on HDInsight에서 사용됩니다.)
TSV .tsv 탭(\t)으로 구분된 값을 사용하는 텍스트 파일입니다.
TSVE .tsv 탭(\t)으로 구분된 값을 사용하는 텍스트 파일입니다. 백슬래시(\) 문자가 이스케이프에 사용됩니다.
TXT .txt \n으로 구분된 줄을 사용하는 텍스트 파일입니다. 빈 줄은 건너뜁니다.
W3CLOGFILE .log W3C에서 표준화된 웹 로그 파일 형식

참고

  • 일반 Parquet 형식 파일(예: Apache Iceberg, Apache Hudi, Delta Lake) 위에 ACID 기능을 제공하는 데이터 스토리지 시스템의 수집은 지원되지 않습니다.
  • 스키마 없는 Avro는 지원되지 않습니다.

사용 또는 multijson 형식을 사용하여 json 데이터를 수집하는 방법에 대한 자세한 내용은 json 형식 수집을 참조하세요.

지원되는 데이터 압축 형식

Blob과 파일은 다음 압축 알고리즘 중 하나를 통해 압축할 수 있습니다.

압축 내선 번호
gzip .gz
zip .zip

Blob 또는 파일 이름에 확장을 추가하여 압축을 표시합니다.

다음은 그 예입니다.

  • MyData.csv.zip 는 zip(보관 또는 단일 파일)으로 압축된 CSV 형식의 Blob 또는 파일을 나타냅니다.
  • MyData.json.gz 는 gzip으로 압축된 JSON 형식의 Blob 또는 파일을 나타냅니다.

형식 확장명을 포함하지 않고 압축(예: MyData.zip)만 포함한 블로그 또는 파일 이름도 지원됩니다. 이 경우 파일 형식을 유추할 수 없으므로 수집 속성으로 지정해야 합니다.

참고

  • 일부 압축 형식은 압축된 스트림의 일부로 원래 파일 확장명을 추적합니다. 이 확장명은 일반적으로 파일 형식을 확인하는 경우에는 무시됩니다. 압축된 Blob 또는 파일의 이름에서 파일 형식을 확인할 수 없는 경우 format 수집 속성을 통해 이를 지정해야 합니다.
  • Parquet, AVROORC 형식에서 사용하는 내부(청크 수준) 압축 코덱과 혼동해서는 안 됩니다. 일반적으로 내부 압축 이름은 파일 형식 확장 이전에 파일 이름에 추가됩니다(예: file1.gz.parquet, file1.snappy.avro 등).
  • Deflate64/Enhanced Deflate zip 압축 방법은 지원되지 않습니다. Windows 기본 제공 zip 압축기는 크기가 2GB를 넘는 파일에서 이 압축 방법을 사용하도록 선택할 수 있습니다.