다음을 통해 공유


클라우드 개체 스토리지에서 데이터 수집

이 문서에서는 클라우드 개체 스토리지에서 증분 수집을 구성할 수 있는 방법을 나열합니다.

데이터 UI 추가

데이터 추가 UI를 사용하여 클라우드 개체 스토리지의 데이터에서 관리되는 테이블을 만드는 방법을 알아보려면 Unity 카탈로그 외부 위치를 사용하여 데이터 로드를 참조하세요.

Notebook 또는 SQL 편집기

이 섹션에서는 Notebook 또는 Databricks SQL 편집기를 사용하여 클라우드 개체 스토리지에서 증분 수집을 구성하는 옵션에 대해 설명합니다.

자동 로더

자동 로더는 추가 설정 없이 클라우드 스토리지에 도착하는 새로운 데이터 파일을 점진적이고 효율적으로 처리합니다. 자동 로더는 cloudFiles라는 구조적 스트리밍 원본을 제공합니다. 클라우드 파일 스토리지의 입력 디렉터리 경로가 주어지면 cloudFiles 원본은 새 파일이 도착하면 자동으로 처리하며 해당 디렉터리의 기존 파일도 처리할 수 있습니다.

COPY INTO

COPY INTO를 사용하면 SQL 사용자가 클라우드 개체 스토리지에서 델타 테이블로 데이터를 멱등하게 증분 방식으로 수집할 수 있습니다. Databricks SQL, Notebook 및 Databricks 작업에서 사용할 COPY INTO 수 있습니다.

COPY INTO를 사용하는 경우와 자동 로더를 사용하는 경우

다음은 자동 로더와 COPY INTO다음 중에서 선택할 때 고려해야 할 몇 가지 사항입니다.

  • 시간이 지남에 따라 수천 순서로 파일을 수집하려는 경우 사용할 COPY INTO수 있습니다. 시간이 지남에 따라 수백만 개 이상의 파일이 예상되는 경우 자동 로더를 사용합니다. 자동 로더를 사용하려면 파일을 검색하는 데 필요한 COPY INTO 총 작업이 더 적고 처리를 여러 일괄 처리로 분할할 수 있습니다. 즉, 자동 로더는 비용이 저렴하고 규모가 더 효율적입니다.

  • 데이터 스키마가 자주 발전하는 경우 자동 로더는 스키마 유추 및 진화와 관련하여 더 나은 기본 데이터 형식을 제공합니다. 자세한 내용은 자동 로더의 스키마 유추 및 진화 구성을 참조하세요.

  • 다시 업로드된 파일의 하위 집합을 로드하는 것이 좀 더 쉽게 관리할 COPY INTO수 있습니다. 자동 로더를 사용하면 파일의 일부 하위 집합을 다시 처리하기가 더 어렵습니다. 그러나 자동 로더 스트림이 동시에 실행되는 동안 파일의 하위 집합을 다시 로드하는 데 사용할 COPY INTO 수 있습니다.

  • 더욱 확장 가능하고 강력한 파일 수집 환경을 위해 자동 로더를 사용하면 SQL 사용자가 스트리밍 테이블을 활용할 수 있습니다. Databricks SQL에서 스트리밍 테이블을 사용하여 데이터 로드를 참조하세요.

자동 로더에 대한 간략한 개요 및 데모를 COPY INTO보려면 다음 YouTube 비디오(2분)를 시청하세요.

Delta Live Tables 및 자동 로더를 사용하여 ETL 자동화

자동 로더 및 Delta Live Tables를 사용하여 확장 가능한 증분 수집 인프라를 간단하게 배포할 수 있습니다. Delta Live Tables는 Notebook에 있는 표준 대화형 실행을 사용하지 않고 프로덕션에 대비한 인프라 배포를 강조합니다.

타사 수집 도구

Databricks는 클라우드 개체 스토리지를 비롯한 다양한 원본에서 수집할 수 있는 기술 파트너 통합의 유효성을 검사합니다. 이러한 통합을 통해 다양한 원본에서 Azure Databricks로의 낮은 코드, 확장 가능한 데이터 수집이 가능합니다. 기술 파트너를 참조하세요. 일부 기술 파트너는 타사 도구를 레이크하우스 데이터에 쉽게 연결하는 UI를 제공하는 Databricks 파트너 Connect란?에 등장합니다.