Databricks 레이크하우스로 데이터 수집
Azure Databricks는 다양한 원본의 데이터를 Delta Lake가 뒷받침하는 레이크하우스로 수집하는 다양한 방법을 제공합니다. 이 문서에서는 데이터 원본을 나열하고 각 원본 형식에서 데이터를 수집하기 위한 단계에 대한 링크를 제공합니다.
클라우드 개체 스토리지
클라우드 개체 스토리지에서 증분 수집을 구성하는 방법에 대한 자세한 내용은 클라우드 개체 스토리지에서 데이터 수집을 참조하세요.
LakeFlow 연결
Databricks LakeFlow Connect는 엔터프라이즈 애플리케이션 및 데이터베이스에서 수집하기 위한 네이티브 커넥터를 제공합니다. 결과 수집 파이프라인은 Unity 카탈로그에 의해 제어되며 서버리스 컴퓨팅 및 델타 라이브 테이블에 의해 구동됩니다.
LakeFlow Connect는 효율적인 증분 읽기 및 쓰기를 활용하여 데이터 수집을 더 빠르고 확장 가능하며 비용 효율적으로 만드는 반면, 데이터는 다운스트림 사용을 위해 최신 상태로 유지됩니다.
스트리밍 원본
Azure Databricks는 레이크하우스로 거의 실시간 데이터 수집을 위해 스트림 메시징 서비스와 통합할 수 있습니다. 스트리밍 및 증분 수집을 참조 하세요.
로컬 데이터 파일
로컬 데이터 파일을 안전하게 업로드하거나 공용 URL에서 파일을 다운로드할 수 있습니다. Azure Databricks에 데이터 업로드하기를 참고하세요.
Delta Lake로 데이터 마이그레이션
기존 데이터를 Delta Lake로 마이그레이션하는 방법을 알아보려면 데이터를 Delta Lake로 마이그레이션을 참조하세요.