다음을 통해 공유


Azure Databricks의 스트리밍

Azure Databricks를 사용하여 거의 실시간 데이터 수집, 처리, 기계 학습 및 AI를 스트리밍 데이터에 사용할 수 있습니다.

Azure Databricks는 다음을 포함하여 스트리밍 및 증분 처리를 위한 다양한 최적화를 제공합니다.

  • Delta Live Tables는 증분 처리를 위한 선언적 구문을 제공합니다. 델타 라이브 테이블이란 참조하세요..
  • 자동 로더는 클라우드 개체 스토리지에서 증분 수집을 간소화합니다. 자동 로더란?을 참조하세요.
  • Unity 카탈로그는 스트리밍 워크로드에 데이터 거버넌스를 추가합니다. Unity 카탈로그 을(를) 사용한 구조적 스트리밍을 참조하세요.

Delta Lake는 이러한 통합을 위한 스토리지 계층을 제공합니다. 델타 테이블 스트리밍 읽기 및 쓰기를참조하세요.

실시간 모델 서빙을 위해 Mosaic AI 모델 서빙을 사용한 모델 배포을 참조하세요.

  • 자습서

    Azure Databricks에서 구조적 스트리밍을 사용하여 거의 실시간 및 증분 처리의 기본 사항을 알아봅니다.

  • 개념

    구조적 스트리밍을 사용하여 증분 및 근 실시간 워크로드를 구성하기 위한 핵심 개념을 알아봅니다.

  • 상태 저장 스트리밍

    상태 저장 구조적 스트리밍 쿼리의 중간 상태 정보를 관리하면 예기치 않은 대기 시간 및 프로덕션 문제를 방지할 수 있습니다.

  • 프로덕션 고려 사항

    이 문서에서는 실시간 또는 일괄 처리 애플리케이션에 대한 대기 시간 및 비용 요구 사항을 충족하도록 Azure Databricks의 구조적 스트리밍을 사용하여 프로덕션 증분 처리 워크로드를 구성하기 위한 권장 사항을 제공합니다.

  • 스트림 모니터링

    Azure Databricks에서 구조적 스트리밍 애플리케이션을 모니터링하는 방법을 알아봅니다.

  • Unity 카탈로그 통합

    Azure Databricks의 구조적 스트리밍과 함께 Unity 카탈로그를 활용하는 방법을 알아봅니다.

  • Delta를 사용한 스트리밍

    Delta Lake 테이블을 스트리밍 원본 및 싱크로 사용하는 방법을 알아봅니다.

  • 예제

    Azure Databricks에서 Cassandra, Azure Synapse Analytics, Python Notebook 및 Scala Notebook과 함께 Spark 구조적 스트리밍을 사용하는 예제를 참조하세요.

Azure Databricks에는 Avro에 포함된 반정형 데이터 필드, 프로토콜 버퍼 및 JSON 데이터 페이로드 작업을 위한 특정 기능이 있습니다. 자세한 내용은 다음을 참조하세요.

추가 리소스

아파치 스파크는 구조화된 스트리밍에 대한 자세한 정보가 담긴 구조화된 스트리밍 프로그래밍 가이드를 제공합니다.

Structured Streaming에 대한 참조 정보에 대해 Databricks는 다음과 같은 Apache Spark API 참조를 권장합니다.