Azure HDInsight에서 Apache Spark 및 Kafka를 사용하여 고급 스트리밍 데이터 변환 수행
이 모듈에서는 Apache Kafka 및 Apache Spark와 함께 Azure HDInsight를 사용하여 클라우드에서 실시간 스트리밍 데이터 분석 파이프라인 및 애플리케이션을 만드는 방법에 대해 설명합니다.
학습 목표
이 모듈을 마치면 다음을 알게 됩니다.
- Apache Spark 및 Kafka를 HDInsight와 함께 사용해야 하는 경우.
- Spark 구조적 스트리밍
- Kafka 및 Spark 솔루션의 아키텍처.
- HDInsight를 프로비전하고, Kafka 생산자를 만들고, Kafka 데이터를 Jupyter Notebook으로 스트리밍하는 방법.
- 보조 클러스터에 데이터를 복제하는 방법.
사전 요구 사항
다음 필수 조건을 충족해야 합니다.
- Azure Portal에 성공적으로 로그인합니다.
- Azure Storage 옵션을 이해합니다.
- Azure 컴퓨팅 옵션을 이해합니다.
- Azure Portal에서 HDInsight 클러스터를 만들고 구성합니다.