簡介

已完成

透過使用 Azure HDInsight 搭配 Apache Kafka 和 Apache Spark,您可以在雲端上建立即時串流資料分析管線和應用程式。

Apache Kafka 是一種分散式訊息系統,可從多個系統取得傳入的串流資料,並讓其他應用程式可以即時使用該串流資料。 Apache Kafka 的運作方式是建立已排序資料的佇列,然後跨多部機器複寫資料,以便沒有單一失敗點,並讓所謂的發行者或取用者可以使用該資料。 發行者是建立訊息並將其新增至 Kafka 佇列的用戶端,而取用者則會根據其訂用帳戶接收訊息。

Apache Spark 是一種平行處理系統,可讓您從 Apache Kafka 等系統取得資料,然後轉換並回應資料。 Apache Kafka 可讓您控管和儲存資料,而 Apache Spark 則可讓您修改和處理資料。 一起使用時,Spark 可以從 Kafka 內嵌小型批次或連續的資料流程,並使用所謂的結構化串流來即時處理資料。 當公司實作結構化串流時,可以使用單一架構來處理批次資料、即時串流資料或兩者的組合,這可讓公司在其從批次處理移至即時處理時,將應用程式移至上層,而不必學習或實作不同的架構。

在 Azure HDInsight 上使用 Apache Kafka 和 Apache Spark,您可以在幾分鐘內建立此架構,而且能夠從線上雲端提供者的可擴縮性和高可用性中獲益。 這也可讓已建立內部部署 Kafka 和 Spark 應用程式的公司,更輕鬆地將這些工作負載遷移至雲端。

身為銀行業的資料工程師,您必須能夠以極低的延遲開始處理傳入的串流和批次資料,而且您相信 Apache Spark 和 Apache Kafka 可能是適合於該作業的工具。

學習目標

本課程模組結束時,您將:

  • 使用 HDInsight
  • 使用 Apache Kafka 串流資料
  • 描述 Spark 結構化串流
  • 建立 Kafka Spark 架構
  • 佈建 HDInsight 以執行資料轉換
  • 建立 Kafka 生產者
  • 將 Kafka 資料串流至 Jupyter 筆記本
  • 將資料複寫至次要叢集