了解處理巨量資料的階段

已完成

資料湖在各種不同巨量資料架構中扮演著重要角色。 這些架構可能涉及建立:

  • 企業資料倉儲。
  • 以巨量資料為依據的進階分析。
  • 即時分析解決方案。

有四個階段可用來處理所有架構通用的巨量資料解決方案:

  • 擷取 - 擷取階段會識別用來取得來源資料的技術和流程。 此資料可能來自必須放入資料湖的檔案、記錄,以及其他類型的非結構化資料。 所使用技術將根據資料的傳輸頻率而有所不同。 例如,若要批次移動資料,Azure Synapse Analytics 或 Azure Data Factory 可能是最適合採用的技術。 若要進行即時資料擷取,則適當的選擇可能是 Apache Kafka for HDInsight 或串流分析。
  • 儲存 - 儲存階段會識別應放置所擷取資料的位置。 Azure Data Lake Storage Gen2 提供安全且可調整的儲存體解決方案,與常用的巨量資料處理技術相容。
  • 準備和訓練 - 準備和訓練階段會找出用來執行資料準備、模型定型,及機器學習解決方案計分的技術。 在此階段中使用的常見技術是 Azure Synapse Analytics、Azure Databricks、Azure HDInsight 和 Azure Machine Learning。
  • 製作模型及提供服務 - 最後,製作模型及提供服務階段會牽涉到將資料呈現給使用者的技術。 這些技術包括 Microsoft Power BI 之類的視覺效果工具,或 Azure Synapse Analytics 之類的分析資料存放區。 通常,會根據商務需求來使用多個技術的組合。