Azure Synapse Analytics 中的數據流為何?
數據流是在 Azure Synapse Analytics 中以可視化方式設計的數據轉換。 資料流程可讓工程師在無須撰寫程式碼的情況下開發資料轉換邏輯。 產生的數據流會在使用向外延展 Apache Spark 叢集的 Azure Synapse Analytics 管線內執行為活動。 數據流活動可以使用現有的 Azure Synapse Analytics 排程、控制、流程和監視功能來運作。
數據流提供完全可視化的體驗,不需要撰寫程序代碼。 您的數據流會在 Synapse 管理的執行叢集上執行,以進行相應放大的數據處理。 Azure Synapse Analytics 會處理數據流作業的所有程式代碼轉譯、路徑優化和執行。
開始使用
數據流是從 Synapse Studio 中的 [開發] 窗格建立。 若要建立數據流,請選取 [開發] 旁的加號,然後選取 [數據流]。
此動作會帶您前往數據流畫布,您可以在其中建立轉換邏輯。 選取 [新增來源] 開始設定來源轉換。 如需詳細資訊,請參閱來源轉換。
撰寫資料流程
數據流具有獨特的撰寫畫布,其設計目的是讓建置轉換邏輯變得容易。 資料流程畫布分為三個部分:頂端列、圖形和設定面板。
圖表
圖形會顯示轉換串流。 會在來源資料流入一或多個接收器時顯示其譜系。 若要新增新的來源,請選取 [新增來源]。 若要新增新的轉換,請選取現有轉換右下角的加號。 深入了解如何管理資料流程圖形。
設定面板
設定面板會顯示目前所選取轉換的特定設定。 如果未選取任何轉換,則會顯示資料流程。 在整體數據流組態中,您可以透過 [ 參數 ] 索引卷標新增參數。如需詳細資訊,請參閱 數據流參數。
每個轉換都包含至少四個設定索引標籤。
轉換設定
每個轉換設定窗格中的第一個索引標籤包含該轉換的特定設定。 如需詳細資訊,請參閱該轉換的文件頁面。
最佳化
[最佳化] 索引標籤包含設定,可用來設定資料分割配置。 若要深入了解如何最佳化您的資料流程,請參閱對應資料流程效能指南。
檢查
[檢查] 索引標籤能讓您檢視正在轉換的資料流中繼資料。 您可以看見資料行計數、變更的資料行、新增的資料行、資料類型、資料行排序,以及資料行參考。 [檢查] 是您中繼資料的唯讀檢視。 您不需要啟用偵錯模式便可以在 [檢查] 窗格中查看中繼資料。
當您透過轉換變更資料的形狀時,您會在 [檢查 ] 窗格中看到元數據變更流程。 如果您的來源轉換中沒有已定義的結構描述,中繼資料將不會在 [檢查] 窗格中顯示。 結構描述漂移案例經常會發生缺乏中繼資料的情況。
資料預覽
如果偵錯模式為開啟,則 [資料預覽] 索引標籤會提供每個轉換資料的互動式快照集。 如需詳細資訊,請參閱偵錯模式中的資料預覽。
頂端列
頂端列包含會影響整個數據流的動作,例如驗證和偵錯設定。 您也可以檢視轉換邏輯的基礎 JSON 程式碼和資料流程指令碼。
可用的轉換
請參閱對應資料流程轉換概觀,以取得可用轉換的清單。
資料流程活動
數據流會使用 數據流活動,在 Azure Synapse Analytics 管線內運作。 使用者只需要指定要使用的整合執行階段,並傳入參數值即可。 如需詳細資訊,請深入了解 Azure 整合執行階段。
偵錯模式
當您建置及偵錯資料流程時,偵錯模式可讓您以互動方式查看每個轉換步驟的結果。 您可以在建置資料流程邏輯時,以及使用資料流程活動執行管線偵錯回合時,使用偵錯工作階段。 若要深入了解,請參閱偵錯模式文件。
監視資料流
數據流會與現有的 Azure Synapse Analytics 監視功能整合。 若要了解如何理解資料流程監視輸出,請參閱監視對應資料流程。
Azure Synapse Analytics 小組已建立 效能微調指南 ,協助您在建置商業規則之後優化數據流的運行時間。