對應資料流偵錯模式
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
概觀
Azure Data Factory 和 Synapse Analytics 對應資料流的偵錯模式可讓您在組建和偵錯資料流程時,以互動方式監看資料圖形轉換。 偵錯工作階段可以在資料流程設計工作階段和管線偵錯執行工作階段期間使用。 若要啟動偵錯模式,請在有資料流程活動時使用資料流程畫布或管線畫布頂端列中的 [資料流程偵錯] 按鈕。
開啟滑桿之後,系統會提示您選取要使用的整合執行階段設定。 如果您選擇 AutoResolveIntegrationRuntime,則會啟動一般計算的八核心叢集,預設存留時間為 60 分鐘。 如果您想要在工作階段逾時之前允許更多閒置小組,則可選擇更高的 TTL 設定。 如需資料流程整合執行階段的詳細資訊,請參閱 Integration Runtime 效能。
偵錯模式開啟時,您會使用作用中的 Spark 叢集,以互動方式組建資料流程。 關閉偵錯後,此工作階段隨之關閉。 請留意在您已開啟偵錯工作階段的期間內,由 Data Factory 所產生的每小時費用。
在大部分情況下,最好在偵錯模式中組建資料流程,以便在發佈工作之前驗證商務邏輯,並檢視資料轉換。 使用管線面板上的 [偵錯] 按鈕,測試管線中的資料流程。
注意
使用者從瀏覽器 UI 開始的每個偵錯工作階段,都是自有 Spark 叢集的全新工作階段。 您可以使用上圖中所顯示偵錯工作階段的監視檢視,檢視並管理偵錯工作階段。 每個偵錯工作階段執行的每個小時均會收取費用,TTL 時間也包含在內。
這段影片剪輯會討論資料流程偵錯模式的秘訣、技巧和良好做法。
叢集狀態
設計介面的頂端有叢集狀態指示器,叢集準備好進行偵錯時會變成綠色。 如果您的叢集已經暖機,則綠色指示器幾乎會立即出現。 如果您進入偵錯模式時叢集尚未執行,則 Spark 叢集會執行冷開機。 指示器會旋轉,直到環境準備好進行互動式偵錯為止。
完成偵錯時,請關閉 [偵錯] 開關終止 Spark 叢集,藉此停止偵錯活動相關計費。
偵錯設定
開啟偵錯模式之後,即可編輯資料流程預覽資料的方式。 您可以在 [資料流程] 畫布工具列上按一下 [偵錯設定] 來編輯偵錯設定。 您可以選取資料列限制或檔案來源,以便在此用於您的每個來源轉換。 此設定中的資料列限制僅適用於目前的偵錯工作階段。 您也可以選取要用於 Azure Synapse Analytics 來源的暫存連結服務。
如果資料流程或其任何參考的資料集有參數,您可選取 [參數] 索引標籤,指定偵錯期間要使用的值。
使用此處的取樣設定來指向範例檔案或資料的範例資料表,免去變更來源資料集的動作。 使用此處的範例檔案或資料表,即可在針對資料子集進行測試時,維護資料流程中的相同邏輯和屬性設定。
資料流程中用於偵錯模式的預設 IR,是具有 4 核心單一驅動程式節點的小型 4 核心單一背景工作角色節點。 在測試資料流程邏輯時,這適用於較小的資料樣本。 如果您在資料預覽期間擴充偵錯設定的資料列限制,或於管線偵錯期間,在來源中設定較高的取樣資料列數目,則建議您考慮在新 Azure Integration Runtime 中,設定較大的計算環境。 之後您可用更大的計算環境重新啟動偵錯工作階段。
資料預覽
若開啟偵錯,[資料預覽] 索引標籤在底部面板上亮起。 若未開啟偵錯模式,資料流程會顯示只有目前中繼資料進出 [檢查] 索引標籤中的每個轉換。資料預覽只會查詢您已在偵錯設定中設定為限制的資料列數目。 選取 [重新整理],根據目前的轉換更新資料預覽。 如果您的來源資料已變更,則選取 [重新整理] > [從來源重新擷取]。
您可以排序資料預覽中的資料行,並使用拖放方式來重新排列資料行。 此外,資料預覽面板頂端有一個匯出按鈕,可用來將預覽資料匯出成 CSV 檔案,以進行離線資料探索。 您可以使用這項功能,匯出多達 1,000 列預覽資料。
注意
檔案來源只會限制顯示的資料列,而不會限制讀取的資料列。 對於非常大型的資料集,建議您採用一小部分的檔案,並將其用於測試。 您可以針對屬於檔案資料集類型的每個來源,在 [偵錯設定] 中選取暫存檔案。
在資料流程的偵錯模式中執行時,您的資料不會寫入至接收轉換。 偵錯工作階段預定做為轉換的測試載入器。 偵錯期間不需要接收,而且會在資料流程中忽略。 如果您想在接收中測試寫入資料,請從管線執行資料流程,並從管線使用偵錯執行。
資料預覽是採用 Spark 記憶體中資料框架的資料列限制和資料取樣,所轉換資料的快照集。 因此,本情節中並未使用或測試接收驅動程式。
注意
數據預覽會根據瀏覽器的地區設定顯示時間。
測試聯結條件
在單元測試 Joins、Exists 或 Lookup 轉換時,請確定您針對測試使用一組小型的已知資料。 您可以使用先前所述的 [偵錯設定] 選項,設定要用於測試的暫存檔案。 這是必要動作,因為從大型資料集限制或取樣資料列時,您無法預測哪些資料列和索引鍵會讀取入流程以供測試。 結果不具決定性,意即聯結條件可能會失敗。
快速動作
看到資料預覽後,即可產生快速轉換,以針對資料行進行型別轉換、移除或修改。 選取資料行標頭,然後從資料預覽工具列中選取一個選項。
選取修改之後,資料預覽會立即重新整理。 選取右上角的 [確認],產生新的轉換。
Typecast 和 Modify 會產生衍生的資料行轉換,而 Remove 則會產生 Select 轉換。
注意
如果您編輯資料流程,則需在新增快速轉換之前重新擷取資料預覽。
資料分析
在資料預覽索引標籤中選取資料行,然後按一下 [資料預覽] 工具列中的 [Bing 統計資料],資料格最右邊隨即會彈出圖表,顯示每個欄位的詳細統計資料。 此服務會根據要顯示圖表型別的資料取樣進行判斷。 高基數欄位會預設為 NULL/NOT NULL 圖表,而具有低基數的類別和數值資料會顯示表示資料值頻率的橫條圖。 您也會看到字串欄位的 max/len 長度、數值欄位中的最小/最大值、標準差、百分位數、計數和平均值。