使用資料流程程式碼片段來刪除重複的資料列並尋找 Null
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
藉由在對應資料流程中使用程式碼片段,您可以輕鬆地執行資料重複刪除和 Null 篩選等一般工作。 本文說明如何使用資料流程指令碼程式碼片段,輕鬆地將這些函數新增至管線。
建立新管線
選取 [新增管線]。
新增資料流程活動。
選取 [來源設定] 索引標籤、新增來源轉換,然後將其連接到其中一個資料集。
重複資料刪除和 null 檢查程式碼片段會使用利用資料流程結構描述漂移的一般模式。 程式碼片段會使用資料集中的任何結構描述,或使用沒有預先定義結構描述的資料集。
在資料流程指令碼 (DFS) 的 [使用所有資料行的相異資料列] 區段中,複製 DistinctRows 的程式碼片段。
移至 [資料流程指令碼] 文件頁面,並複製相異資料列的程式碼片段。
在指令碼中,在
source1
的定義之後,按 Enter,然後貼上程式碼片段。執行下列任一步驟:
將此貼上的程式碼片段連至您稍早在圖表中建立的來源轉換,方法是在貼上的程式碼前面輸入 source1。
或者,您可以從圖表中的新轉換節點選取傳入的串流,以在設計工具中連接新轉換。
現在,資料流程會使用彙總轉換,將重複的資料列從來源中移除,彙總轉換會使用所有資料行值的一般雜湊,依所有資料列分組。
新增程式碼片段,以將資料分割成一個串流,其中包含具有 Null 的資料列,以及另一個不具 Null 的串流。 若要這麼做︰
返回至程式碼片段程式庫,並在此時複製 Null 檢查的程式碼。
b. 在資料流程設計工具中,再次選取 [指令碼],然後將這個新的轉換程式碼貼到底部。 此動作會將指令碼連接到先前的轉換,方法是將該轉換的名稱放在貼上的程式碼片段前面。
資料流程圖表現在看起來應該像這樣:
您現在已建立具有一般重複資料刪除和 null 檢查的運作中資料流程,方法是從資料流程指令碼程式庫取得現有的程式碼片段,並將其新增至現有的設計。
相關內容
- 使用對應資料流程轉換,以組建資料流程邏輯的其餘部分。