共用方式為


使用異動資料擷取資源,從 Azure SQL 資料擷取具有結構描述演進的已變更資料到 Delta 接收器

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

在本文中,您會使用 Azure Data Factory 使用者介面來建立異動資料擷取 (CDC) 資源。 資源會從 Azure SQL Database 來源獲取已變更的資料,並將其實時新增至儲存在 Azure Data Lake Storage Gen2 中的 Delta Lake。 此活動會使用來源與接收之間的 CDC 資源來展示結構描述演進的支援。

在本文中,您將學會如何:

  • 建立 CDC 資源。
  • 對來源資料表進行動態結構描述變更。
  • 驗證目標 Delta 接收器的結構描述變更。

您可以修改並展開本文中的設定模式。

必要條件

開始本文中的程序前,請確定您具備這些資源:

  • Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請建立免費的 Azure 帳戶
  • SQL 資料庫。 您會使用 Azure SQL Database 作爲來源資料存放區。 如果您沒有 SQL 資料庫,請在 Azure 入口網站中建立一個。
  • 「儲存體帳戶」。 您可以使用儲存在 Azure Data Lake Storage Gen2 中的 Delta Lake 作為目標資料存放區。 如果您沒有儲存體帳戶,請參閱 建立儲存體帳戶,以按照步驟來建立帳戶。

建立 CDC 成品

  1. 移至資料處理站中的 [建立者] 窗格。 在 [Pipelines] 下方,隨即出現名為 [異動資料擷取 (預覽)] 的新最上層成品。

    [處理站資源] 窗格上變更數據擷取之新最上層成品的螢幕快照。

  2. 將滑鼠停留在 [異動資料擷取 (預覽)] 上方,直到出現三個點為止。 然後選取 [異動資料擷取 (預覽) 動作]

    顯示在新最上層成品上變更數據擷取動作的按鈕螢幕快照。

  3. 選取 [新 CDC (預覽)]。 此步驟會開啟飛出視窗以開始引導式流程。

    變更數據擷取動作清單的螢幕快照。

  4. 系統會提示您為 CDC 資源命名。 根據預設,名稱為「adfcdc」,其數字會以 1 遞增。 您可以使用您選擇的名稱取代此預設名稱。

    用來更新資源名稱的文字框螢幕快照。

  5. 使用下拉式清單來選擇您的資料來源。 針對本文,請選取 [Azure SQL Database]

    引導式進程飛出視窗的螢幕快照,其中包含下拉式清單中的來源選項。

  6. 系統會提示您選取連結的服務。 建立新的連結服務或選取現有服務。

    要選擇或建立連結服務的方塊螢幕快照。

  7. 選取連結服務之後,系統會提示您選取來源資料表。 使用核取方塊來選取來源資料表,然後使用下拉式清單選取 遞增資料行 值。

    顯示源數據表和累加數據行選取項目的螢幕快照。

    窗格只會列出支援遞增資料行資料類型的資料表。

    注意

    若要在 Azure SQL Database 來源中啟用具有結構描述演進的 CDC,請選擇以浮水印資料行為基礎的資料表,而不是啟用原生 SQL CDC 的資料表。

  8. 選取來源資料表之後,請選取 [繼續] 來設定您的資料目標。

    引導程式中 [繼續] 按鈕的螢幕快照,以選取數據目標。

  9. 使用下拉式清單選取 [目標類型] 值。 在本文中,選取 [Delta]。

    所有數據目標類型的下拉功能表螢幕快照。

  10. 系統會提示您選取連結的服務。 建立新的連結服務或選取現有服務。

    此方塊的螢幕快照,可讓您選擇或建立數據目標的連結服務。

  11. 選取目標資料資料夾。 您可以使用下列任一方法:

    • [目標型路徑] 底下的 [瀏覽] 按鈕,可協助您自動填入針對來源選取的所有新資料表的瀏覽路徑。
    • 外面的 [瀏覽] 按鈕,以個別選取資料夾路徑。

    用來瀏覽資料夾路徑的資料夾圖示螢幕快照。

  12. 選取資料夾路徑之後,請選取 [繼續] 按鈕。

    引導程式中 [繼續] 按鈕的螢幕快照,以繼續進行下一個步驟。

  13. 擷取異動資料的新索引標籤隨即出現。 此索引標籤是 CDC Studio,您可以在其中設定新的資源。

    異動數據擷取 Studio 的螢幕快照。

    系統會自動為您建立新對應。 您可使用下拉式清單,更新您的對應的 [來源資料表] 和 [目標資料表] 選取項目。

    異動數據擷取工作室中來源對目標對應的螢幕快照。

  14. 選取資料表之後,預設會開啟 [自動對應] 切換按鈕來對應其資料行。 [自動對應] 在接收器中會依名稱自動對應資料行、在來源結構描述演進時挑選新的資料行變更,並使此資訊流向支援的接收類型。

    開啟自動對應切換的螢幕快照。

    注意

    只有在開啟 自動對應 切換時,結構描述演進才能運作。 若要了解如何編輯資料行對應或包含轉換,請參閱 使用異動資料擷取資源擷取已變更的資料

  15. 選取 [金鑰] 連結,然後選取要用於追蹤刪除作業的 [金鑰] 資料行。

    開啟 [金鑰] 資料行選取之連結的螢幕快照。

    為選取來源選取 [金鑰] 資料行的螢幕快照。

  16. 對應完成之後,請使用 [設定延遲] 按鈕來設定 CDC 延遲。

    畫布頂端 [設定延遲] 按鈕的螢幕快照。

  17. 選取 CDC 的延遲,然後選取 [套用] 以進行變更。

    根據預設,延遲設定為 15 分鐘。 本文中的範例會使用 [即時] 選項來取得延遲。 即時延遲會以少於 1 分鐘的間隔,不斷取得來源資料的變更。

    針對其他延遲 (例如,如果您選取 15 分鐘),您的異動資料擷取會處理來源資料,並獲取自上次處理時間以來的任何變更的資料。

    設定延遲的選項螢幕快照。

  18. 設定 CDC 之後,請選取 [全部發佈] 以發佈變更。

    畫布頂端的 [發佈] 按鈕螢幕快照。

    注意

    如果您不發佈變更,您將無法啟動 CDC 資源。 下一個步驟中將無法使用 [開始] 按鈕。

  19. 選取 [開始] 以開始執行異動資料擷取。

    畫布頂端 [開始] 按鈕的螢幕快照。

現在您的異動資料擷取正在執行,您可以:

  • 使用 [監視] 頁面,查看讀取和寫入的變更次數(插入、更新或刪除),以及其他診斷資訊。

    所選異動數據擷取之監視頁面的螢幕快照。

    具有詳細檢視之所選變更數據擷取之監視頁面的螢幕快照。

  • 驗證變更資料是否以 Delta Lake 格式抵達儲存在 Azure Data Lake Storage Gen2 中的 Delta Lake。

    目標 Delta 資料夾的螢幕快照。

  • 驗證抵達之變更資料的結構描述。

    Delta 檔案的螢幕快照。

對來源資料表進行動態結構描述層變更。

  1. 使用 ALTER TABLET-SQL 陳述式,將新的 PersonalEmail 資料行新增至來源資料表,如下列範例所示。

    Azure Data Studio 中 ALTER 命令的螢幕快照。

  2. 驗證新的 PersonalEmail 資料行是否出現在現有的資料表中。

    新數據表設計的螢幕快照,其中已新增個人電子郵件的數據行。

驗證 Delta 接收器的結構描述變更

確認新資料行 PersonalEmail 出現在 Delta 接收器中。 您現在知道具有結構描述變更的變更資料已抵達目標。

具有架構變更之 Delta 檔案的螢幕快照。