從雲端物件記憶體擷取數據

發行項
03/06/2025

本文列出您可以從雲端物件儲存中設定增量擷取的方式。

新增資料 UI

若要瞭解如何使用新增數據 UI 從雲端物件記憶體中的數據建立受控數據表，請參閱使用 Unity 目錄外部位置載入數據。

筆記本或 SQL 編輯器

本節說明使用筆記本或 Databricks SQL 編輯器從雲端物件儲存設定增量引入的選項。

自動載入器

自動載入器會在抵達雲端記憶體時，以累加且有效率的方式處理新的數據檔，而不需要額外的設定。自動載入器提供稱為 cloudFiles的結構化串流來源。在雲端檔案記憶體上指定輸入目錄路徑， cloudFiles 來源會在新檔案送達時自動處理新檔案，並可選擇同時處理該目錄中的現有檔案。

COPY INTO

使用 COPY INTO，SQL 使用者可以以等冪和累加方式將數據從雲端物件記憶體內嵌到 Delta 資料表。您可以在 Databricks SQL、筆記本和 Databricks 作業中使用 COPY INTO 。

何時使用 COPY INTO，以及何時使用自動載入器

在 [自動載入器] 和 COPY INTO之間選擇時，以下是需要考慮的一些事項：

如果您計劃隨著時間處理數千個檔案，您可以使用 COPY INTO。如果您預期檔案隨著時間累積達到數百萬或更多，請使用自動加載器。相較於，自動載入器需要較少的總作業來探索檔案 COPY INTO ，而且可以將處理分割成多個批次，這表示自動載入器在大規模上成本較低且更有效率。
如果您的數據架構會經常演進，自動載入器會針對架構推斷和演進提供更佳的基本數據類型。如需詳細資訊，請參閱在自動載入器中設定架構推斷和演進。
使用 COPY INTO 管理載入重新上傳的檔案子集可能會更容易。使用自動載入器，更難重新處理選取的檔案子集。不過，當自動載入器數據流同時執行時，您可以使用 COPY INTO 來重載檔案的子集。

針對更可調整且健全的檔案擷取體驗，自動載入器可讓 SQL 使用者運用串流數據表。請參閱在 Databricks SQL中使用串流數據表載入數據。

如需自動載入器和 COPY INTO的簡短概觀和示範，請觀看下列 YouTube 影片（2 分鐘）。

使用 DLT 和自動載入器將 ETL 自動化

您可以使用自動載入器和 DLT 來簡化可調整、累加式擷取基礎結構的部署。 DLT 並不採用筆記本環境中的標準互動執行，而是專注於部署已為生產環境準備就緒的基礎設施。

在 Databricks SQL 中使用串流數據表載入數據

第三方匯入工具

Databricks 會驗證技術合作夥伴的整合，讓您能夠從各種來源導入數據，包括雲端物件儲存。這些整合可讓您從各種來源擷取低代碼、可擴展的資料進入 Azure Databricks。請參閱技術合作夥伴。某些技術合作夥伴被介紹在「Databricks Partner Connect 是什麼？」中，這提供了一個簡化將第三方工具連接到您的 Lakehouse 數據的 UI。

共用方式為