從雲端物件記憶體擷取數據
本文列出您可以從雲端物件儲存中設定增量擷取的方式。
新增資料 UI
若要瞭解如何使用新增數據 UI 從雲端物件記憶體中的數據建立受控數據表,請參閱 使用 Unity 目錄外部位置載入數據。
筆記本或 SQL 編輯器
本節說明使用筆記本或 Databricks SQL 編輯器從雲端物件儲存設定增量引入的選項。
自動載入器
自動載入器 會在抵達雲端記憶體時,以累加且有效率的方式處理新的數據檔,而不需要額外的設定。 自動載入器提供稱為 cloudFiles
的結構化串流來源。 在雲端檔案記憶體上指定輸入目錄路徑, cloudFiles
來源會在新檔案送達時自動處理新檔案,並可選擇同時處理該目錄中的現有檔案。
COPY INTO
使用 COPY INTO,SQL 使用者可以以等冪和累加方式將數據從雲端物件記憶體內嵌到 Delta 資料表。 您可以在 Databricks SQL、筆記本和 Databricks 作業中使用 COPY INTO
。
何時使用 COPY INTO,以及何時使用自動載入器
在 [自動載入器] 和 COPY INTO
之間選擇時,以下是需要考慮的一些事項:
- 如果您計劃隨著時間處理數千個檔案,您可以使用
COPY INTO
。 如果您預期檔案隨著時間累積達到數百萬或更多,請使用自動加載器。 相較於,自動載入器需要較少的總作業來探索檔案COPY INTO
,而且可以將處理分割成多個批次,這表示自動載入器在大規模上成本較低且更有效率。 - 如果您的數據架構會經常演進,自動載入器會針對架構推斷和演進提供更佳的基本數據類型。 如需詳細資訊,請參閱在自動載入器 中設定架構推斷和演進
。 - 使用
COPY INTO
管理載入重新上傳的檔案子集可能會更容易。 使用自動載入器,更難重新處理選取的檔案子集。 不過,當自動載入器數據流同時執行時,您可以使用COPY INTO
來重載檔案的子集。
- 針對更可調整且健全的檔案擷取體驗,自動載入器可讓 SQL 使用者運用串流數據表。 請參閱 在 Databricks SQL中使用串流數據表載入數據。
如需自動載入器和 COPY INTO
的簡短概觀和示範,請觀看下列 YouTube 影片(2 分鐘)。
使用 DLT 和自動載入器將 ETL 自動化
您可以使用自動載入器和 DLT 來簡化可調整、累加式擷取基礎結構的部署。 DLT 並不採用筆記本環境中的標準互動執行,而是專注於部署已為生產環境準備就緒的基礎設施。
- 在 Databricks SQL 中使用串流數據表載入數據
第三方匯入工具
Databricks 會驗證技術合作夥伴的整合,讓您能夠從各種來源導入數據,包括雲端物件儲存。 這些整合可讓您從各種來源擷取低代碼、可擴展的資料進入 Azure Databricks。 請參閱 技術合作夥伴。 某些技術合作夥伴被介紹在「Databricks Partner Connect 是什麼?」中,這提供了一個簡化將第三方工具連接到您的 Lakehouse 數據的 UI。