從雲端物件記憶體擷取數據
本文列出您可以從雲端物件記憶體設定累加擷取的方式。
新增資料 UI
若要瞭解如何使用新增數據 UI 從雲端物件記憶體中的數據建立受控數據表,請參閱 使用 Unity 目錄外部位置載入數據。
筆記本或 SQL 編輯器
本節說明使用筆記本或 Databricks SQL 編輯器從雲端物件記憶體設定累加擷取的選項。
自動載入器
自動載入器 會在抵達雲端記憶體時,以累加且有效率的方式處理新的數據檔,而不需要額外的設定。 自動載入器提供稱為 cloudFiles
的結構化串流來源。 在雲端檔案記憶體上指定輸入目錄路徑, cloudFiles
來源會在新檔案送達時自動處理新檔案,並可選擇同時處理該目錄中的現有檔案。
COPY INTO
使用 COPY INTO,SQL 使用者可以以等冪和累加方式將數據從雲端物件記憶體內嵌到 Delta 資料表。 您可以在 Databricks SQL、筆記本和 Databricks 作業中使用 COPY INTO
。
何時使用 COPY INTO,以及何時使用自動載入器
在 [自動載入器] 和 COPY INTO
之間選擇時,以下是需要考慮的一些事項:
如果您要依一段時間內的數千個順序內嵌檔案,您可以使用
COPY INTO
。 如果您預期檔案依一段時間的數百萬或更多,請使用自動載入器。 相較於,自動載入器需要較少的總作業來探索檔案COPY INTO
,而且可以將處理分割成多個批次,這表示自動載入器在大規模上成本較低且更有效率。如果您的數據架構會經常演進,自動載入器會針對架構推斷和演進提供更佳的基本數據類型。 如需詳細資訊,請參閱在自動載入器 中設定架構推斷和演進
。 載入重新上傳的檔案子集可能會更容易使用
COPY INTO
管理。 使用自動載入器,更難重新處理選取的檔案子集。 不過,當自動載入器數據流同時執行時,您可以使用COPY INTO
來重載檔案的子集。針對更可調整且健全的檔案擷取體驗,自動載入器可讓 SQL 使用者運用串流數據表。 請參閱 在 Databricks SQL中使用串流數據表載入數據。
如需自動載入器和 COPY INTO
的簡短概觀和示範,請觀看下列 YouTube 影片(2 分鐘)。
使用 Delta 即時數據表和自動載入器將 ETL 自動化
您可以使用自動載入器和 Delta 即時資料表來簡化可調整、累加式擷取基礎結構的部署。 Delta Live Tables 並不使用在筆記本中常見的標準互動式執行,反而更著重於部署已準備好用於生產環境的基礎設施。
第三方擷取工具
Databricks 會驗證技術合作夥伴整合,讓您能夠從各種來源內嵌,包括雲端物件記憶體。 這些整合可讓您從各種來源擷取低程序代碼、可調整的數據擷取到 Azure Databricks。 請參閱 技術合作夥伴。 某些技術合作夥伴在什麼是 Databricks Partner Connect?中提供 UI,可簡化將第三方工具連線到 Lakehouse 數據的 UI。