共用方式為


比較自動載入器檔案偵測模式

自動載入器支援兩種偵測新檔案的模式:目錄清單和檔案通知。 您可以在串流重新啟動時切換檔案偵測模式,並仍然獲得精確一次的數據處理保證。

目錄清單模式

在目錄清單模式中,自動載入器會列出輸入目錄來識別新的檔案。 目錄清單模式可讓您快速啟動自動載入器串流,而不需要存取雲端記憶體上數據以外的任何許可權設定。

在 Databricks Runtime 9.1 和更新版本中,自動載入器可以自動偵測檔案是否以語匯順序抵達您的雲端記憶體,並大幅減少偵測新檔案所需的 API 呼叫數量。 如需詳細資訊,請參閱什麼是自動載入器目錄清單模式?

檔案通知模式

檔案通知模式利用您的雲端基礎架構帳戶中的檔案通知與佇列服務。 自動載入器可以自動設定通知服務和佇列服務,以訂閱輸入目錄中的檔案事件。

檔案通知模式對於大型輸入目錄或大量檔案而言更有效能且可調整,但需要額外的雲端許可權才能設定。 如需詳細資訊,請參閱 什麼是自動載入器檔案通知模式?

模式支援的雲端儲存

這些模式的可用性如下所列。

如果您從外部位置或 DBFS 掛接移轉至 Unity Catalog 磁碟區,Auto Loader 仍會提供只執行一次的保證。

雲端存放裝置 目錄清單 檔案通知
AWS S3 所有版本 所有版本
ADLS 所有版本 所有版本
GCS 所有版本 Databricks Runtime 9.1 和更新版本
Azure Blob 儲存空間 所有版本 所有版本
DBFS 所有版本 僅適用於裝入點
Unity 目錄卷 Databricks Runtime 13.3 LTS 以及其後的版本 不支援