比較自動載入器檔案偵測模式
自動載入器支援兩種偵測新檔案的模式:目錄清單和檔案通知。 您可以在串流重新啟動時切換檔案偵測模式,並仍然獲得精確一次的數據處理保證。
目錄清單模式
在目錄清單模式中,自動載入器會列出輸入目錄來識別新的檔案。 目錄清單模式可讓您快速啟動自動載入器串流,而不需要存取雲端記憶體上數據以外的任何許可權設定。
在 Databricks Runtime 9.1 和更新版本中,自動載入器可以自動偵測檔案是否以語匯順序抵達您的雲端記憶體,並大幅減少偵測新檔案所需的 API 呼叫數量。 如需詳細資訊,請參閱什麼是自動載入器目錄清單模式?
檔案通知模式
檔案通知模式利用您的雲端基礎架構帳戶中的檔案通知與佇列服務。 自動載入器可以自動設定通知服務和佇列服務,以訂閱輸入目錄中的檔案事件。
檔案通知模式對於大型輸入目錄或大量檔案而言更有效能且可調整,但需要額外的雲端許可權才能設定。 如需詳細資訊,請參閱 什麼是自動載入器檔案通知模式?。
模式支援的雲端儲存
這些模式的可用性如下所列。
如果您從外部位置或 DBFS 掛接移轉至 Unity Catalog 磁碟區,Auto Loader 仍會提供只執行一次的保證。
雲端存放裝置 | 目錄清單 | 檔案通知 |
---|---|---|
AWS S3 | 所有版本 | 所有版本 |
ADLS | 所有版本 | 所有版本 |
GCS | 所有版本 | Databricks Runtime 9.1 和更新版本 |
Azure Blob 儲存空間 | 所有版本 | 所有版本 |
DBFS | 所有版本 | 僅適用於裝入點 |
Unity 目錄卷 | Databricks Runtime 13.3 LTS 以及其後的版本 | 不支援 |