Сравнение режимов обнаружения файлов автозагрузчика
Автозагрузчик поддерживает два режима обнаружения новых файлов: листинг каталога и уведомление о файлах. Можно переключать режимы обнаружения файлов во время перезапуска потоков и по-прежнему иметь гарантии обработки данных "только один раз".
Режим списка каталогов
В режиме списка каталогов автозагрузчик определяет новые файлы путем вывода перечисления входного каталога. Режим листинга каталога позволяет быстро запускать потоки Автозагрузчика без каких бы то ни было конфигураций разрешений, кроме доступа к данным в облачном хранилище.
В Databricks Runtime 9.1 и более поздних версиях автозагрузчик может автоматически определить, приходят ли файлы с лексическим упорядочением в облачное хранилище и значительно сокращают количество вызовов API, необходимых для обнаружения новых файлов. Дополнительные сведения см. в разделе "Что такое режим списка каталогов автозагрузчика"?
Режим уведомлений о файлах
В режиме уведомлений о файлах используются службы уведомлений о файлах и очереди в учетной записи облачной инфраструктуры. Автозагрузчик может автоматически настроить службу уведомлений и службу очередей, которые подписываются на события файлов, происходящие во входном каталоге.
Режим уведомлений файлов является более производительным и масштабируемым для больших каталогов ввода или большого объема файлов, но требует дополнительных облачных разрешений для настройки. Дополнительные сведения см. в разделе "Что такое режим уведомлений файлов автозагрузчика?".
Облачное хранилище, поддерживаемое режимами
Доступность этих режимов приведена ниже.
При миграции из внешнего расположения или подключения DBFS к тому каталога Unity автозагрузчик продолжает предоставлять точно однократные гарантии.
Облачное хранилище | Список каталогов | Уведомления о файлах |
---|---|---|
AWS S3 | Все версии | Все версии |
ADLS 2-го поколения | Все версии | Все версии |
GCS | Все версии | Databricks Runtime 9.1 и выше |
Хранилище BLOB-объектов Azure | Все версии | Все версии |
ADLS 1-го поколения | Все версии | Не поддерживается |
Файловая система Databricks | Все версии | Только для точек подключения |
Том каталога Unity | Databricks Runtime 13.3 LTS и более поздних версий | Не поддерживается |