Что такое автозагрузчик?
Автозагрузчик поэтапно и эффективно обрабатывает новые файлы данных по мере их поступления в облачное хранилище без дополнительной настройки.
Как работает автозагрузчик?
Автозагрузчик поэтапно и эффективно обрабатывает новые файлы данных по мере их поступления в облачное хранилище. Он предоставляет источник потоковой передачи под названием cloudFiles
, который является структурированным. При наличии пути к входному каталогу в облачном хранилище файлов источник cloudFiles
автоматически обрабатывает новые файлы по мере их поступления, при этом также обрабатывает существующие файлы в этом каталоге. Автозагрузчик поддерживает как Python, так и SQL в DLT.
Автозагрузчик можно использовать для обработки миллиардов файлов, чтобы перенести данные или выполнить дозаполнение таблицы. Автозагрузчик масштабируется для поддержки приема миллионов файлов в час почти в реальном времени.
Поддерживаемые источники автозагрузчика
Автозагрузчик может загружать файлы данных из следующих источников:
Amazon S3 (
s3://
)Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения,
abfss://
)Google Cloud Storage (GCS,
gs://
)Хранилище BLOB-объектов Azure (
wasbs://
)Примечание.
Устаревший драйвер Windows Azure Storage Blob (WASB) объявлен нерекомендуемым. ABFS имеет множество преимуществ по сравнению с WASB. См. документацию Azure по ABFS. Документацию по работе с устаревшим драйвером WASB см. в статье Подключение к Хранилищу BLOB-объектов Azure с использованием WASB (устаревшее решение).
ADLS 1-го поколения (
adl://
)Примечание.
В Azure объявлено о прекращении поддержки Azure Data Lake Storage 1-го поколения. Databricks рекомендует перенести все данные из Azure Data Lake Storage 1-го поколения в Azure Data Lake Storage 2-го поколения. Если вы еще не выполнили миграцию, см. статью Доступ к Azure Data Lake Storage 1-го поколения из Azure Databricks.
Файловая система Databricks (DBFS,
dbfs:/
).
Автозагрузчик может принимать форматы файлов JSON
, CSV
, XML
, PARQUET
, AVRO
, ORC
, TEXT
и BINARYFILE
.
Как Auto Loader отслеживает прогресс загрузки данных?
По мере обнаружения файлов их метаданные сохраняются в масштабируемом хранилище пар "ключ — значение" (RocksDB) в расположении контрольной точки конвейера Автозагрузчика. Это хранилище пар "ключ — значение" гарантирует, что данные обрабатываются только один раз.
В случае сбоев Auto Loader может возобновить работу с того места, где остановился, используя информацию, хранящуюся в месте контрольной точки, и продолжать обеспечивать гарантию точной одноразовой записи данных в Delta Lake. Для обеспечения отказоустойчивости или семантики "только один раз" не требуется поддерживать состояние или управлять им самостоятельно.
Инкрементная загрузка с помощью Auto Loader и DLT
Databricks рекомендует автозагрузчик в DLT для добавочного приема данных. DLT расширяет функциональные возможности структурированной потоковой передачи Apache Spark и позволяет написать всего несколько строк декларативного кода на Python или SQL для развертывания конвейера данных промышленного качества с помощью:
- Автомасштабирование вычислительной инфраструктуры для экономии затрат.
- Проверки качества данных с ожиданиями.
- Автоматическое управление эволюцией схемы
- Мониторинг с помощью метрик в журнале событий.
Не нужно предоставлять расположение схемы или контрольной точки, так как DLT автоматически управляет этими параметрами для конвейеров. См. раздел Загрузка данных с помощьюDLT.
Databricks также рекомендует Auto Loader при использовании структурированной потоковой передачи Apache Spark для приема данных из облачного хранилища объектов. API доступны в Python и Scala.
Как начать работу с автозагрузчиком Databricks
Ознакомьтесь со следующими статьями, чтобы приступить к настройке добавочного приема данных с помощью автозагрузчика с DLT:
- Руководство: Запуск первой рабочей нагрузки ETL в Databricks, используя примеры данных (Python, записная книжка SQL)
- Загружать данные из облачного хранилища объектов в потоковые таблицы с помощью Auto Loader (блокнот: Python, SQL)
Примеры. Распространенные шаблоны автозагрузчика
Примеры распространенных шаблонов автозагрузчика см. в разделе Общие шаблоны загрузки данных.
Настройка параметров автозагрузчика
Автозагрузчик можно настроить на основе объема данных, разнообразия и скорости.
Полный список параметров автозагрузчика см. в статье:
Если вы столкнулись с неожиданной производительностью, ознакомьтесь с часто задаваемыми вопросами.
Настройка режимов обнаружения файлов автозагрузчика
Автозагрузчик поддерживает два режима обнаружения файлов. См.
- Что такое режим списка каталогов автозагрузчика?
- Что такое режим уведомлений о файлах автозагрузчика?
Преимущества использования автозагрузчика при использовании структурированной потоковой передачи непосредственно из файлов
В Apache Spark можно выполнять добавочное чтение файлов с помощью spark.readStream.format(fileFormat).load(directory)
. Автозагрузчик обеспечивает следующие преимущества по сравнению с источником файлов.
- Масштабируемость — Автозагрузчик может эффективно обнаруживать миллиарды файлов. Операции обратного заполнения могут выполняться асинхронно, чтобы вычислительные ресурсы не тратились впустую.
- Производительность — стоимость обнаружения файлов с помощью Автозагрузчика зависит от количества принимаемых файлов, а не от количества каталогов, в которых эти файлы могут находиться. См. раздел " Что такое режим списка каталогов автозагрузчика?".
- Поддержка вывода схемы и эволюции: автозагрузчик может обнаруживать смещения схем, уведомлять вас о том, когда происходят изменения схемы, и спасать данные, которые были бы в противном случае проигнорированы или потеряны. См. Как работает вывод схемы автозагрузчика?.
- Стоимость: автозагрузчик использует собственные облачные API для получения списков файлов, существующих в хранилище. Кроме того, режим уведомлений о файлах автозагрузчика может помочь сократить затраты на облако, избегая перечисления каталогов в целом. Автозагрузчик может автоматически настроить службы уведомлений о файлах в хранилище, чтобы сделать обнаружение файлов гораздо дешевле.