Стриминговая обработка на Azure Databricks
Azure Databricks можно использовать для приема, обработки данных, машинного обучения и искусственного интеллекта в режиме, близком к реальному времени для потоковой передачи данных.
Azure Databricks предлагает множество оптимизаций для потоковой и добавочной обработки, включая следующие:
- DLT предоставляет декларативный синтаксис для добавочной обработки. См. Что такое DLT?.
- Автозагрузчик упрощает инкрементальную запись из облачного хранилища объектов. См. статью об автозагрузчике.
- Каталог Unity добавляет функции управления данными для потоковых рабочих нагрузок. См. Использование каталога Unity с структурированной потоковой передачей.
Delta Lake предоставляет уровень хранения для этих интеграций. См. потоковые чтения и записи таблиц Delta.
Для обслуживания моделей в режиме реального времени см. раздел Развертывание моделей с помощью сервиса Mosaic AI.
- Руководство
- Основные понятия
- Потоковая передача с отслеживанием состояния
- Пользовательские приложения с сохранением состояния
- Учетные моменты производства
- Мониторинг потоков
- интеграция каталога Unity
- Стриминг на платформе Delta
- Примеры
Azure Databricks имеет определенные функции для работы с полуструктурированными полями данных, содержащимися в Avro, протокольными буферами и JSON-данными. Дополнительные сведения см. на следующих ресурсах:
Дополнительные ресурсы
Apache Spark предоставляет руководство по программированию структурированной потоковой передачи, которое содержит дополнительные сведения о структурированной потоковой передаче.
Для получения справочных сведений о структурированной потоковой передаче Databricks рекомендует следующие ссылки на API Apache Spark: