Ключевые принципы
Azure Databricks — это одна платформа служб с несколькими технологиями, которые позволяют работать с данными в масштабе. При использовании Azure Databricks существуют некоторые основные понятия, которые необходимо понять.
Рабочие области
Рабочая область — это среда для доступа ко всем ресурсам Databricks. Он предоставляет пользовательский интерфейс для управления записными книжками, библиотеками и экспериментами. Рабочие области можно упорядочить в папки и совместно использовать между участниками команды, упрощая совместную работу и управление ресурсами.
Записные книжки
Записные книжки Databricks — это интерактивные документы, содержащие выполняемый код, визуализации и текст повествования. Они поддерживают несколько языков, включая Python, R, Scala и SQL, которые можно использовать одновременно в одной записной книжке. Записные книжки являются центральными для совместных проектов и идеально подходят для анализа данных, визуализации данных и сложных рабочих процессов данных.
Кластеры
Кластеры — это вычислительные механизмы Azure Databricks. Пользователи могут создавать и масштабировать кластеры в соответствии с необходимыми вычислительными ресурсами. Кластеры можно настроить вручную или настроить для автоматического масштабирования на основе рабочей нагрузки. Они поддерживают различные типы узлов для различных задач, таких как драйверы и рабочие узлы, обеспечивая эффективное использование ресурсов.
Работы
Задания в Azure Databricks используются для планирования и выполнения автоматических задач. Эти задачи могут быть выполнением записных книжек, заданиями Spark или произвольными выполнениями кода. Задания можно активировать в расписании или запускать в ответ на определенные события, что упрощает автоматизацию рабочих процессов и периодических задач обработки данных.
Databricks Runtime
Среда выполнения Databricks — это набор оптимизированных для производительности версий Apache Spark. Он включает усовершенствования для повышения производительности и дополнительных функциональных возможностей за пределами стандартных Spark, таких как оптимизация рабочих нагрузок машинного обучения, обработка графов и genomics.
Delta Lake
Delta Lake — это слой хранения с открытым исходным кодом, который обеспечивает надежность и масштабируемость озера данных. Она обеспечивает транзакции ACID, масштабируемую обработку метаданных и унифицировывает потоковую и пакетную обработку данных, все важное для управления крупномасштабными данными в согласованном и отказоустойчивом режиме.
Databricks SQL
Databricks SQL позволяет выполнять sql-запросы к данным в Azure Databricks. Он позволяет аналитикам данных выполнять быстрые нерегламентированные запросы и создавать отчеты непосредственно в больших данных. Он включает редактор SQL, панели мониторинга и средства автоматической визуализации, что делает его удобным для тех, кто привык к средам SQL.
MLflow
MLflow — это платформа с открытым исходным кодом для управления комплексным жизненным циклом машинного обучения. Он включает функции для отслеживания экспериментов, управления моделями и развертывания, помогая специалистам управлять моделями машинного обучения и эффективно обмениваться ими.