Ключевые принципы

3 мин

Azure Databricks — это одна платформа служб с несколькими технологиями, которые позволяют работать с данными в масштабе. При использовании Azure Databricks существуют некоторые основные понятия, которые необходимо понять.

Рабочие области

Рабочая область — это среда для доступа ко всем ресурсам Databricks. Он предоставляет пользовательский интерфейс для управления записными книжками, библиотеками и экспериментами. Рабочие области можно упорядочить в папки и совместно использовать между участниками команды, упрощая совместную работу и управление ресурсами.

Записные книжки

Записные книжки Databricks — это интерактивные документы, содержащие выполняемый код, визуализации и текст повествования. Они поддерживают несколько языков, включая Python, R, Scala и SQL, которые можно использовать одновременно в одной записной книжке. Записные книжки являются центральными для совместных проектов и идеально подходят для анализа данных, визуализации данных и сложных рабочих процессов данных.

Кластеры

Кластеры — это вычислительные механизмы Azure Databricks. Пользователи могут создавать и масштабировать кластеры в соответствии с необходимыми вычислительными ресурсами. Кластеры можно настроить вручную или настроить для автоматического масштабирования на основе рабочей нагрузки. Они поддерживают различные типы узлов для различных задач, таких как драйверы и рабочие узлы, обеспечивая эффективное использование ресурсов.

Работы

Задания в Azure Databricks используются для планирования и выполнения автоматических задач. Эти задачи могут быть выполнением записных книжек, заданиями Spark или произвольными выполнениями кода. Задания можно активировать в расписании или запускать в ответ на определенные события, что упрощает автоматизацию рабочих процессов и периодических задач обработки данных.

Databricks Runtime

Среда выполнения Databricks — это набор оптимизированных для производительности версий Apache Spark. Он включает усовершенствования для повышения производительности и дополнительных функциональных возможностей за пределами стандартных Spark, таких как оптимизация рабочих нагрузок машинного обучения, обработка графов и genomics.

Delta Lake

Delta Lake — это слой хранения с открытым исходным кодом, который обеспечивает надежность и масштабируемость озера данных. Она обеспечивает транзакции ACID, масштабируемую обработку метаданных и унифицировывает потоковую и пакетную обработку данных, все важное для управления крупномасштабными данными в согласованном и отказоустойчивом режиме.

Databricks SQL

Databricks SQL позволяет выполнять sql-запросы к данным в Azure Databricks. Он позволяет аналитикам данных выполнять быстрые нерегламентированные запросы и создавать отчеты непосредственно в больших данных. Он включает редактор SQL, панели мониторинга и средства автоматической визуализации, что делает его удобным для тех, кто привык к средам SQL.

MLflow

MLflow — это платформа с открытым исходным кодом для управления комплексным жизненным циклом машинного обучения. Он включает функции для отслеживания экспериментов, управления моделями и развертывания, помогая специалистам управлять моделями машинного обучения и эффективно обмениваться ими.