Основные понятия Azure Databricks

Статья
12/30/2024

В этой статье приведены основные понятия, которые необходимо понять для эффективного использования Azure Databricks.

Учетные записи и рабочие области

В Azure Databricks рабочая область — это развертывание Azure Databricks в облаке, которое работает в качестве среды для вашей команды для доступа к ресурсам Databricks. Ваша организация может выбрать несколько рабочих областей или только одну в зависимости от потребностей.

Учетная запись Azure Databricks представляет одну сущность, которая может включать несколько рабочих областей. Учетные записи, включенные для каталога Unity, можно использовать для управления пользователями и их доступом к данным централизованно во всех рабочих областях в учетной записи.

Выставление счетов: единицы databricks (DBUs)

Счета за Azure Databricks на основе единиц databricks (DBUs), которые являются единицами обработки в час на основе типа экземпляра виртуальной машины.

См. страницу "Цены на Azure Databricks".

Проверка подлинности и авторизация

В этом разделе описаны основные понятия, изучение которых необходимо для управления удостоверениями Azure Databricks и их доступом к ресурсам Azure Databricks.

User

Отдельная личность, которая получает доступ к системе. Удостоверения пользователей представлены адресами электронной почты. См. раздел "Управление пользователями".

Субъект-служба

Удостоверение службы, предназначенное для использования с заданиями, автоматизированными инструментами и системами, например скриптами, приложениями и платформами CI/CD. Субъекты-службы представлены идентификатором приложения. См. статью Управление субъектами-службами.

Групповой

Коллекция удостоверений. Группы упрощают управление удостоверениями, облегчая назначение доступа к рабочим областям, данным и другим защищаемым объектам. Все удостоверения Databricks можно назначать как члены групп. См. раздел Управление группами.

Список управления доступом (ACL)

Список разрешений, подключенных к рабочей области, кластеру, заданию, таблице или эксперименту. Список управления доступом указывает, какие пользователи или системные процессы имеют доступ к объектам, а также какие операции можно выполнять с ресурсами. Каждая запись в обычном списке управления доступом определяет субъект и операцию. См. раздел Списки управления доступом.

Личный маркер доступа

Личный токен доступа — это строка, используемая для проверки подлинности вызовов REST API, подключений технологических партнеров и других средств. См . проверку подлинности маркера личного доступа Azure Databricks.

Маркеры идентификатора Microsoft Entra также можно использовать для проверки подлинности в REST API.

Интерфейсы Azure Databricks

В этом разделе описаны интерфейсы для доступа к ресурсам в Azure Databricks.

UI

Пользовательский интерфейс Azure Databricks — это графический интерфейс для взаимодействия с функциями, такими как папки рабочей области и их содержащиеся объекты, объекты данных и вычислительные ресурсы.

REST API

REST API Databricks предоставляет конечные точки для изменения или запроса сведений об объектах учетной записи Azure Databricks и рабочих областей. См . справочник по учетной записи и справочник по рабочей области.

SQL REST API

REST API SQL позволяет автоматизировать задачи в объектах SQL. См . API SQL.

CLI

Интерфейс командной строки Databricks размещен на сайте GitHub. Интерфейс командной строки построен на основе REST API Databricks.

Управление данными

В этом разделе описываются логические объекты, которые хранят данные, которые вы передаете в алгоритмы машинного обучения и на которых выполняется аналитика. Кроме того, он описывает пользовательский интерфейс на платформе для изучения объектов данных и управления ими.

Каталог Unity

Каталог Unity — это единое решение для управления данными и ресурсами ИИ в Azure Databricks, которое обеспечивает централизованный контроль доступа, аудит, происхождение и возможности обнаружения данных в рабочих областях Databricks. См. статью Что такое каталог Unity?.

корня DBFS.

Внимание

Хранение и доступ к данным с помощью корневых подключений DBFS или DBFS является устаревшим шаблоном, а не рекомендуется Databricks. Вместо этого Databricks рекомендует использовать каталог Unity для управления доступом ко всем данным. См. статью Что такое каталог Unity?.

Корневой каталог DBFS — это расположение хранилища, доступное всем пользователям по умолчанию. См. раздел "Что такое DBFS?".

Обозреватель каталогов

Обозреватель каталогов позволяет просматривать и управлять данными и ресурсами ИИ, включая схемы (базы данных), таблицы, модели, тома (не табличные данные), функции и зарегистрированные модели машинного обучения. Его можно использовать для поиска объектов данных и владельцев, понимания связей данных между таблицами и управления разрешениями и общим доступом. Смотрите Что такое обозреватель каталогов.

База данных

Коллекция объектов данных, таких как таблицы или представления и функции, упорядоченная таким образом, чтобы можно было легко получить доступ к ним, управлять и обновляться. См. сведения о схемах в Azure Databricks?

Стол

Представление структурированных данных. Вы выполняете запросы к таблицам с помощью Apache Spark SQL и API Apache Spark. См. Что такое таблицы и представления?.

Таблица дельта

По умолчанию все таблицы, созданные в Azure Databricks, — это разностные таблицы. Таблицы Delta основаны на проекте с открытым исходным кодом Delta Lake, платформе для высокопроизводительного ACID-хранилища таблиц в облачных хранилищах объектов. Таблица Delta хранит данные в виде каталога файлов в облачном хранилище объектов и регистрирует метаданные таблицы в хранилище метаданных в каталоге и схеме.

Узнайте больше о технологиях , фирменных как Delta.

Хранилище мета-данных

Компонент, в котором хранятся все сведения о структуре различных таблиц и секций в хранилище данных, включая сведения о типах столбцов и столбцов, сериализаторы и десериализаторы, необходимые для чтения и записи данных, а также соответствующие файлы, в которых хранятся данные. См. хранилища метаданных

Каждое развертывание Azure Databricks имеет центральное хранилище метаданных Hive, доступное всеми кластерами для сохранения метаданных таблицы. Вы также можете использовать существующее внешнее хранилище метаданных Hive.

Управление вычислениями

В этом разделе описаны основные понятия, изучение которых необходимо для выполнения вычислений в Azure Databricks.

Кластер

Набор вычислительных ресурсов и конфигураций, в которых выполняются записные книжки и задания. Существует два типа кластеров: универсальные кластеры и кластеры заданий. См. раздел " Вычисления".

Создать универсальный кластер можно с помощью пользовательского интерфейса, CLI или REST API. Такой кластер можно завершить и перезапустить вручную. Несколько пользователей могут использовать такие кластеры одновременно для интерактивного совместного анализа данных.
Планировщик заданий Azure Databricks создает кластер заданий при запуске задания в новом кластере заданий и завершает кластер после завершения задания. Перезапустить кластер заданий нельзя.

Пул

Набор простаивающих экземпляров, готовых к использованию, которые сокращают время запуска и автоматического масштабирования кластера. При подключении к пулу кластер выделяет узлы драйвера и рабочие узлы из пула. См . справочник по конфигурации пула.

Если в пуле недостаточно бездействующих ресурсов для удовлетворения запроса кластера, пул расширяется путем выделения новых экземпляров от поставщика экземпляров. При завершении работы подключенного кластера используемые им экземпляры возвращаются в пул и могут быть повторно использованы другим кластером.

Databricks Runtime

Набор основных компонентов, которые выполняются в кластерах, управляемых Azure Databricks. См. раздел " Вычисления". Azure Databricks имеет следующие среды выполнения:

Databricks Runtime включает Apache Spark с набором компонентов и обновлений, которые значительно повышают удобство использования, производительность и безопасность аналитики больших данных.
Среда выполнения Databricks для Машинное обучение основана на Databricks Runtime и предоставляет предварительно созданную инфраструктуру машинного обучения, интегрированную со всеми возможностями рабочей области Azure Databricks. Она содержит много популярных библиотек, включая TensorFlow, Keras, PyTorch и XGBoost.

Рабочие процессы

Пользовательский интерфейс рабочей области рабочих процессов предоставляет вход в пользовательские интерфейсы заданий и конвейеров DLT, которые позволяют управлять и планировать рабочие процессы.

Работы

Неинтерактивный механизм для оркестрации и планирования записных книжек, библиотек и других задач. Просмотр рабочих процессов расписания и оркестрации

Pipelines

Конвейеры Delta Live Tables предоставляют декларативную структуру для создания надежных, обслуживаемых и тестируемых конвейеров обработки данных. См. Что такое Delta Live Tables?.

Рабочая нагрузка

Рабочая нагрузка — это объем возможностей обработки, необходимых для выполнения задачи или группы задач. Azure Databricks определяет два типа рабочих нагрузок: проектирование данных (задание) и аналитику данных (все назначение).

Инжиниринг данных — (автоматизированная) рабочая нагрузка выполняется на кластере заданий, которые создает планировщик заданий Azure Databricks для каждой рабочей нагрузки.
Аналитика данных — (интерактивная) рабочая нагрузка выполняется на универсальном кластере. Интерактивные рабочие нагрузки обычно выполняют команды в записной книжке Azure Databricks. Но выполнение задания в существующем универсальном кластере также считается интерактивной рабочей нагрузкой.

Контекст выполнения

Состояние среды чтения—eval-print (REPL) для каждого поддерживаемого языка программирования. Поддерживаемые языки: Python, R, Scala и SQL.

Инжиниринг данных

Средства проектирования данных помогают совместному взаимодействию между специалистами по обработке и анализу данных, инженерами по обработке и анализу данных.

Рабочая область

Рабочая область — это среда, предоставляющая доступ ко всем ресурсам Azure Databricks. В рабочей области объекты (записные книжки, библиотеки, панели мониторинга и эксперименты) упорядочиваются по папкам. Здесь вы также можете обращаться к объектам данных и вычислительным ресурсам.

Записная книжка

Веб-интерфейс для создания рабочих процессов обработки и машинного обучения, которые могут содержать выполняемые команды, визуализации и текст повествования. Общие сведения о записных книжках Databricks.

Библиотека

Пакет кода для записной книжки или задания, выполняющегося в кластере. Среды выполнения Databricks включают множество библиотек, и вы также можете отправить собственные. См . библиотеки.

Папка Git (прежнее название — Репозиторий)

Папка, содержимое которой объединяется под одной версией путем синхронизации с удаленным репозиторием Git. Папки Databricks Git интегрируются с Git, чтобы обеспечить управление версиями и версиями для проектов.

ИИ и машинное обучение

Databricks предоставляет интегрированную сквозную среду с управляемыми службами для разработки и развертывания приложений искусственного интеллекта и машинного обучения.

Мозаика ИИ

Название фирменной марки для продуктов и услуг из Databricks Mosaic AI Research, команда исследователей и инженеров, ответственных за самые большие прорывы в генерируемом ИИ. Мозаичные продукты ИИ включают функции машинного обучения и ИИ в Databricks. См . исследование мозаики.

Среда выполнения машинного обучения

Для разработки моделей машинного обучения и искусственного интеллекта Databricks предоставляет среду выполнения Databricks для Машинное обучение, которая автоматизирует создание вычислений с предварительно созданной инфраструктурой машинного обучения и глубокого обучения, включая наиболее распространенные библиотеки машинного обучения и библиотеки DL. Также содержит встроенную, предварительно настроенную поддержку GPU, включая драйверы и вспомогательные библиотеки. Перейдите к сведениям о последних выпусках среды выполнения из заметок о выпуске Databricks Runtime и совместимости.

Эксперимент

Коллекция выполнений MLflow для обучения модели машинного обучения. См. статью "Упорядочение учебных запусков с помощью экспериментов MLflow".

Функции

Функции являются важным компонентом моделей машинного обучения. Хранилище функций обеспечивает общий доступ к функциям и обнаружение компонентов в организации, а также гарантирует, что для обучения и вывода моделей используется тот же код вычислений функций. См . проектирование компонентов и обслуживание.

Модели GenAI

Databricks поддерживает изучение, разработку и развертывание формируемых моделей искусственного интеллекта, в том числе:

Игровая площадка ИИ, среда чата в рабочей области, где можно протестировать, запрашивать и сравнивать LLM. Ознакомьтесь с чатом с LLMs и прототипом приложений GenAI с помощью ИИ-площадки.
Встроенный набор предварительно настроенных базовых моделей, которые можно запрашивать:
- См . API модели модели Foundation для оплаты за токены.
- См. раздел [Рекомендуется] Развертывание базовых моделей из каталога Unity для базовых моделей, которые можно использовать одним щелчком мыши.
Сторонние размещенные LLM, называемые внешними моделями. Эти модели предназначены для использования как есть.
Возможности настройки базовой модели для оптимизации производительности конкретного приложения (часто называются тонкой настройкой). Ознакомьтесь с тонкой настройкой модели Foundation.

Реестр моделей

Databricks предоставляет размещенную версию реестра моделей MLflow в каталоге Unity. Модели, зарегистрированные в каталоге Unity, наследуют централизованный контроль доступа, происхождение и обнаружение и доступ между рабочими областями. См. статью Управление жизненным циклом модели в Unity Catalog.

Обслуживание модели

Служба модели ИИ Мозаики предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение. С помощью службы модели ИИ Для Мозаики вы можете развертывать собственные модели, базовые модели или сторонние модели, размещенные за пределами Databricks. См. раздел Развертывание моделей с использованием Mosaic AI Model Serving.

Хранение данных

Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. Databricks SQL — это коллекция служб, которые приносят возможности хранения данных и производительность в существующие озера данных. См. сведения о хранилище данных в Azure Databricks?.

Query

Запрос — это допустимая инструкция SQL, которая позволяет взаимодействовать с данными. Вы можете создавать запросы с помощью редактора SQL на платформе или подключаться с помощью соединителя SQL, драйвера или API. Дополнительные сведения о работе с запросами см. в статье "Доступ" и управление сохраненными запросами .

Хранилище SQL

Вычислительный ресурс, на котором выполняются запросы SQL. Существует три типа хранилищ SQL: классические, профессиональные и бессерверные. Azure Databricks рекомендует использовать бессерверные хранилища, где они доступны. Ознакомьтесь с типами хранилища SQL, чтобы сравнить доступные функции для каждого типа хранилища.

Журнал запросов

Список выполненных запросов и их характеристик производительности. Журнал запросов позволяет отслеживать производительность запросов, помогая выявлять узкие места и оптимизировать среды выполнения запросов. См . журнал запросов.

Визуализация

Графическое представление результата выполнения запроса. Просмотр визуализаций в записных книжках Databricks.

Панель мониторинга

Презентация визуализаций данных и комментариев. Панели мониторинга можно использовать для автоматической отправки отчетов всем пользователям в учетной записи Azure Databricks. Используйте помощник Databricks, чтобы помочь вам создавать визуализации на основе естественных запросов langauge. См . панели мониторинга. Вы также можете создать панель мониторинга из записной книжки. Просмотр панелей мониторинга в записных книжках.

Устаревшие панели мониторинга см. в разделе "Устаревшие панели мониторинга".