Начало работы с Azure Databricks

Завершено

Azure Databricks — это облачная платформа аналитики данных, которая предоставляет единую среду для проектирования данных, машинного обучения и аналитики. Azure Databricks был разработан в сотрудничестве с Databricks, руководство которого создало Apache Spark. Azure Databricks предлагает быструю, простую и совместную службу аналитики на основе Apache Spark. Эта платформа тесно интегрируется с другими службами Azure, обеспечивая удобный интерфейс для пользователей с повышенной безопасностью, производительностью и масштабируемостью. Это позволяет выполнять такие задачи, управляемые данными, как подготовка данных, машинное обучение и рабочие процессы обработки и анализа данных, что делает его универсальным инструментом для организаций, желающих использовать возможности больших данных.

Ключевые функции Azure Databricks включают собственную интеграцию с идентификатором Microsoft Entra ИД, а также ее возможность использовать другие службы Azure, такие как служба хранилища Azure, Azure Data Lake Storage и Azure Cosmos DB. Платформа также предлагает интерактивную рабочую область, которая упрощает совместную работу между специалистами по обработке и анализу данных, инженерами и бизнес-аналитиками. Это совместное поддержка среды различных языков программирования, таких как Python, Scala, R и SQL, что позволяет командам эффективно разрабатывать и итерировать модели данных. Кроме того, Azure Databricks предназначен для упрощения масштабирования, а также управления вычислительными требованиями алгоритмов машинного обучения и потребностями обработки больших наборов данных.

Создание рабочей области Azure Databricks

Чтобы использовать Azure Databricks, необходимо создать рабочую область Azure Databricks в подписке Azure. Это можно сделать следующим образом:

  • Использование пользовательского интерфейса портал Azure
  • Использование шаблона Azure Resource Manager (ARM) или Bicep
  • Использование командлета New-AzDatabricksWorkspace Azure PowerShell
  • Использование команды az databricks workspace create Azure command line interface (CLI)

При создании рабочей области необходимо указать одну из следующих ценовых категорий.

  • Стандартный — основные возможности Apache Spark с интеграцией идентификатора Microsoft Entra.
  • Премиум — управление доступом на основе ролей и другие функции корпоративного уровня.
  • Пробная версия — 14-дневный бесплатный пробный период использования рабочей области уровня "Премиум".

Azure Databricks

Использование портала Azure Databricks

После подготовки рабочей области Azure Databricks можно использовать портал Azure Databricks для работы с данными и вычислительными ресурсами. Портал Azure Databricks — это веб-интерфейс, в котором можно создавать ресурсы рабочей области и управлять ими, такими как кластеры Spark, и использовать записные книжки и запросы для работы с данными в файлах и таблицах.

Портал Azure Databricks