Introdução ao Azure Databricks

Concluído

O Azure Databricks é uma plataforma de análise de dados baseada em nuvem que fornece um ambiente unificado para engenharia de dados, aprendizado de máquina e análise. O Azure Databricks foi projetado em colaboração com o Databricks, cuja liderança criou o Apache Spark. O Azure Databricks é um serviço de análise rápido, fácil e colaborativo baseado no Apache Spark. Essa plataforma se integra profundamente aos outros serviços do Azure, fornecendo uma experiência perfeita para os usuários com segurança, desempenho e escalabilidade aprimorados. Ela permite tarefas controladas por dados, como preparação de dados, aprendizado de máquina e fluxos de trabalho de ciência de dados, tornando-se uma ferramenta versátil para organizações que buscam aproveitar o poder do Big Data.

Os principais recursos do Azure Databricks incluem sua integração nativa ao Microsoft Entra ID e sua capacidade de usar outros serviços do Azure, como o Armazenamento do Azure, o Azure Data Lake Storage e o Azure Cosmos DB. A plataforma também oferece um workspace interativo que facilita a colaboração entre cientistas de dados, engenheiros de dados e analistas de negócios. Esse ambiente colaborativo dá suporte a várias linguagens de programação, como Python, Scala, R e SQL, permitindo que as equipes desenvolvam e iterem em seus modelos de dados com eficiência. Além disso, o Azure Databricks foi projetado para dimensionar facilmente, gerenciando as demandas computacionais de algoritmos de aprendizado de máquina e as necessidades de processamento de grandes conjuntos de dados.

Como criar um workspace do Azure Databricks

Para usar o Azure Databricks, você precisa criar um workspace do Azure Databricks em sua assinatura do Azure. É possível conseguir isso desta forma:

  • Ao usar a interface do usuário do portal do Azure
  • Ao usar um modelo do Azure Resource Manager (ARM) ou do Bicep
  • Ao usar o cmdlet do Azure PowerShell New-AzDatabricksWorkspace
  • Ao usar o comando az databricks workspace create da CLI (interface de linha de comando) do Azure

Ao criar um workspace, você precisa especificar um dos seguintes níveis de preço.

  • Standard: principais recursos do Apache Spark com integração ao Microsoft Entra ID.
  • Premium – controles de acesso baseados em função e outros recursos de nível corporativo.
  • Avaliação – uma avaliação gratuita de 14 dias de um workspace de nível premium

Azure Databricks

Como usar o portal do Azure Databricks

Depois de provisionar um workspace do Azure Databricks, você poderá usar o portal do Azure Databricks para trabalhar com recursos de computação e dados. O portal do Azure Databricks é uma interface do usuário baseada na Web por meio da qual você pode criar e gerenciar recursos de workspace (como clusters do Spark) e usar notebooks e consultas para trabalhar com os dados em arquivos e tabelas.

Portal do Azure Databricks