Introdução ao Azure Databricks
O Azure Databricks é uma plataforma de análise de dados baseada em nuvem que fornece um ambiente unificado para engenharia de dados, aprendizado de máquina e análise. O Azure Databricks foi projetado em colaboração com o Databricks, cuja liderança criou o Apache Spark. O Azure Databricks é um serviço de análise rápido, fácil e colaborativo baseado no Apache Spark. Essa plataforma se integra profundamente aos outros serviços do Azure, fornecendo uma experiência perfeita para os usuários com segurança, desempenho e escalabilidade aprimorados. Ela permite tarefas controladas por dados, como preparação de dados, aprendizado de máquina e fluxos de trabalho de ciência de dados, tornando-se uma ferramenta versátil para organizações que buscam aproveitar o poder do Big Data.
Os principais recursos do Azure Databricks incluem sua integração nativa ao Microsoft Entra ID e sua capacidade de usar outros serviços do Azure, como o Armazenamento do Azure, o Azure Data Lake Storage e o Azure Cosmos DB. A plataforma também oferece um workspace interativo que facilita a colaboração entre cientistas de dados, engenheiros de dados e analistas de negócios. Esse ambiente colaborativo dá suporte a várias linguagens de programação, como Python, Scala, R e SQL, permitindo que as equipes desenvolvam e iterem em seus modelos de dados com eficiência. Além disso, o Azure Databricks foi projetado para dimensionar facilmente, gerenciando as demandas computacionais de algoritmos de aprendizado de máquina e as necessidades de processamento de grandes conjuntos de dados.
Como criar um workspace do Azure Databricks
Para usar o Azure Databricks, você precisa criar um workspace do Azure Databricks em sua assinatura do Azure. É possível conseguir isso desta forma:
- Ao usar a interface do usuário do portal do Azure
- Ao usar um modelo do Azure Resource Manager (ARM) ou do Bicep
- Ao usar o cmdlet do Azure PowerShell New-AzDatabricksWorkspace
- Ao usar o comando az databricks workspace create da CLI (interface de linha de comando) do Azure
Ao criar um workspace, você precisa especificar um dos seguintes níveis de preço.
- Standard: principais recursos do Apache Spark com integração ao Microsoft Entra ID.
- Premium – controles de acesso baseados em função e outros recursos de nível corporativo.
- Avaliação – uma avaliação gratuita de 14 dias de um workspace de nível premium
Como usar o portal do Azure Databricks
Depois de provisionar um workspace do Azure Databricks, você poderá usar o portal do Azure Databricks para trabalhar com recursos de computação e dados. O portal do Azure Databricks é uma interface do usuário baseada na Web por meio da qual você pode criar e gerenciar recursos de workspace (como clusters do Spark) e usar notebooks e consultas para trabalhar com os dados em arquivos e tabelas.