Introdução ao Azure Databricks
O Azure Databricks é uma plataforma de análise de dados baseada na nuvem que fornece um ambiente unificado para engenharia de dados, aprendizagem automática e análise. O Azure Databricks foi projetado em colaboração com a Databricks, cuja liderança criou o Apache Spark. O Azure Databricks oferece um serviço de análise baseado no Apache Spark rápido, fácil e colaborativo. Esta plataforma integra-se profundamente com outros serviços do Azure, proporcionando uma experiência perfeita para os utilizadores com segurança, desempenho e escalabilidade melhorados. Ele permite tarefas orientadas por dados, como preparação de dados, aprendizado de máquina e fluxos de trabalho de ciência de dados, tornando-se uma ferramenta versátil para organizações que procuram aproveitar o poder do big data.
Os principais recursos do Azure Databricks incluem sua integração nativa com o Microsoft Entra ID e sua capacidade de usar outros serviços do Azure, como o Armazenamento do Azure, o Armazenamento do Azure Data Lake e o Azure Cosmos DB. A plataforma também oferece um espaço de trabalho interativo que facilita a colaboração entre cientistas de dados, engenheiros de dados e analistas de negócios. Este ambiente colaborativo suporta várias linguagens de programação como Python, Scala, R e SQL, permitindo que as equipas desenvolvam e iterem os seus modelos de dados de forma eficiente. Além disso, o Azure Databricks foi projetado para ser dimensionado facilmente, gerenciando as demandas computacionais de algoritmos de aprendizado de máquina e as necessidades de processamento de grandes conjuntos de dados.
Criando um espaço de trabalho do Azure Databricks
Para usar o Azure Databricks, você deve criar um espaço de trabalho do Azure Databricks em sua assinatura do Azure. Você pode fazer isso ao:
- Usando a interface do usuário do portal do Azure
- Usando um modelo do Azure Resource Manager (ARM) ou Bicep
- Usando o cmdlet New-AzDatabricksWorkspace Azure PowerShell
- Usando o espaço de trabalho az databricks create comando Azure command line interface (CLI)
Ao criar um espaço de trabalho, você deve especificar uma das seguintes faixas de preço.
- Standard - Principais capacidades do Apache Spark com integração Microsoft Entra ID.
- Premium - Controles de acesso baseados em função e outros recursos de nível empresarial.
- Avaliação - Uma avaliação gratuita de 14 dias de um espaço de trabalho de nível premium
Usando o Portal do Azure Databricks
Depois de provisionar um espaço de trabalho do Azure Databricks, você pode usar o portal do Azure Databricks para trabalhar com dados e recursos de computação. O portal do Azure Databricks é uma interface de usuário baseada na Web onde você pode criar e gerenciar recursos de espaço de trabalho, como clusters do Spark, e usar blocos de anotações e consultas para trabalhar com dados em arquivos e tabelas.