Introdução ao Azure Databricks

Concluído

O Azure Databricks é uma plataforma de análise de dados baseada na nuvem que fornece um ambiente unificado para engenharia de dados, aprendizagem automática e análise. O Azure Databricks foi projetado em colaboração com a Databricks, cuja liderança criou o Apache Spark. O Azure Databricks oferece um serviço de análise baseado no Apache Spark rápido, fácil e colaborativo. Esta plataforma integra-se profundamente com outros serviços do Azure, proporcionando uma experiência perfeita para os utilizadores com segurança, desempenho e escalabilidade melhorados. Ele permite tarefas orientadas por dados, como preparação de dados, aprendizado de máquina e fluxos de trabalho de ciência de dados, tornando-se uma ferramenta versátil para organizações que procuram aproveitar o poder do big data.

Os principais recursos do Azure Databricks incluem sua integração nativa com o Microsoft Entra ID e sua capacidade de usar outros serviços do Azure, como o Armazenamento do Azure, o Armazenamento do Azure Data Lake e o Azure Cosmos DB. A plataforma também oferece um espaço de trabalho interativo que facilita a colaboração entre cientistas de dados, engenheiros de dados e analistas de negócios. Este ambiente colaborativo suporta várias linguagens de programação como Python, Scala, R e SQL, permitindo que as equipas desenvolvam e iterem os seus modelos de dados de forma eficiente. Além disso, o Azure Databricks foi projetado para ser dimensionado facilmente, gerenciando as demandas computacionais de algoritmos de aprendizado de máquina e as necessidades de processamento de grandes conjuntos de dados.

Criando um espaço de trabalho do Azure Databricks

Para usar o Azure Databricks, você deve criar um espaço de trabalho do Azure Databricks em sua assinatura do Azure. Você pode fazer isso ao:

  • Usando a interface do usuário do portal do Azure
  • Usando um modelo do Azure Resource Manager (ARM) ou Bicep
  • Usando o cmdlet New-AzDatabricksWorkspace Azure PowerShell
  • Usando o espaço de trabalho az databricks create comando Azure command line interface (CLI)

Ao criar um espaço de trabalho, você deve especificar uma das seguintes faixas de preço.

  • Standard - Principais capacidades do Apache Spark com integração Microsoft Entra ID.
  • Premium - Controles de acesso baseados em função e outros recursos de nível empresarial.
  • Avaliação - Uma avaliação gratuita de 14 dias de um espaço de trabalho de nível premium

Azure Databricks

Usando o Portal do Azure Databricks

Depois de provisionar um espaço de trabalho do Azure Databricks, você pode usar o portal do Azure Databricks para trabalhar com dados e recursos de computação. O portal do Azure Databricks é uma interface de usuário baseada na Web onde você pode criar e gerenciar recursos de espaço de trabalho, como clusters do Spark, e usar blocos de anotações e consultas para trabalhar com dados em arquivos e tabelas.

Portal do Azure Databricks