Projetar uma solução analítica e de integração de dados com o Azure Databricks
O Azure Databricks é uma plataforma de Big Data e Machine Learning totalmente gerenciada e baseada em nuvem, que capacita os desenvolvedores a acelerar a IA e a inovação. O Azure Databricks fornece às equipas de ciência de dados e engenharia uma plataforma única para processamento de big data e Machine Learning. A plataforma Apache Spark gerenciada pelo Azure Databricks simplifica a execução de cargas de trabalho Spark em grande escala.
Coisas a saber sobre o Azure Databricks
O Azure Databricks é totalmente baseado no Apache Spark e é uma ótima ferramenta para usuários que já estão familiarizados com a estrutura de computação em cluster de código aberto. O Databricks foi projetado especificamente para o processamento de big data. Os cientistas de dados podem tirar proveito da API principal integrada para linguagens principais como SQL, Java, Python, R e Scala.
O Azure Databricks tem um plano de controle e um plano de dados:
- Plano de controle: hospeda trabalhos do Databricks, blocos de anotações com resultados de consulta e o gerenciador de cluster. O plano de controle também tem o aplicativo Web, metastore hive e listas de controle de acesso de segurança (ACLs) e sessões de usuário. A Microsoft gerencia esses componentes em colaboração com o Azure Databricks.
- Plano de Dados: contém todos os clusters de tempo de execução do Azure Databricks hospedados no espaço de trabalho. Todo o processamento e armazenamento de dados existe dentro da assinatura do cliente. Nenhum processamento de dados ocorre na assinatura gerenciada pela Microsoft/Databricks.
O Azure Databricks oferece três ambientes para o desenvolvimento de aplicativos com uso intensivo de dados.
- Databricks SQL: o Azure Databricks SQL fornece uma plataforma fácil de usar para analistas que desejam executar consultas SQL em seu data lake. Você pode criar vários tipos de visualização para explorar os resultados da consulta de diferentes perspetivas e criar e compartilhar painéis.
- Databricks Data Science & Engineering: Azure Databricks Data Science & Engineering é um espaço de trabalho interativo que permite a colaboração entre engenheiros de dados, cientistas de dados e engenheiros de aprendizado de máquina. Para um pipeline de big data, os dados (brutos ou estruturados) são ingeridos no Azure por meio do Azure Data Factory em lotes ou transmitidos quase em tempo real usando Apache Kafka, Hubs de Eventos do Azure ou Hub IoT do Azure. Os dados são colocados em um data lake para armazenamento persistente de longo prazo no Armazenamento de Blob do Azure ou no Armazenamento do Azure Data Lake. Como parte do seu fluxo de trabalho de análise, use o Azure Databricks para ler dados de várias fontes de dados e transformá-los em informações inovadoras usando o Spark.
- Databricks Machine Learning: O Azure Databricks Machine Learning é um ambiente de aprendizado de máquina integrado de ponta a ponta. Ele incorpora serviços gerenciados para rastreamento de experimentos, treinamento de modelos, desenvolvimento e gerenciamento de recursos e serviço de recursos e modelos.
Cenário de negócio
Vamos analisar um cenário para a Tailwind Traders na divisão de fabricação de máquinas pesadas. A Tailwind Traders está usando os serviços de nuvem do Azure para suas necessidades de big data. Eles estão trabalhando com dados em lote e dados de streaming. A divisão emprega engenheiros de dados, cientistas de dados e analistas de dados que colaboram para produzir relatórios rápidos e perspicazes para muitas partes interessadas. Para cumprir os requisitos de big data, você planeja recomendar o Azure Databricks e implementar o ambiente de Ciência e Engenharia de Dados.
Vamos analisar por que o Azure Databricks pode ser a escolha certa para atender a esses requisitos.
- O Azure Databricks fornece um espaço de trabalho integrado do Google Analytics baseado no Apache Spark que permite a colaboração entre diferentes usuários.
- Usando componentes do Spark, como Spark SQL e Dataframes, o Azure Databricks pode lidar com dados estruturados. Ele se integra com ferramentas de ingestão de dados em tempo real, como Kafka e Flume, para processar dados de streaming.
- Os recursos seguros de integração de dados criados com base no Spark permitem unificar seus dados sem centralização. Os cientistas de dados podem visualizar dados em poucas etapas e usar ferramentas familiares como Matplotlib, ggplot ou d3.
- O tempo de execução do Azure Databricks abstrai a complexidade da infraestrutura e a necessidade de conhecimento especializado para instalar e configurar sua infraestrutura de dados. Os usuários podem usar as habilidades de linguagens existentes para Python, Scala e R, e explorar os dados.
- O Azure Databricks integra-se profundamente com bancos de dados e lojas do Azure, como Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage e Azure Blob Storage. Ele suporta diversas plataformas de armazenamento de dados, o que satisfaz as necessidades de armazenamento de big data da Tailwind Traders.
- A integração com o Power BI permite insights rápidos e significativos, o que é um requisito para os Tailwind Traders.
- O Azure Databricks SQL não é a escolha certa porque não pode lidar com dados não estruturados.
- O Azure Databricks Machine Learning também não é a escolha de ambiente certa porque o aprendizado de máquina não é um requisito neste cenário.
Coisas a considerar ao usar o Azure Databricks
Você pode usar o Azure Databricks como uma solução para vários cenários. Considere como o serviço pode beneficiar sua solução de integração de dados para Tailwind Traders.
- Considere a preparação de dados da ciência de dados. Crie, clone e edite clusters de dados complexos e não estruturados. Transforme os clusters de dados em trabalhos específicos. Entregue os resultados a cientistas de dados e analistas de dados para revisão.
- Considere insights nos dados. Implemente o Azure Databricks para criar mecanismos de recomendação, análise de rotatividade e deteção de intrusão.
- Considere a produtividade entre as equipes de dados e análises. Crie um ambiente colaborativo e espaços de trabalho compartilhados para engenheiros de dados, analistas e cientistas. As equipes podem trabalhar juntas em todo o ciclo de vida da ciência de dados com espaços de trabalho compartilhados, o que ajuda a economizar tempo e recursos valiosos.
- Considere cargas de trabalho de big data. Exercite o Azure Data Lake e o mecanismo para obter o melhor desempenho e confiabilidade para suas cargas de trabalho de big data. Crie pipelines de dados de várias etapas sem complicações.
- Considere programas de aprendizado de máquina. Aproveite o ambiente de aprendizado de máquina integrado de ponta a ponta. Ele incorpora serviços gerenciados para rastreamento de experimentos, treinamento de modelos, desenvolvimento e gerenciamento de recursos e serviço de recursos e modelos.