Elaborar uma integração de dados e solução analítica com o Azure Databricks

Concluído

O Azure Databricks é uma plataforma de Big Data e Machine Learning totalmente gerenciada e baseada em nuvem, que capacita os desenvolvedores a acelerar a IA e a inovação. O Azure Databricks fornece equipes de engenharia e de ciência de dados com apenas uma plataforma para aprendizado de máquina e processamento de Big Data. A plataforma Apache Spark gerenciada do Azure Databricks simplifica a execução de cargas de trabalho do Spark em grande escala.

Tópicos importantes sobre o Azure Databricks

O Azure Databricks é totalmente baseado no Apache Spark e é uma ótima ferramenta para usuários já familiarizados com a estrutura de computação em cluster de código aberto. O Databricks foi projetado especificamente para o processamento de Big Data. Os cientistas de dados podem aproveitar a API do Core interna para as principais linguagens de programação, como SQL, Java, Python, R e Scala.

O Azure Databricks tem um Plano de controle e um Plano de dados:

  • Plano de Controle: hospeda tarefas do Databricks, notebooks com resultados de consulta e o gerenciador de cluster. O Plano de controle também tem o aplicativo Web, o metastore do hive e as ACLs (listas de controle de acesso) de segurança e sessões de usuário. A Microsoft gerencia esses componentes em colaboração com o Azure Databricks.
  • Plano de Dados: contém todos os clusters do Azure Databricks Runtime hospedados no workspace. Todo o armazenamento e o processamento de dados existe na assinatura do cliente. Nenhum processamento de dados ocorrerá na assinatura gerenciada pela Microsoft/Databricks.

O Azure Databricks oferece três ambientes para desenvolver aplicativos com uso intensivo de dados.

  • SQL do Databricks: o SQL do Azure Databricks fornece uma plataforma fácil de usar para analistas que desejam executar consultas SQL no próprio data lake. Você pode criar vários tipos de visualização para explorar resultados de consulta de diferentes perspectivas, além de criar e compartilhar painéis.
  • Engenharia e Ciência de Dados do Databricks: A Engenharia e Ciência de Dados do Databricks fornece um workspace interativo que permite a colaboração entre engenheiros de dados, cientistas de dados e engenheiros de machine learning. Para um pipeline de Big Data, os dados (brutos ou estruturados) são ingeridos no Azure por meio do Azure Data Factory em lotes ou transmitidos quase em tempo real usando o Apache Kafka, os Hubs de Eventos do Azure ou o Hub IoT do Azure. Esses dados chegam em um data lake para armazenamento persistente de longo prazo, no Armazenamento de Blobs do Azure ou no Azure Data Lake Storage. Como parte do seu fluxo de trabalho de análise, use o Azure Databricks para ler dados de várias fontes de dados e transformá-los em insights inovadores usando o Spark.
  • Databricks Machine Learning: o Azure Databricks Machine Learning é um ambiente integrado de aprendizado de máquina de ponta a ponta. Ele incorpora serviços gerenciados para acompanhamento de experimentos, treinamento de modelo, desenvolvimento e gerenciamento de recursos e serviço de recursos e modelos.

Cenário empresarial

Vamos analisar um cenário para a Tailwind Traders na divisão de fabricação de máquinas pesadas. A Tailwind Traders está usando os serviços de nuvem do Azure para as próprias necessidades de Big Data. Eles estão trabalhando com dados em lotes e dados de streaming. Essa divisão tem engenheiros de dados, cientistas de dados e analistas de dados que colaboram para produzir relatórios rápidos de insights para muitos stakeholders. Para atender aos requisitos de Big Data, você planeja recomendar o Azure Databricks e implementar o ambiente de Engenharia e Ciência de Dados.

Vamos examinar por que o Azure Databricks pode ser a escolha certa para atender a esses requisitos.

  • O Azure Databricks fornece um workspace integrado de análise com base no Apache Spark que permite a colaboração entre diferentes usuários.
  • Usando componentes do Spark, como SQL do Spark e Dataframes, o Azure Databricks pode manipular dados estruturados. Ele se integra a ferramentas de ingestão de dados em tempo real, como Kafka e Flume, para processar dados de streaming.
  • Funcionalidades seguras de integração de dados, criadas com base no Spark, permitem a você unificar seus dados sem centralização. Os cientistas de dados podem visualizar dados com poucas etapas e usar ferramentas conhecidas, como Matplotlib, ggplot ou d3.
  • O Azure Databricks Runtime abstrai a complexidade da infraestrutura e a necessidade de experiência especializada para instalar e configurar sua infraestrutura de dados. Os usuários podem usar habilidades existentes de linguagens de programação para Python, Scala e R e explorar os dados.
  • O Azure Databricks integra-se profundamente a bancos de dados e armazenamentos do Azure, como Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage e Armazenamento de Blobs do Azure. Ele dá suporte a diversas plataformas de armazenamento de dados, o que atende às necessidades de armazenamento de Big Data da Tailwind Traders.
  • A integração com o Power BI permite insights rápidos e significativos, o que é um requisito para a Tailwind Traders.
  • O SQL do Azure Databricks não é a escolha certa porque não pode lidar com dados não estruturados.
  • O Azure Databricks Machine Learning também não é a escolha certa de ambiente porque o aprendizado de máquina não é um requisito neste cenário.

Tópicos importantes sobre o uso do Azure Databricks

Você pode usar o Azure Databricks como uma solução para vários cenários. Considere como o serviço pode beneficiar sua solução de integração de dados para a Tailwind Traders.

  • Considere a preparação de dados para ciência de dados. Crie, clone e edite clusters de dados complexos e não estruturados. Transforme os clusters de dados em trabalhos específicos. Entregue os resultados a cientistas de dados e analistas de dados para revisão.
  • Considere os insights nos dados. Implemente o Azure Databricks para criar mecanismos de recomendação, análise de rotatividade e detecção de intrusão.
  • Considere a produtividade entre as equipes de dados e de análise. Crie um ambiente colaborativo e workspaces compartilhados para engenheiros de dados, analistas e cientistas. As equipes podem trabalhar juntas em todo o ciclo de vida da ciência de dados com workspaces compartilhados, o que ajuda a economizar tempo e recursos valiosos.
  • Considere cargas de trabalho de Big Data. Use o Azure Data Lake e o mecanismo para obter o melhor desempenho e confiabilidade para suas cargas de trabalho de Big Data. Crie pipelines de dados de várias etapas com facilidade.
  • Considere usar programas de aprendizado de máquina. Aproveite o ambiente integrado de aprendizado de máquina de ponta a ponta. Ele incorpora serviços gerenciados para acompanhamento de experimentos, treinamento de modelo, desenvolvimento e gerenciamento de recursos e serviço de recursos e modelos.