Editar

Partilhar via


Criar uma arquitetura de análise moderna usando o Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe com os requisitos específicos da sua carga de trabalho.

Esta solução descreve os principais princípios e componentes das arquiteturas de dados modernas. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços, como o Azure Data Lake Storage, o Microsoft Fabric e o Power BI.

Apache® e Apache Spark™ são marcas registadas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou noutros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.

Arquitetura

diagrama de arquitetura que mostra como uma arquitetura de dados moderna coleta, processa, analisa e visualiza dados.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  1. O Azure Databricks ingere dados brutos de streaming dos Hubs de Eventos do Azure usando Delta Live Tables.

  2. O Fabric Data Factory carrega dados brutos em lote no Data Lake Storage.

  3. Para armazenamento de dados:

    • O Armazenamento Data Lake abriga todos os tipos de dados, incluindo dados estruturados, não estruturados e parcialmente estruturados. Ele também armazena dados em lote e streaming.

    • O Delta Lake forma a camada curada do data lake. Ele armazena os dados refinados em um formato de código aberto.

    • O Azure Databricks funciona bem com uma arquitetura medallion que organiza os dados em camadas:

      • Camada bronze: contém dados brutos.
      • Camada prateada: contém dados limpos e filtrados.
      • Camada de ouro: armazena dados agregados que são úteis para análises de negócios.
  4. A plataforma analítica ingere dados de diferentes fontes de lote e streaming. Os cientistas de dados usam esses dados para tarefas como:

    • Preparação de dados.
    • Exploração de dados.
    • Preparação do modelo.
    • Modelo de formação.

    O MLflow gerencia o rastreamento de parâmetros, métricas e modelos em execuções de código de ciência de dados. As possibilidades de codificação são flexíveis:

    • O código pode estar em SQL, Python, R e Scala.
    • O código pode usar bibliotecas e estruturas de código aberto populares, como Koalas, Pandas e scikit-learn, que são pré-instaladas e otimizadas.
    • Os usuários podem otimizar o desempenho e o custo usando opções de computação de nó único e de vários nós.
  5. Os modelos de aprendizagem automática estão disponíveis nos seguintes formatos:

    • O Azure Databricks armazena informações sobre modelos no Registro de Modelo MLflow. O registro disponibiliza modelos por meio de APIs em lote, streaming e REST.
    • A solução também pode implantar modelos nos serviços Web do Azure Machine Learning ou no Serviço Kubernetes do Azure (AKS).
  6. Os serviços que trabalham com os dados se conectam a uma única fonte de dados subjacente para ajudar a garantir a consistência. Por exemplo, você pode executar consultas SQL no data lake usando armazéns SQL do Azure Databricks. Este serviço:

    • Fornece um editor de consultas e catálogo, o histórico de consultas, painéis básicos e alertas.
    • Usa segurança integrada que inclui permissões de nível de linha e permissões de nível de coluna.
    • Usa um motor Delta alimentado por Fóton para melhorar o desempenho.
  7. Você pode espelhar conjuntos de dados dourados do Catálogo Unity do Azure Databricks na Malha. Use o espelhamento do Azure Databricks no Fabric para integração fácil sem a necessidade de mover ou replicar dados.

  8. O Power BI gera relatórios e painéis analíticos e históricos a partir da plataforma de dados unificada. Este serviço usa os seguintes recursos quando funciona com o Azure Databricks:

    • Um conector interno do Azure Databricks para visualizar os dados subjacentes.
    • Conectividade de banco de dados Java otimizada e drivers de conectividade de banco de dados abertos.
    • Você pode usar Direct Lake com espelhamento do Azure Databricks na Malha para carregar seus modelos semânticos do Power BI para consultas de alto desempenho.
  9. A solução usa o Unity Catalog e os serviços do Azure para colaboração, desempenho, confiabilidade, governança e segurança:

    • O Azure Databricks Unity Catalog fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos espaços de trabalho do Azure Databricks.

    • O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.

    • O Azure DevOps oferece integração contínua e implantação contínua (CI/CD) e outros recursos integrados de controle de versão.

    • O Azure Key Vault ajuda você a gerenciar segredos, chaves e certificados com segurança.

    • O Microsoft Entra ID e o provisionamento do System for Cross-domain Identity Management (SCIM) fornecem logon único para usuários e grupos do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com o Microsoft Entra ID para:

      • Crie novos usuários e grupos.
      • Atribua a cada usuário um nível de acesso.
      • Remova os utilizadores e negue-lhes acesso.
    • O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Ao identificar problemas de forma proativa, este serviço maximiza o desempenho e a fiabilidade.

    • O Microsoft Cost Management fornece serviços de governança financeira para cargas de trabalho do Azure.

Componentes

Esta solução utiliza os seguintes componentes.

Componentes centrais

  • Azure Databricks é uma plataforma de análise de dados que usa clusters do Spark para processar grandes fluxos de dados. Ele limpa e transforma dados não estruturados e os combina com dados estruturados. Ele também pode treinar e implantar modelos de aprendizado de máquina. Nessa arquitetura, o Azure Databricks serve como a ferramenta central para ingestão, processamento e veiculação de dados. Ele fornece um ambiente unificado para gerenciar todo o ciclo de vida dos dados.

  • de armazéns SQL do Azure Databricks são recursos de computação que você pode usar para consultar e explorar dados no Azure Databricks. Nessa arquitetura, você pode usar pontos de extremidade SQL para se conectar diretamente aos seus dados do Power BI.

  • do Azure Databricks Delta Live Tables é uma estrutura declarativa para criar pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Nessa arquitetura, o Delta Live Tables ajuda você a definir transformações a serem executadas em seus dados. Também o ajuda a gerir a orquestração de tarefas, a gestão de clusters, a monitorização, a qualidade dos dados e o tratamento de erros no Azure Databricks.

  • Microsoft Fabric é uma plataforma de dados e análise de ponta a ponta para organizações que precisam de uma solução unificada. A plataforma fornece serviços como Engenharia de Dados, Data Factory, Data Science, Real-Time Intelligence, Data Warehouse e Bancos de Dados. Essa arquitetura espelha as tabelas do Catálogo Unity na Malha e usa o Direct Lake no Power BI para obter um melhor desempenho.

  • Data Factory no Microsoft Fabric é uma plataforma moderna de integração de dados que você pode usar para ingerir, preparar e transformar dados de um conjunto avançado de fontes de dados no Fabric. Essa arquitetura usa conectores integrados a várias fontes de dados para ingestão rápida no Data Lake Storage ou no OneLake. Mais tarde, o Azure Databricks recupera e transforma ainda mais os dados em lote.

  • de Hubs de Eventos é uma plataforma de streaming de big data totalmente gerenciada. Como uma plataforma como um serviço, ele fornece recursos de ingestão de eventos. Essa arquitetura usa Hubs de Eventos para streaming de dados. O Azure Databricks pode se conectar a esses dados e processá-los usando o Spark Streaming ou o Delta Live Tables.

  • Data Lake Storage é um data lake escalável e seguro para análises de alto desempenho. Ele lida com vários petabytes de dados e suporta centenas de gigabits de taxa de transferência. O Armazenamento Data Lake pode armazenar dados estruturados, parcialmente estruturados e não estruturados. Essa arquitetura usa o Data Lake Storage para armazenar dados em lote e de streaming.

  • O Machine Learning é um ambiente baseado em nuvem que ajuda você a criar, implantar e gerenciar soluções de análise preditiva. Usando esses modelos, você pode prever comportamentos, resultados e tendências. Nessa arquitetura, o Machine Learning usa dados que o Azure Databricks transforma para treinar e inferir modelos.

  • O AKS é um serviço Kubernetes altamente disponível, seguro e totalmente gerenciado. O AKS facilita a implantação e o gerenciamento de aplicativos em contêineres. Nessa arquitetura, o AKS hospeda modelos de aprendizado de máquina em um ambiente conteinerizado para inferência escalável.

  • Delta Lake é uma camada de armazenamento que usa um formato de arquivo aberto. Essa camada é executada em cima de soluções de armazenamento em nuvem, como o Data Lake Storage. O Delta Lake suporta versionamento, reversão e transações de dados para atualização, exclusão e mesclagem de dados. Nessa arquitetura, o Delta Lake funciona como o principal formato de arquivo para gravar e ler dados do Data Lake Storage.

  • MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida do aprendizado de máquina. Seus componentes monitoram modelos de aprendizado de máquina durante o treinamento e a operação. Nessa arquitetura, semelhante ao Machine Learning, você pode usar o MLflow no Azure Databricks para gerenciar seu ciclo de vida de aprendizado de máquina. Treine e infera modelos usando os dados do Catálogo Unity que você transformou no Azure Databricks.

Componentes de relatórios e de governação

  • do Catálogo Unity do Azure Databricks fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos espaços de trabalho do Azure Databricks. Nessa arquitetura, o Unity Catalog funciona como a principal ferramenta dentro do Azure Databricks para gerenciar e proteger o acesso a dados.

  • O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam e visualizam fontes de dados não relacionadas. Juntamente com o Azure Databricks, o Power BI pode fornecer determinação de causa raiz e análise de dados brutos. Essa arquitetura usa o Power BI para criar painéis e relatórios que fornecem informações sobre os dados que o Azure Databricks e o Fabric processam.

  • O Microsoft Purview gerencia dados locais, multicloud e software como serviço (SaaS). Este serviço de governança mantém mapas de paisagem de dados. Seus recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados. Essa arquitetura usa o Microsoft Purview para verificar e rastrear dados ingeridos no Unity Catalog, Fabric, Power BI e Data Lake Storage.

  • O Azure DevOps é uma plataforma de orquestração de DevOps . Este SaaS fornece ferramentas e ambientes para criar, implantar e colaborar em aplicativos. Essa arquitetura usa o Azure DevOps para automatizar a implantação da infraestrutura do Azure. Você também pode usar o GitHub para automação e controle de versão do código do Azure Databricks para melhor colaboração, controle de alterações e integração com pipelines de CI/CD.

  • Key Vault armazena e controla o acesso a segredos, como tokens, senhas e chaves de API. O Cofre de Chaves também cria e controla chaves de criptografia e gerencia certificados de segurança. Essa arquitetura usa o Cofre da Chave para armazenar chaves de assinatura de acesso compartilhado do Armazenamento Data Lake. Essas chaves são usadas no Azure Databricks e em outros serviços para autenticação.

  • O Microsoft Entra ID oferece serviços de gerenciamento de identidade e acesso baseados em nuvem. Esses recursos fornecem uma maneira para os usuários entrarem e acessarem recursos. Essa arquitetura usa a ID do Microsoft Entra para autenticar e autorizar usuários e serviços no Azure.

  • SCIM permite configurar o provisionamento para a conta do Azure Databricks usando a ID do Microsoft Entra. Essa arquitetura usa SCIM para gerenciar usuários que acessam espaços de trabalho do Azure Databricks.

  • Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativos, como métricas de desempenho e registros de atividades. Essa arquitetura usa o Azure Monitor para monitorar a integridade dos recursos de computação no Azure Databricks e Machine Learning e outros componentes que enviam logs para o Azure Monitor.

  • de Gestão de Custos ajuda-o a gerir os gastos na nuvem. Através de orçamentos e recomendações, este serviço organiza as despesas e mostra-lhe como reduzir custos. Essa arquitetura usa o Gerenciamento de Custos para ajudar a monitorar e controlar o custo de toda a solução.

Detalhes do cenário

Arquiteturas de dados modernas:

  • Unifique dados, análises e cargas de trabalho de IA.
  • Execute de forma eficiente e confiável em qualquer escala.
  • Forneça informações por meio de painéis de análise, relatórios operacionais ou análises avançadas.

Esta solução descreve uma arquitetura de dados moderna que atinge esses objetivos. O Azure Databricks forma o núcleo da solução. Esta plataforma funciona perfeitamente com outros serviços. Em conjunto, estes serviços fornecem uma solução que é:

  • Simples: análises unificadas, ciência de dados e aprendizado de máquina simplificam a arquitetura de dados.
  • Aberto: A solução suporta código aberto, padrões abertos e estruturas abertas. Ele também trabalha com ambientes de desenvolvimento integrado (IDEs) populares, bibliotecas e linguagens de programação. Através de conectores nativos e APIs, a solução também funciona com uma ampla gama de outros serviços.
  • Colaborativo: engenheiros de dados, cientistas de dados e analistas trabalham em conjunto com esta solução. Eles podem usar blocos de anotações colaborativos, IDEs, painéis e outras ferramentas para acessar e analisar dados subjacentes comuns.

Potenciais casos de utilização

O sistema que o Swiss Re Group construiu para a sua divisão Property & Casualty Reinsurance inspirou esta solução. Além do setor de seguros, qualquer área que trabalhe com big data ou machine learning também pode se beneficiar dessa solução. Exemplos incluem:

  • O sector da energia.
  • Retalho e e-commerce.
  • Banca e finanças.
  • Medicina e cuidados de saúde.

Próximos passos

Para saber mais sobre soluções relacionadas, consulte os guias e arquiteturas a seguir.