Ideias de solução
Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe aos requisitos específicos de sua carga de trabalho.
Essa solução descreve os principais princípios e componentes das arquiteturas de dados modernas. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços, como o Azure Data Lake Storage, o Microsoft Fabric e o Power BI.
Apache® e Apache Spark™ são marcas registradas ou marcas comerciais do Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.
Arquitetura
Baixe um Arquivo Visio dessa arquitetura.
Fluxo de dados
O Azure Databricks ingere dados brutos de streaming dos Hubs de Eventos do Azure usando Tabelas Dinâmicas Delta.
O Fabric Data Factory carrega dados brutos em lote no Data Lake Storage.
Para armazenamento de dados:
O Data Lake Storage abriga todos os tipos de dados, incluindo dados estruturados, não estruturados e parcialmente estruturados. Ele também armazena dados em lote e streaming.
O Delta Lake forma a camada curada do data lake. Ele armazena os dados refinados em um formato de software livre.
O Azure Databricks funciona bem com uma arquitetura de medalhão que organiza dados em camadas:
- Camada bronze: contém dados brutos.
- Camada prata: contém dados limpos e filtrados.
- Camada de ouro: armazena dados agregados que são úteis para análise de negócios.
A plataforma analítica ingere dados das diferentes fontes de streaming e lote. Os cientistas de dados usam esses dados para tarefas como:
- Preparação dos dados.
- Exploração de dados.
- Preparação do modelo.
- Treinamento de modelo.
O MLflow gerencia o acompanhamento de parâmetros, métricas e modelos em execuções de código de ciência de dados. As possibilidades de codificação são flexíveis:
- O código pode estar em SQL, Python, R e Scala.
- O código pode usar bibliotecas e estruturas de software livre populares, como Coalas, Pandas e scikit-learn, que são pré-instalados e otimizados.
- Os usuários podem otimizar o desempenho e o custo usando opções de computação de nó único e de vários nós.
Os modelos de machine learning estão disponíveis nos seguintes formatos:
- O Azure Databricks armazena informações sobre modelos no Registro de Modelo do MLflow. O registro disponibiliza modelos por meio de APIs REST, de streaming e de lote.
- A solução também pode implantar modelos nos serviços Web do Azure Machine Learning ou no Serviço de Kubernetes do Azure (AKS).
Os serviços que funcionam com os dados se conectam a uma única fonte de dados subjacente para ajudar a garantir a consistência. Por exemplo, você pode executar consultas SQL no data lake usando os sql warehouses do Azure Databricks. Este serviço:
- Fornece um editor de consultas e um catálogo, o histórico de consultas, painéis básicos e alertas.
- Usa a segurança integrada que inclui permissões de nível de linha e permissões de nível de coluna.
- Usa um Mecanismo Delta movido a fótons para melhorar o desempenho.
Você pode espelhar conjuntos de dados em ouro do Catálogo do Unity do Azure Databricks no Fabric. Use espelhamento do Azure Databricks no Fabric para se integrar facilmente sem a necessidade de mover ou replicar dados.
O Power BI gera relatórios e painéis analíticos e históricos da plataforma de dados unificada. Esse serviço usa os seguintes recursos quando funciona com o Azure Databricks:
- Um conector interno do Azure Databricks para visualizar os dados subjacentes.
- Drivers de conectividade de banco de dados Java otimizados e conectividade de banco de dados aberto.
- Você pode usar direct lake com espelhamento do Azure Databricks no Fabric para carregar seus modelos semânticos do Power BI para consultas de alto desempenho.
A solução usa o Catálogo do Unity e os serviços do Azure para colaboração, desempenho, confiabilidade, governança e segurança:
O Catálogo do Unity do Azure Databricks fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks.
O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.
O Azure DevOps oferece integração contínua e entrega contínua (CI/CD) e outros recursos de controle de versão integrados.
O Azure Key Vault ajuda você a gerenciar segredos, chaves e certificados com segurança.
A ID do Microsoft Entra e o provisionamento scim (System for Cross-domain Identity Management) fornecem logon único para usuários e grupos do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com a ID do Microsoft Entra para:
- Crie novos usuários e grupos.
- Atribuir um nível de acesso a cada usuário.
- Remova os usuários e negue-os ao acesso.
O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Ao identificar problemas proativamente, esse serviço maximiza o desempenho e a confiabilidade.
O Gerenciamento de Custos da Microsoft fornece serviços de governança financeira para cargas de trabalho do Azure.
Componentes
Esta solução usa os seguintes componentes.
Componentes principais
a do Azure Databricks é uma plataforma de análise de dados que usa clusters Spark para processar grandes fluxos de dados. Ele limpa e transforma dados não estruturados e os combina com dados estruturados. Ele também pode treinar e implantar modelos de machine learning. Nessa arquitetura, o Azure Databricks serve como a ferramenta central para ingestão, processamento e serviço de dados. Ele fornece um ambiente unificado para gerenciar todo o ciclo de vida de dados.
sql warehouses do Azure Databricks são recursos de computação que você pode usar para consultar e explorar dados no Azure Databricks. Nessa arquitetura, você pode usar pontos de extremidade SQL para se conectar diretamente aos seus dados do Power BI.
as Tabelas Dinâmicas Delta do Azure Databricks é uma estrutura declarativa para a criação de pipelines de processamento de dados confiáveis, mantenedíveis e testáveis. Nessa arquitetura, o Delta Live Tables ajuda você a definir transformações a serem executadas em seus dados. Ele também ajuda você a gerenciar a orquestração de tarefas, o gerenciamento de cluster, o monitoramento, a qualidade dos dados e o tratamento de erros no Azure Databricks.
o Microsoft Fabric é uma plataforma de dados e análise de ponta a ponta para organizações que precisam de uma solução unificada. A plataforma fornece serviços como Engenharia de Dados, Data Factory, Ciência de Dados, Inteligência de Real-Time, Data Warehouse e Bancos de Dados. Essa arquitetura espelha as tabelas do Catálogo do Unity no Fabric e usa o Direct Lake no Power BI para melhorar o desempenho.
Data Factory no Microsoft Fabric é uma plataforma moderna de integração de dados que você pode usar para ingerir, preparar e transformar dados de um conjunto avançado de fontes de dados no Fabric. Essa arquitetura usa conectores internos para várias fontes de dados para ingestão rápida no Data Lake Storage ou no OneLake. Mais tarde, o Azure Databricks recupera e transforma ainda mais os dados em lote.
hubs de eventos é uma plataforma de streaming de Big Data totalmente gerenciada. Como uma plataforma como serviço, ela fornece recursos de ingestão de eventos. Essa arquitetura usa Os Hubs de Eventos para transmitir dados. O Azure Databricks pode se conectar a esses dados e processá-los usando o Spark Streaming ou o Delta Live Tables.
Data Lake Storage é um data lake escalonável e seguro para análise de alto desempenho. Ele manipula vários petabytes de dados e dá suporte a centenas de gigabits de taxa de transferência. O Data Lake Storage pode armazenar dados estruturados, parcialmente estruturados e não estruturados. Essa arquitetura usa o Data Lake Storage para armazenar dados em lote e streaming.
O Machine Learning é um ambiente baseado em nuvem que ajuda você a criar, implantar e gerenciar soluções de análise preditiva. Usando esses modelos, você pode prever o comportamento, os resultados e as tendências. Nessa arquitetura, o Machine Learning usa dados que o Azure Databricks transforma para modelos de treinamento e inferência.
O AKs é um serviço de Kubernetes altamente disponível, seguro e totalmente gerenciado. O AKS facilita a implantação e o gerenciamento de aplicativos em contêineres. Nessa arquitetura, o AKS hospeda modelos de machine learning em um ambiente em contêineres para inferência escalonável.
Delta Lake é uma camada de armazenamento que usa um formato de arquivo aberto. Essa camada é executada em cima de soluções de armazenamento em nuvem, como o Data Lake Storage. O Delta Lake dá suporte ao controle de versão, reversão e transações de dados para atualizar, excluir e mesclar dados. Nessa arquitetura, o Delta Lake funciona como o formato de arquivo primário para gravar e ler dados do Data Lake Storage.
do MLflow é uma plataforma de software livre para gerenciar o ciclo de vida do machine learning. Seus componentes monitoram modelos de machine learning durante o treinamento e a operação. Nessa arquitetura, semelhante ao Machine Learning, você pode usar o MLflow no Azure Databricks para gerenciar seu ciclo de vida de machine learning. Treine e infera modelos usando os dados do Catálogo do Unity que você transformou no Azure Databricks.
Relatórios e componentes de controle
o Catálogo do Unity do Azure Databricks fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks. Nessa arquitetura, o Catálogo do Unity funciona como a principal ferramenta no Azure Databricks para gerenciar e proteger o acesso a dados.
O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam fontes de dados não relacionadas e as visualizam. Junto com o Azure Databricks, o Power BI pode fornecer determinação de causa raiz e análise de dados brutos. Essa arquitetura usa o Power BI para criar dashboards e relatórios que fornecem insights sobre os dados que o Azure Databricks e o Fabric processam.
O Microsoft Purview gerencia dados locais, multinuvem e de software como serviço (SaaS). Esse serviço de governança mantém mapas de paisagem de dados. Seus recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados. Essa arquitetura usa o Microsoft Purview para verificar e rastrear dados ingeridos no Catálogo do Unity, Fabric, Power BI e Data Lake Storage.
O Azure DevOps é uma plataforma de orquestração do DevOps. Esse SaaS fornece ferramentas e ambientes para criar, implantar e colaborar em aplicativos. Essa arquitetura usa o Azure DevOps para automatizar a implantação da infraestrutura do Azure. Você também pode usar o GitHub para automação e controle de versão do código do Azure Databricks para melhor colaboração, controle de alterações e integração com pipelines de CI/CD.
Key Vault armazena e controla o acesso a segredos, como tokens, senhas e chaves de API. O Key Vault também cria e controla chaves de criptografia e gerencia certificados de segurança. Essa arquitetura usa o Key Vault para armazenar chaves de assinatura de acesso compartilhado do Data Lake Storage. Essas chaves são usadas no Azure Databricks e em outros serviços para autenticação.
O Microsoft Entra ID oferece serviços de gerenciamento de acesso e identidade baseados em nuvem do Azure. Esses recursos fornecem uma maneira para os usuários fazerem logon e acessarem recursos. Essa arquitetura usa a ID do Microsoft Entra para autenticar e autorizar usuários e serviços no Azure.
SCIM permite configurar o provisionamento para a conta do Azure Databricks usando a ID do Microsoft Entra. Essa arquitetura usa o SCIM para gerenciar usuários que acessam workspaces do Azure Databricks.
do Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativo, como métricas de desempenho e logs de atividade. Essa arquitetura usa o Azure Monitor para monitorar a integridade dos recursos de computação no Azure Databricks e machine learning e outros componentes que enviam logs para o Azure Monitor.
de Gerenciamento de Custos ajuda você a gerenciar os gastos com nuvem. Usando orçamentos e recomendações, esse serviço organiza despesas e mostra como reduzir custos. Essa arquitetura usa o Gerenciamento de Custos para ajudar a monitorar e controlar o custo de toda a solução.
Detalhes do cenário
Arquiteturas de dados modernas:
- Unificar dados, análises e cargas de trabalho de IA.
- Execute de forma eficiente e confiável em qualquer escala.
- Forneça insights por meio de painéis de análise, relatórios operacionais ou análise avançada.
Essa solução descreve uma arquitetura de dados moderna que atinge essas metas. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços. Juntos, esses serviços fornecem uma solução que é:
- Simples: a análise unificada, a ciência de dados e o aprendizado de máquina simplificam a arquitetura de dados.
- Aberto: a solução dá suporte a código de software de código aberto, padrões abertos e estruturas abertas. Ela também funciona com ambientes de desenvolvimento integrado (IDEs), bibliotecas e linguagens de programação populares. Por meio de conectores nativos e APIs, a solução também funciona com uma ampla gama de outros serviços.
- Colaborativo: engenheiros de dados, cientistas de dados e analistas trabalham em conjunto com essa solução. Eles podem usar notebooks colaborativos, IDEs, painéis e outras ferramentas para acessar e analisar dados subjacentes comuns.
Possíveis casos de uso
O sistema que o Swiss Re Group construiu para sua divisão de Resseguro de Propriedade & Incidentes inspirou essa solução. Além do setor de seguros, qualquer área que funcione com Big Data ou machine learning também pode se beneficiar dessa solução. Os exemplos incluem:
- O setor de energia.
- Varejo e comércio eletrônico.
- Bancos e finanças.
- Medicina e cuidados de saúde.
Próximas etapas
- criar um pipeline de dados de ponta a ponta no Azure Databricks
- executar seu primeiro pipeline do Delta Live Tables
Recursos relacionados
Para saber mais sobre soluções relacionadas, consulte os guias e arquiteturas a seguir.
Guias de arquitetura relacionados
- Monitorar o Azure Databricks usando o Azure Monitor
- Comparar produtos de aprendizado de máquina da Microsoft
- Escolher uma tecnologia de processamento de linguagem natural
- Escolher uma tecnologia de processamento de fluxo