Ideias de solução
Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe aos requisitos específicos de sua carga de trabalho.
Essa solução descreve a arquitetura de dados moderna. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços, como o Azure Data Lake Storage Gen2, o Microsoft Fabric e o Power BI.
Apache® e Apache Spark™ são marcas registradas ou marcas comerciais do Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.
Arquitetura
Baixe um Arquivo Visio dessa arquitetura.
Fluxo de dados
O Azure Databricks ingere dados brutos de streaming dos Hubs de Eventos do Azure usando Tabelas Dinâmicas Delta.
O Fabric Data Factory carrega dados brutos em lote no Data Lake Storage Gen2.
Para armazenamento de dados:
O Data Lake Storage Gen2 armazena dados de todos os tipos, como estruturados, não estruturados e semiestruturados. Ele também armazena dados em lote e streaming.
O Delta Lake forma a camada curada do data lake. Ele armazena os dados refinados em um formato de software livre.
O Azure Databricks funciona bem com uma arquitetura de medalhão que organiza dados em camadas:
- Bronze: contém dados brutos.
- Silver: contém dados limpos e filtrados.
- Gold: armazena dados agregados que são úteis para análise de negócios.
A plataforma analítica ingere dados das diferentes fontes de streaming e lote. Os cientistas de dados usam esses dados para estas tarefas:
- Preparação dos dados.
- Exploração de dados.
- Preparação do modelo.
- Treinamento de modelo.
O MLflow gerencia o acompanhamento de parâmetros, métricas e modelos em execuções de código de ciência de dados. As possibilidades de codificação são flexíveis:
- O código pode estar em SQL, Python, R e Scala.
- O código pode usar bibliotecas e estruturas de software livre populares, como Coalas, Pandas e scikit-learn, que são pré-instalados e otimizados.
- Os praticantes podem otimizar o desempenho e o custo com opções de computação de nó único e vários nós.
Os modelos de machine learning estão disponíveis em vários formatos:
- O Azure Databricks armazena informações sobre modelos no Registro de Modelo do MLflow. O registro disponibiliza modelos por meio de APIs REST, de streaming e de lote.
- A solução também pode implantar modelos nos serviços Web do Azure Machine Learning ou no Serviço de Kubernetes do Azure (AKS).
Os serviços que funcionam com os dados se conectam a uma única fonte de dados subjacente para garantir a consistência. Por exemplo, os usuários podem executar consultas SQL no data lake com os SQL Warehouses do Azure Databricks. Este serviço:
- Fornece um editor de consultas e um catálogo, o histórico de consultas, painéis básicos e alertas.
- Usa a segurança integrada que inclui permissões de nível de linha e de coluna.
- Usa um Mecanismo Delta movido a fótons para acelerar o desempenho.
Os usuários podem espelhar conjuntos de dados em ouro do Catálogo do Databricks Unity no Fabric. espelhamento do Databricks no Fabric permitir que os usuários se integrem facilmente sem a movimentação de dados ou a replicação de dados.
O Power BI gera relatórios e painéis analíticos e históricos da plataforma de dados unificada. Esse serviço usa estes recursos ao trabalhar com o Azure Databricks:
- Um conector interno do Azure Databricks para visualizar os dados subjacentes.
- Drivers de Java Database Connectivity (JDBC) e Open Database Connectivity (ODBC) otimizados.
- Com o espelhamento do Databricks no Fabric, você pode aproveitar direct lake para carregar seus modelos semânticos de PBI para consultas de desempenho mais alto.
A solução usa o Catálogo do Unity e os serviços do Azure para colaboração, desempenho, confiabilidade, governança e segurança:
O Catálogo do Databricks Unity fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks.
O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.
O Azure DevOps oferece integração contínua e entrega contínua (CI/CD) e outros recursos de controle de versão integrados.
O Azure Key Vault gerencia com segurança segredos, chaves e certificados.
O provisionamento de ID e SCIM do Microsoft Entra fornece SSO (logon único) para usuários e grupos do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com o Microsoft Entra ID para estas tarefas:
- Criando novos usuários e grupos.
- Atribuir um nível de acesso a cada usuário.
- Remover usuários e negar-lhes acesso.
O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Ao identificar problemas proativamente, esse serviço maximiza o desempenho e a confiabilidade.
O Gerenciamento de Custos da Microsoft fornece serviços de governança financeira para cargas de trabalho do Azure.
Componentes
A solução usa os componentes a seguir.
Componentes principais
a do Azure Databricks é uma plataforma de análise de dados que usa clusters Spark para processar grandes fluxos de dados. Ele limpa e transforma dados não estruturados, combina-os com dados estruturados e pode treinar e implantar modelos de machine learning. Nessa arquitetura, o Databricks serve como a ferramenta central para ingestão, processamento e serviço de dados, fornecendo um ambiente unificado para gerenciar todo o ciclo de vida de dados.
o SQL Warehouse do Azure Databricks são recursos de computação que permitem consultar e explorar dados no Databricks. Nessa arquitetura, você pode aproveitar os Pontos de Extremidade do SQL para se conectar diretamente aos seus dados do Power BI.
as Tabelas Dinâmicas Delta do Azure Databricks é uma estrutura declarativa para a criação de pipelines de processamento de dados confiáveis, mantenedíveis e testáveis. Nessa arquitetura, o Delta Live Tables ajuda você a definir transformações para executar em seus dados e gerenciar a orquestração de tarefas, o gerenciamento de cluster, o monitoramento, a qualidade dos dados e o tratamento de erros no Databricks.
o Microsoft Fabric é uma plataforma de dados e análise de ponta a ponta projetada para empresas que precisam de uma solução unificada. A plataforma oferece serviços como Engenharia de Dados, Data Factory, Ciência de Dados, Análise de Real-Time, Data Warehouse e Bancos de Dados. Nesta arquitetura, espelhamos as tabelas do Catálogo do Unity no Fabric e usamos o Direct Lake no Power BI para melhorar o desempenho.
Data Factory no Microsoft Fabric capacita você com uma experiência moderna de integração de dados para ingerir, preparar e transformar dados de um conjunto avançado de fontes de dados no Fabric. Nesta arquitetura, estamos aproveitando conectores internos para várias fontes de dados para ingestão rápida no ADLS ou no OneLake, onde o Databricks mais tarde recuperará e transformará ainda mais os dados do lote.
hubs de eventos é uma plataforma de streaming de Big Data totalmente gerenciada. Como uma PaaS (Plataforma como Serviço), ela fornece recursos de ingestão de eventos. Nessa arquitetura, os Hubs de Eventos são utilizados para transmitir dados, aos quais o Databricks pode se conectar e processar usando o Streaming do Spark ou tabelas delta ao vivo.
Data Lake Storage Gen2 é um data lake escalonável e seguro para análise de alto desempenho. Ele manipula vários petabytes de dados e dá suporte a centenas de gigabits de taxa de transferência. O ADLS pode armazenar dados estruturados, semiestruturados e não estruturados. Nessa arquitetura, usamos o ADLS para armazenar dados em lote e streaming.
O Machine Learning é um ambiente baseado em nuvem que ajuda você a criar, implantar e gerenciar soluções de análise preditiva. Com esses modelos, você pode prever o comportamento, os resultados e as tendências. Nessa arquitetura, o AML pode aproveitar os dados transformados pelo Databricks para treinar e inferir modelos.
O AKs é um serviço de Kubernetes altamente disponível, seguro e totalmente gerenciado. O AKS facilita a implantação e o gerenciamento de aplicativos em contêineres. Nessa arquitetura, o AKS é aproveitado para hospedar modelos de machine learning em um ambiente em contêineres para inferência escalonável.
Delta Lake é uma camada de armazenamento que usa um formato de arquivo aberto. Essa camada é executada em cima do armazenamento em nuvem, como o Data Lake Storage Gen2. O Delta Lake dá suporte ao controle de versão, reversão e transações de dados para atualizar, excluir e mesclar dados. Nessa arquitetura, a Delta funciona como o formato de arquivo primário para gravar e ler dados do ADLS.
do MLflow é uma plataforma de software livre para gerenciar o ciclo de vida do machine learning. Seus componentes monitoram modelos de machine learning durante o treinamento e a execução. Nessa arquitetura, semelhante ao AML, você pode aproveitar o MLflow no Databricks para gerenciar seu ciclo de vida de ML, incluindo treinamento e inferência usando os dados do Catálogo do Unity que você acabou de transformar no Databricks.
Relatórios e componentes de controle
Databricks Unity Catalog fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks. Nessa arquitetura, o Catálogo do Unity funciona como a principal ferramenta no Databricks para gerenciar e proteger o acesso a dados.
O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam fontes de dados não relacionadas e as visualizam. Junto com o Azure Databricks, o Power BI pode fornecer determinação de causa raiz e análise de dados brutos. Nessa arquitetura, o Power BI é usado para criar dashboards e relatórios que fornecem insights sobre os dados processados pelo Databricks e fabric.
O Microsoft Purview gerencia dados locais, multinuvem e de software como serviço (SaaS). Esse serviço de governança mantém mapas de paisagem de dados. Os recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados. Nessa arquitetura, o Purview é usado para verificar e acompanhar os dados ingeridos no Catálogo do Unity, Fabric, Power BI e ADLS.
O Azure DevOps é uma plataforma de orquestração do DevOps. Esse SaaS fornece ferramentas e ambientes para criar, implantar e colaborar em aplicativos. Nessa arquitetura, o Azure DevOps é usado para automatizar a implantação da infraestrutura do Azure. Além disso, você pode aproveitar o GitHub para automação e controle de versão do código do Databricks, para melhor colaboração, acompanhamento de alterações e integração com pipelines de CI/CD.
O Azure Key Vault armazena e controla o acesso a segredos, como tokens, senhas e chaves de API. O Key Vault também cria e controla chaves de criptografia e gerencia certificados de segurança. Neste architecure, o AKV é usado para armazenar chaves SAS do ADLS. Essas chaves são então usadas no Databricks e em outros serviços para autenticação.
O Microsoft Entra ID oferece serviços de gerenciamento de acesso e identidade baseados em nuvem do Azure. Esses recursos fornecem uma maneira para os usuários fazerem logon e acessarem recursos. Neste architecure, a ID do Entra é usada para autenticar e autorizar usuários e serviços no Azure.
SCIM permite configurar o provisionamento para a conta do Azure Databricks usando a ID do Microsoft Entra. Nessa arquitetura, ela é usada para gerenciar usuários que acessam workspaces do Databricks.
O Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativo, como métricas de desempenho e logs de atividade. Nessa arquitetura, o Azure Monitor é usado para monitorar a integridade dos recursos de computação no Databricks e no Azure Machine Learning, bem como outros componentes que enviam logs para o Azure Monitor.
O Gerenciamento de Custos da Microsoft gerencia os gastos com a nuvem. Usando orçamentos e recomendações, esse serviço organiza despesas e mostra como reduzir custos. Nessa arquitetura, o Gerenciamento de Custos da Microsoft é usado para monitorar e controlar o custo de toda a solução.
Detalhes do cenário
As arquiteturas de dados modernas atendem a estes critérios:
- Unificar dados, análises e cargas de trabalho de IA.
- Execute de forma eficiente e confiável em qualquer escala.
- Forneça insights por meio de painéis de análise, relatórios operacionais ou análise avançada.
Essa solução descreve uma arquitetura de dados moderna que atinge essas metas. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços. Juntos, esses serviços fornecem uma solução com estas qualidades:
- Simples: a análise unificada, a ciência de dados e o aprendizado de máquina simplificam a arquitetura de dados.
- Aberto: a solução dá suporte a código de software de código aberto, padrões abertos e estruturas abertas. Ela também funciona com ambientes de desenvolvimento integrado (IDEs), bibliotecas e linguagens de programação populares. Por meio de conectores nativos e APIs, a solução também funciona com uma ampla gama de outros serviços.
- Colaborativo: engenheiros de dados, cientistas de dados e analistas trabalham em conjunto com essa solução. Eles podem usar notebooks colaborativos, IDEs, painéis e outras ferramentas para acessar e analisar dados subjacentes comuns.
Possíveis casos de uso
O sistema que o Swiss Re Group construiu para sua divisão de Resseguro de Propriedade & Incidentes inspirou essa solução. Além do setor de seguros, qualquer área que funcione com Big Data ou aprendizado de máquina também pode se beneficiar dessa solução. Os exemplos incluem:
- O setor de energia
- Varejo e comércio eletrônico
- Serviços bancários e financeiros
- Medicina e cuidados de saúde
Próximas etapas
- Tutorial : criar um pipeline de dados de ponta a ponta no Databricks
- Tutorial : executar suas primeiras delta live tables
Recursos relacionados
Para saber mais sobre as soluções relacionadas, consulte as seguintes informações:
Guias de arquitetura relacionados
- Monitorar o Azure Databricks com o Azure Monitor
- Comparar produtos de aprendizado de máquina da Microsoft
- Escolher uma tecnologia de processamento de linguagem natural
- Escolher uma tecnologia de processamento de fluxo