ideias da Solução
Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essas diretrizes para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para criar uma solução bem arquiteta que esteja alinhada com os requisitos específicos da carga de trabalho.
Este artigo descreve como as pequenas e médias empresas (SMBs) podem combinar investimentos existentes no Azure Databricks com uma plataforma de dados SaaS (software como serviço) totalmente gerenciada, como o Microsoft Fabric. As plataformas de dados SaaS são soluções de análise de dados de ponta a ponta que se integram facilmente a ferramentas como o Azure Machine Learning, os Serviços de IA do Azure, o Power Platform, o Microsoft Dynamics 365 e outras tecnologias da Microsoft.
Arquitetura simplificada
Baixe um arquivo do Visio dessa arquitetura.
A interoperabilidade entre o Azure Databricks e o Microsoft Fabric fornece uma solução robusta que minimiza a fragmentação de dados e, ao mesmo tempo, aprimora as funcionalidades analíticas.
O Microsoft Fabric fornece um data lake aberto e controlado, chamado OneLake, como o armazenamento de SaaS subjacente. O OneLake usa o formato Delta Parquet, que é o mesmo formato usado pelo Azure Databricks. Para acessar seus dados do Azure Databricks do OneLake, você pode usar atalhos do OneLake no Fabric ou espelhar o catálogo do Azure Databricks Unity no Fabric. Essa integração permite que você aumente seus sistemas de análise do Azure Databricks com IA geradora sobre o OneLake.
Você também pode usar o modo direct lake no Power BI em seus dados do Azure Databricks no OneLake. O modo de lago direto simplifica a camada de serviço e melhora o desempenho do relatório. O OneLake dá suporte a APIs para o Azure Data Lake Storage e armazena todos os dados tabulares no formato Delta Parquet.
Como resultado, os notebooks do Azure Databricks podem usar pontos de extremidade do OneLake para acessar os dados armazenados. A experiência é a mesma que acessar os dados por meio de um microsoft fabric warehouse. Essa integração permite que você use o Fabric ou o Azure Databricks sem remodelar seus dados.
Arquitetura
Baixe um arquivo do Visio dessa arquitetura.
Fluxo
Azure Data Factory: usar pipelines existentes do Azure Data Factory para ingerir dados estruturados e não estruturados de sistemas de origem e aterrissá-los no data lake existente.
Microsoft Dynamics 365: Você pode usar fontes de dados do Microsoft Dynamics 365 para criar painéis de BI centralizados em conjuntos de dados aumentados usando o Link do Azure Synapse ou o Microsoft Fabric Link. Traga os dados fundidos e processados de volta para o Microsoft Dynamics 365 e o Power BI para análise adicional.
Ingestão de dados de streaming: Dados de streaming podem ser ingeridos por meio dos Hubs de Eventos do Azure ou hubs IoT do Azure, dependendo dos protocolos usados para enviar essas mensagens.
Caminho frio: Você pode trazer os dados de streaming para o data lake centralizado para análise, armazenamento e relatórios adicionais usando o Azure Databricks. Esses dados podem então ser unificados com outras fontes de dados para análise em lote.
Caminho frequente: Dados de streaming podem ser analisados em dashboards em tempo real e em tempo real podem ser criados por meio do Microsoft Fabric Real-Time Intelligence.
Azure Databricks: Os Notebooks existentes do Azure Databricks podem ser usados para executar a limpeza de dados, a unificação e as análises normalmente. Considere usar a arquitetura de medalhão, como:
Bronze, que contém dados brutos.
Prata, que contém dados limpos e filtrados.
Ouro, que armazena dados agregados que são úteis para análise de negócios.
dados golden ou um data warehouse: Para os dados dourados ou um data warehouse, continue a usar o SQL do Azure Databricks ou crie um espelhamento do Catálogo do Azure Databricks Unity no Microsoft Fabric. Crie facilmente painéis com base na análise sem servidor dos dados no Fabric Lakehouses sem qualquer configuração necessária usando os modelos semânticos do Power BI que são criados automaticamente para todas as lakehouses do Fabric. O Fabric Data Warehouse também poderá ser usado como a camada dourada se os requisitos analíticos exigirem computação mais rápida.
As ferramentas usadas para governança, colaboração, segurança, desempenho e monitoramento de custos incluem:
Descobrir e governar
O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.
O Catálogo do Unity fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks.
O Azure DevOps fornece integração contínua e implantação contínua e outros recursos de controle de versão integrados.
O Azure Key Vault gerencia segredos, chaves e certificados.
A ID do Microsoft Entra fornece logon único para usuários do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com a ID do Microsoft Entra para:
Criar novos usuários.
Atribuir um nível de acesso a cada usuário.
Remova os usuários e negue-os ao acesso.
O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Esse serviço maximiza o desempenho e a confiabilidade identificando proativamente os problemas.
O Gerenciamento de Custos da Microsoft fornece serviços de governança financeira para cargas de trabalho do Azure.
Componentes
Data Lake Storage é um serviço de armazenamento de dados escalonável projetado para dados estruturados e não estruturados. Nessa arquitetura, o Data Lake Storage serve como a infraestrutura subjacente para o Delta Lake. É a camada de armazenamento principal para dados brutos e processados, que permite a ingestão, armazenamento e recuperação de dados eficientes para cargas de trabalho de análise e machine learning.
a do Azure Data Factory é um serviço de integração de dados baseado em nuvem que orquestra e automatiza a movimentação e a transformação de dados. O Azure Data Factory é usado para criar, agendar e orquestrar pipelines de dados que movem e transformam dados em vários armazenamentos de dados e serviços. Ele ajuda a garantir o fluxo de dados e a integração contínuos.
Hubs de Eventos é um serviço de ingestão de dados em tempo real que pode processar milhões de eventos por segundo de qualquer fonte. Nessa arquitetura, os Hubs de Eventos capturam e transmitem grandes volumes de dados de várias fontes para habilitar a análise em tempo real e o processamento controlado por eventos.
Hub IoT do Azure é um serviço gerenciado que melhora a segurança e a comunicação confiável entre dispositivos IoT e a nuvem. O Hub IoT do Azure facilita a ingestão, o processamento e a análise de dados de telemetria de dispositivos IoT para fornecer insights em tempo real e habilitar o monitoramento remoto.
o Microsoft Dataverse é uma plataforma de dados escalonável que as organizações podem usar para ajudar a armazenar e gerenciar com segurança os dados que os aplicativos empresariais usam. Nessa arquitetura, ela é referenciada como uma possível fonte de dados.
Link do Azure Synapse conecta aplicativos Dynamics com o Azure Synapse Analytics ou o Data Lake Storage. Nessa arquitetura, ela é usada para copiar dados quase em tempo real do Dataverse para o Data Lake Storage.
o Microsoft Fabric Link conecta aplicativos Dynamics ao Microsoft Fabric. Nessa arquitetura, ela é usada para replicar dados do Dataverse para o Microsoft Fabric quase em tempo real.
do Azure Databricks é uma plataforma de análise baseada no Apache Spark. O Azure Databricks é usado para tarefas de processamento, aprendizado de máquina e engenharia de dados de Big Data. Essa plataforma fornece um workspace colaborativo para cientistas e engenheiros de dados.
Delta Lake é uma camada de armazenamento de software livre que traz transações ACID para cargas de trabalho do Apache Spark e de Big Data. O Delta Lake é usado para fornecer essa funcionalidade ao armazenamento do data lake.
o SQL do Azure Databricks é um serviço de análise baseado em SQL que permite que os usuários executem consultas SQL em dados armazenados no Azure Databricks. Nessa arquitetura, o SQL do Azure Databricks fornece uma interface SQL poderosa para consultar e analisar dados, o que permite análise interativa e ad hoc.
ia e machine learning abrangem uma variedade de tecnologias e serviços que permitem o desenvolvimento, a implantação e o gerenciamento de modelos de machine learning. Os serviços de IA e Machine Learning são usados para criar, treinar e implantar modelos preditivos. Essa funcionalidade permite a tomada de decisões controlada por dados.
do Catálogo do Unity é uma solução de governança de dados que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Databricks. O Catálogo do Unity ajuda a garantir a governança e a segurança de dados fornecendo controles de acesso refinados, auditoria e acompanhamento de linhagem de dados.
de arquitetura do Medallion Lakehouse é um padrão de arquitetura de dados que organiza dados em camadas bronze, prata e ouro para processamento e análise de dados eficientes. Esse padrão de arquitetura é implementado aqui usando o Data Lake Storage, o Delta Lake e o Azure Databricks, que permite processamento e análise de dados escalonáveis e eficientes.
o Microsoft Fabric é uma plataforma de dados abrangente que integra vários serviços e ferramentas de dados para fornecer uma experiência perfeita de gerenciamento e análise de dados. O Microsoft Fabric conecta e integra dados de várias fontes, o que permite análises e insights de dados abrangentes em toda a organização.
Real-Time Intelligence é um recurso de processamento de dados que permite que as organizações ingeram, processem e analisem dados em tempo real. Real-Time Intelligence processa dados de streaming de várias fontes. Ele fornece insights em tempo real e habilita ações automatizadas com base em padrões de dados.
atalhos do OneLake criar um vínculo in-loco entre o OneLake e outra fonte de dados. Os atalhos do OneLake são usados para simplificar o acesso e o gerenciamento de dados, o que fornece uma exibição unificada dos dados em toda a organização.
do Power BI é um serviço de análise de negócios que fornece visualizações interativas e recursos de business intelligence. Ele tem uma interface simples para os usuários criarem seus próprios relatórios interativos e dashboards. Essas ferramentas permitem visualização de dados e insights para usuários empresariais.
Microsoft Purview é um serviço unificado de governança de dados que ajuda as organizações a gerenciar e governar seus dados em várias fontes. O Microsoft Purview fornece a catalogação de dados, o acompanhamento de linhagem e os recursos de governança de dados. Esses recursos ajudam a garantir a conformidade e a segurança de dados em toda a organização.
- Conectar e gerenciar o Catálogo do Unity do Azure Databricks: você pode integrar o Catálogo do Unity ao Purview para acessar metadados do Catálogo do Unity do Purview.
o Microsoft Entra ID é uma solução de gerenciamento de acesso e identidade baseada em nuvem que ajuda a garantir entradas seguras e acesso a recursos como Microsoft 365, Azure e outros aplicativos SaaS. Nessa arquitetura, a ID do Microsoft Entra fornece gerenciamento seguro de identidade e acesso para recursos do Azure. Esse recurso permite entradas seguras, gerencia identidades de usuário e ajuda a garantir que o acesso a dados e recursos esteja autorizado.
o Microsoft Cost Management é um conjunto de ferramentas FinOps que as organizações podem usar para analisar, monitorar e otimizar os custos da Nuvem da Microsoft. Essas ferramentas fornecem governança financeira sobre os recursos do Azure nessa arquitetura.
key vault é um serviço de nuvem que armazena e gerencia segredos, como chaves de API, senhas, certificados e chaves criptográficas. Esse serviço permite que usuários e aplicativos acessem esses segredos com segurança. Ao armazenar suas chaves e segredos no Key Vault, você pode gerenciá-las em um único lugar. Nessa arquitetura, o Azure Databricks pode recuperar segredos do Key Vault para autenticar e acessar o Data Lake Storage. Esse processo ajuda a garantir uma integração segura e perfeita entre esses serviços.
a do Azure Monitor é um serviço de monitoramento abrangente que fornece observabilidade de pilha completa para aplicativos, infraestrutura e redes. O Azure Monitor permite que os usuários coletem, analisem e atuem em dados de telemetria de seus ambientes locais e do Azure para identificar proativamente os problemas e maximizar o desempenho e a confiabilidade.
a do Azure DevOps é um conjunto de ferramentas de desenvolvimento que dão suporte a uma cultura colaborativa e processos simplificados. Essas ferramentas permitem que desenvolvedores, gerentes de projetos e colaboradores desenvolvam software com mais eficiência. O Azure DevOps fornece recursos integrados, como Azure Boards, Azure Repos, Azure Pipelines, Planos de Teste do Azure e Artefatos do Azure. Você pode acessar esses recursos por meio de um navegador da Web ou de um cliente de ambiente de desenvolvimento integrado.
o GitHub é um serviço de hospedagem de repositório Git baseado em nuvem que simplifica o controle de versão e a colaboração para desenvolvedores. Ele permite que indivíduos e equipes armazenem e gerenciem seu código, acompanhem as alterações e colaborem em projetos usando o Git. A interface amigável do GitHub torna o Git acessível aos codificadores de todos os níveis de habilidade. Você pode usar o Azure DevOps e o GitHub juntos para implementar práticas de DevOps. Essas práticas impõem a automação e a conformidade em seus pipelines de desenvolvimento e implantação de carga de trabalho para o Azure Data Factory, o Azure Databricks e o Microsoft Fabric.
Alternativas
Para criar um ambiente independente do Microsoft Fabric, consulte Greenfield Lakehouse no Microsoft Fabric.
Para migrar um ambiente de análise de SQL local para o Microsoft Fabric, consulte data warehouses modernos para pequenas e médias empresas.
Alternativas de serviço dentro dessa arquitetura
de ingestão do Lote
- Opcionalmente, use do Fabric Data Pipeline para integração de dados em vez de pipelines do Data Factory. A escolha depende de vários fatores. Para obter mais informações, consulte Obtendo do Azure Data Factory para o Data Factory no Microsoft Fabric.
de ingestão do Microsoft Dynamics 365
Se você usar o Azure Data Lake como armazenamento de data lake e quiser ingerir dados do Dataverse, use Link do Azure Synapse para Dataverse com o Azure Data Lake. Para o Dynamics Finance and Operations, consulte Link do Azure Synapse do FnO para Dataverse.
Se você usar o Microsoft Fabric Lakehouse como armazenamento de data lake, consulte Fabric Link.
de ingestão de dados de streaming
- A decisão entre o Azure IoT e os Hubs de Eventos depende da origem dos dados de streaming, se a clonagem e a comunicação bidirecional com os dispositivos de relatório são necessárias e os protocolos necessários. Para obter mais informações, consulte Comparar Hub IoT e Hubs de Eventos.
Lakehouse
- O Microsoft Fabric Lakehouse é uma plataforma unificada de arquitetura de dados para gerenciar e analisar dados estruturados e não estruturados em um formato aberto que usa principalmente arquivos Delta Parquet. Ele dá suporte a dois tipos de armazenamento. Esses tipos de armazenamento são tabelas gerenciadas como CSV, Parquet ou Delta e arquivos não gerenciados. As tabelas gerenciadas são reconhecidas automaticamente. Arquivos não gerenciados exigem a criação explícita da tabela. A plataforma habilita transformações de dados por meio de pontos de extremidade Spark ou SQL e se integra perfeitamente a outros componentes do Microsoft Fabric. Essa integração perfeita permite o compartilhamento de dados sem duplicação. Esse conceito se alinha à arquitetura de medalhão comum usada em cargas de trabalho analíticas. Para obter mais informações, consulte Lakehouse no Microsoft Fabric.
de análise em tempo real
do Azure Databricks
- Se você tiver uma solução existente do Azure Databricks, convém continuar a usar o Streaming Estruturado para análise em tempo real. Para obter mais informações, consulte Streaming no Databricks.
microsoft fabric
Se você usou outros serviços do Azure para análise em tempo real no passado ou não tiver nenhuma solução de análise em tempo real existente, consulte Fabric Real-time Intelligence versus Azure Streaming Solutions.
O streaming estruturado do Microsoft Fabric usa o Streaming Estruturado do Spark para processar e ingerir fluxos de dados ao vivo como tabelas acrescentadas continuamente. O streaming estruturado dá suporte a várias fontes de arquivo, como CSV, JSON, ORC, Parquet e serviços de mensagens, como Kafka e Hubs de Eventos. Essa abordagem garante o processamento de fluxo escalonável e tolerante a falhas, o que otimiza ambientes de produção de alta taxa de transferência. Para obter mais informações, consulte Microsoft Fabric Spark Structured Streaming.
de engenharia de dados do
- Use o Microsoft Fabric ou o Azure Databricks para escrever notebooks Spark. Para obter mais informações, consulte Como usar notebooks do Microsoft Fabric. Para saber como os notebooks do Fabric se comparam com o que o Azure Synapse Spark fornece, consulte Comparar Engenharia de Dados do Fabric e o Spark do Azure Synapse. Para obter mais informações sobre notebooks do Azure Databricks, consulte Introdução aos notebooks do Databricks.
data warehouse ou de camada de ouro
- Você pode usar o Microsoft Fabric ou o Azure Databricks para criar um warehouse baseado em SQL ou uma camada de ouro. Para obter um guia de decisão sobre como escolher uma solução de armazenamento de camada de ouro ou data warehouse no Microsoft Fabric, consulte guia de decisão do Microsoft Fabric: escolha um armazenamento de dados. Para obter mais informações sobre tipos de sql warehouse no Azure Databricks, consulte tipos de sql warehouse.
de ciência de dados do
Use o Microsoft Fabric ou o Azure Databricks para recursos de ciência de dados. Para obter mais informações sobre a oferta de Ciência de Dados do Microsoft Fabric, consulte O que é Ciência de Dados no Microsoft Fabric?. Para obter mais informações sobre a oferta do Azure Databricks, consulte IA e machine learning no Databricks.
A Ciência de Dados do Microsoft Fabric difere do Machine Learning. O Machine Learning fornece uma solução abrangente para gerenciar fluxos de trabalho e implantar modelos de machine learning. A Ciência de Dados do Microsoft Fabric é adaptada a um cenário de análise e relatório.
do Power BI
O Azure Databricks, integrado ao Power BI, permite o processamento e a visualização de dados contínuos. Para obter mais informações, consulte Conectar o Power BI ao Azure Databricks.
Ao espelhar o Catálogo do Unity do Azure Databricks no Fabric, você pode acessar dados gerenciados pelo Catálogo do Unity do Azure Databricks diretamente da carga de trabalho do Fabric. Para obter mais informações, consulte do Catálogo do Unity do Azure Databricks.
Crie um atalho do Data Lake Storage com o Delta Lake em um Microsoft Fabric One Lake. Para obter mais informações, consulte Integrar o Catálogo do Databricks Unity ao OneLake. Você pode consultar esses dados do Power BI usando o modo Direct Lake sem copiar dados para o Serviço do Power BI. Para obter mais informações, consulte direct lake mode.
Detalhes do cenário
Pequenas e médias empresas que têm um ambiente existente do Azure Databricks e, opcionalmente, uma arquitetura lakehouse, podem se beneficiar desse padrão. Atualmente, eles usam uma ferramenta de extração, transformação e carregamento do Azure, como o Azure Data Factory, e servem relatórios no Power BI. No entanto, eles também podem ter várias fontes de dados que usam diferentes formatos de dados proprietários no mesmo data lake, o que leva à duplicação de dados e a preocupações com o bloqueio do fornecedor. Essa situação pode complicar o gerenciamento de dados e aumentar a dependência de fornecedores específicos. Eles também podem exigir up-torelatórios de data e quase em tempo real para a tomada de decisões e estar interessados em adotar ferramentas de IA em seu ambiente.
O Microsoft Fabric é uma fundação SaaS aberta, unificada e governada para a qual você pode usar:
Use o OneLake para armazenar, gerenciar e analisar dados em um único local sem preocupações com o bloqueio do fornecedor.
Inove mais rapidamente com as integrações aos aplicativos do Microsoft 365.
Obtenha insights rápidos com os benefícios do modo de lago direto do Power BI.
Aproveite os Copilots em todas as experiências do Microsoft Fabric.
Acelere a análise desenvolvendo modelos de IA em uma única base.
Mantenha os dados em vigor sem movimentação, o que reduz o tempo que os cientistas de dados precisam para fornecer valor.
Contribuintes
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos colaboradores a seguir.
Autores principais:
- Bonita Rui | Arquiteto de Soluções na Nuvem
- Naren Jogendran | Arquiteto de Soluções na Nuvem
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
- Roteiros de aprendizagem para engenheiros de dados
- Microsoft Fabric – Introdução ao caminho mslearn
- módulos Microsoft Fabric – MSLearn
- criar uma conta de armazenamento para o Data Lake Storage
- Início Rápido dos Hubs de Eventos – Criar um hub de eventos usando o portal do Azure
- Qual é a arquitetura medalhão lakehouse?
- O que é uma lakehouse no Microsoft Fabric?