Editar

Compartilhar via


Data warehouses modernos para pequenas e médias empresas

Azure Data Lake
Banco de Dados SQL do Azure
Microsoft Fabric

Este artigo descreve várias maneiras pelas quais as pequenas e médias empresas (SMBs) podem modernizar armazenamentos de dados herdados e explorar ferramentas e funcionalidades de Big Data sem sobrecarregar os orçamentos atuais e conjuntos de habilidades. Essas soluções completas de armazenamento de dados são integradas facilmente ao Machine Learning, Serviços de IA do Azure, Microsoft Power Platform, Microsoft Dynamics 365 e outras tecnologias da Microsoft. Essas soluções fornecem um ponto de entrada fácil para a plataforma de dados SaaS (software como serviço) totalmente gerenciada no Microsoft Fabric que pode se expandir conforme suas necessidades aumentam.

As PMEs que usam o SQL Server local para soluções de armazenamento de dados com menos de 500 GB podem se beneficiar do uso desse padrão. Eles usam várias ferramentas para ingestão de dados em sua solução de data warehousing, incluindo SQL Server Integration Services (SSIS), SSAS (SQL Server Analysis Services), SSRS (SQL Server Reporting Services), procedimentos armazenados comuns do SQL, extração externa, transformação, carga (ETL) e extração, carga, transformação (ELT), trabalhos do SQL Server Agent e replicação de instantâneo do SQL. As operações de sincronização de dados geralmente são baseadas em instantâneos, executadas uma vez por dia e não têm requisitos de relatórios em tempo real.

Arquitetura simplificada

Diagrama que ilustra uma arquitetura de PME simplificada.

Baixe um Arquivo Visio dessa arquitetura.

Uma oportunidade de modernização conceitual envolve a transição da solução de armazenamento de dados herdada para uma combinação de Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure e Fabric. Essa estratégia garante ampla compatibilidade com o SQL Server tradicional e ferramentas de cliente SQL, como o SQL Server Management Studio (SSMS). Ele também fornece opções de lift-and-shift para processos existentes e exige qualificação mínima para a equipe de suporte. Esta solução serve como um passo inicial em direção a uma modernização abrangente, que permite à organização adotar totalmente uma abordagem lakehouse à medida que o data warehouse se expande e o conjunto de habilidades da equipe aumenta.

Arquitetura

Diagrama que ilustra uma arquitetura expandida que foi projetada para atender às necessidades futuras.

Baixe um Arquivo Visio dessa arquitetura.

Os data warehouses herdados de PME podem conter vários tipos de dados:

  • Dados não estruturados, como documentos e gráficos.

  • Dados semiestruturados, como logs, CSVs, JSON e arquivos XML.

  • Dados relacionais estruturados, incluindo bancos de dados que usam procedimentos armazenados para atividades ETL e ELT.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior. Ele demonstra a ingestão do tipo de dados que você escolhe:

  1. Os pipelines de dados do Fabric ou os pipelines do Azure Data Factory orquestram a ingestão de dados transacionais na solução de armazenamento de dados.

    • Os pipelines orquestram o fluxo de bancos de dados herdados migrados ou parcialmente refatorados e pacotes do SSIS no Banco de Dados SQL e na Instância Gerenciada de SQL. É possível implementar rapidamente essa abordagem lift-and-shift, o que garante uma transição tranquila de uma solução SQL local para um futuro ambiente SaaS do Fabric. Você pode modernizar os bancos de dados gravativamente após o lift-and-shift.

    • Os pipelines podem passar dados não estruturados, semiestruturados e estruturados para o Azure Data Lake Storage para armazenamento centralizado e análise com outras fontes. Use essa abordagem quando a fusão de dados fornecer mais benefícios de negócios do que a reformulação dos dados.

  2. Use fontes de dados do Microsoft Dynamics 365 para criar painéis centralizados de business intelligence (BI) em conjuntos de dados aumentados usando ferramentas de análise sem servidor do Fabric. Você pode trazer os dados combinados e processados de volta para o Dynamics e usá-los para análise posterior no Fabric.

  3. Os dados em tempo real das fontes de streaming podem entrar no sistema por meio dos Hubs de Eventos do Azure ou outras soluções de streaming. Para clientes com requisitos de painel em tempo real, a análise em tempo real do Fabric pode analisar esses dados imediatamente.

  4. Os dados podem ser ingeridos no Fabric OneLake centralizado para análise, armazenamento e relatórios adicionais usando atalhos do Data Lake Storage. Esse processo permite a análise no local e facilita o consumo downstream.

  5. As ferramentas de análise sem servidor, como o ponto de extremidade da Análise de SQL e os recursos do Fabric Spark, estão disponíveis sob demanda dentro do próprio Fabric e não exigem nenhum recurso provisionado. As ferramentas de análise sem servidor são ideais para:

    • Atividades de ETL e ELT nos dados do OneLake.

    • Fornecer o nível ouro de arquitetura de medalhão para relatórios do Power BI por meio do recurso DirectLake.

    • Explorações improvisadas de ciência de dados no formato T-SQL ou Python.

    • Protótipos iniciais para entidades de data warehouse.

O Fabric é totalmente integrado aos consumidores potenciais de seus conjuntos de dados de várias fontes, incluindo relatórios de front-end do Power BI, Machine Learning, Power Apps, Aplicativos Lógicos do Azure, Azure Functions e aplicativos Web do Serviço de Aplicativo do Azure.

Componentes

  • O Fabric é um serviço de análise que combina engenharia de dados, armazenamento de dados, ciência de dados e dados em tempo real e recursos de BI. Nesta solução, os recursos de engenharia de dados do Fabric fornecem uma plataforma colaborativa para engenheiros de dados, cientistas de dados, analistas de dados e profissionais de BI. Esse componente-chave é baseado em mecanismos de computação sem servidor e agrega valor comercial gerando insights que são distribuídos aos clientes.

  • O Banco de Dados SQL e a Instância Gerenciada de SQL são serviços de banco de dados relacional baseados em nuvem. O Banco de Dados SQL e a Instância Gerenciada de SQL usam o SSMS (SQL Server Management Studio) para desenvolver e manter artefatos herdados, como procedimentos armazenados. Nessa solução, esses serviços hospedam o data warehouse corporativo e realizam atividades de ETL e ELT usando procedimentos armazenados ou pacotes externos. O Banco de Dados SQL e a Instância Gerenciada de SQL são ambientes de PaaS (plataforma como serviço) que você pode usar para atender aos requisitos de alta disponibilidade e recuperação de desastre. Certifique-se de escolher o SKU que atenda às suas necessidades. Para obter mais informações, consulte Alta disponibilidade para o Banco de Dados SQL e Alta disponibilidade para a Instância Gerenciada de SQL.

  • O SSMS é um ambiente integrado para gerenciar a infraestrutura do SQL que você pode usar para desenvolver e manter artefatos herdados, como procedimentos armazenados.

  • O Hubs de Eventos é uma plataforma de streaming de dados em tempo real e um serviço de ingestão de eventos. O Hubs de Eventos integra-se perfeitamente com os serviços de dados do Azure e podem ingerir dados de qualquer lugar.

Alternativas

  • Você pode usar o Hub IoT do Azure para substituir ou complementar o Hubs de Eventos. Escolha sua solução com base na fonte dos seus dados de streaming e se você precisa de clonagem e comunicação bidirecional com os dispositivos de relatório.

  • Você pode usar pipelines de dados do Fabric em vez de pipelines do Data Factory para integração de dados. Sua decisão dependerá de vários fatores. Para obter mais informações, consulte Transição do Azure Data Factory para o Data Factory no Fabric.

  • Você pode usar o Fabric Warehouse em vez do Banco de Dados SQL ou da Instância Gerenciada de SQL para armazenar dados corporativos. Este artigo prioriza o tempo de lançamento no mercado para clientes que desejam modernizar seus data warehouses. Para obter mais informações sobre as opções de armazenamento de dados para o Fabric, consulte Guia de decisão do Fabric.

Detalhes do cenário

Quando as PMEs modernizam seus data warehouses locais para a nuvem, elas podem adotar ferramentas de Big Data para escalabilidade futura ou usar soluções tradicionais baseadas em SQL para eficiência de custos, facilidade de manutenção e uma transição suave. Uma abordagem híbrida oferece o melhor dos dois mundos e permite a fácil migração de propriedades de dados existentes enquanto usa ferramentas modernas e recursos de IA. As PMEs podem manter a execução de suas fontes de dados baseadas em SQL na nuvem e modernizá-las conforme necessário.

Este artigo descreve várias estratégias para as PMEs modernizarem armazenamentos de dados herdados e explorarem ferramentas e recursos de Big Data sem extrapolar os orçamentos e conjuntos de habilidades atuais. Essas soluções abrangentes de armazenamento de dados do Azure integram-se perfeitamente aos serviços do Azure e da Microsoft, incluindo serviços de IA, Microsoft Dynamics 365 e Microsoft Power Platform.

Possíveis casos de uso

  • Faça a migração de um data warehouse relacional local tradicional com menos de 1 TB e use pacotes de SSIS para orquestrar procedimentos armazenados.

  • Combine dados existentes do Dynamics ou Microsoft Power Platform Dataverse com fontes do Data Lake em lotes e em tempo real.

  • Use técnicas inovadoras para interagir com os dados centralizados do Azure Data Lake Storage Gen2. Essas técnicas incluem análise sem servidor, mineração de conhecimento, fusão de dados entre domínios e exploração de dados do usuário final, incluindo o Fabric Copilot.

  • Configure empresas de comércio eletrônico para adotar um data warehouse para otimizar suas operações.

Essa solução não é recomendada para:

  • Uma implantação greenfield de data warehouses.

  • Migração de data warehouses locais maiores que 1 TB ou projetados para atingir esse tamanho dentro de um ano.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.

  • A calculadora de preços do Azure permite que você modifique valores para entender como seus requisitos específicos afetam os custos. Você pode ver um exemplo de preço para um cenário de armazenamento de dados de PME na calculadora de preços do Azure.

  • O preço do Banco de Dados SQL depende das camadas de computação e serviço escolhidas e do número de vCores e unidades de transação de banco de dados. O exemplo descreve um banco de dados individual com computação provisionada e oito vCores e pressupõe que você precisa executar procedimentos armazenados no Banco de Dados SQL.

  • O preço do Data Lake Storage Gen2 depende do volume de dados que você armazena e da frequência com que os dados são usados. O preço de amostra abrange 1 TB de armazenamento de dados e outras suposições transacionais. O um 1 TB se refere ao tamanho do data lake e não ao tamanho do banco de dados herdado original.

  • O preço do Fabric depende do preço da capacidade do Fabric F ou do preço Premium por pessoa. Os recursos sem servidor usam CPU e memória de sua capacidade dedicada adquirida.

  • O preço do Hubs de Eventos depende da camada escolhida, do número de unidades de produtividade provisionadas e do tráfego de entrada recebido. O exemplo pressupõe uma unidade de produtividade na camada Standard que lida com mais de um milhão de eventos por mês.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas