Este artigo descreve várias maneiras pelas quais as pequenas e médias empresas (SMBs) podem modernizar armazenamentos de dados herdados e explorar ferramentas e recursos de big data sem estender demais os orçamentos e conjuntos de habilidades atuais. Estas soluções abrangentes de armazenamento de dados integram-se perfeitamente com o Azure Machine Learning, os serviços de IA do Azure, a Microsoft Power Platform, o Microsoft Dynamics 365 e outras tecnologias da Microsoft. Essas soluções fornecem um ponto de entrada fácil para a plataforma de dados de software como serviço (SaaS) totalmente gerenciada no Microsoft Fabric, que pode se expandir à medida que suas necessidades crescem.
As PMEs que usam o SQL Server local para soluções de armazenamento de dados com menos de 500 GB podem se beneficiar do uso desse padrão. Eles usam várias ferramentas para ingestão de dados em sua solução de data warehousing, incluindo SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), procedimentos armazenados SQL comuns, extração, transformação e carregamento externos (ETL) e ferramentas de extração, carga, transformação (ELT), trabalhos do SQL Server Agent e replicação de instantâneo SQL. As operações de sincronização de dados geralmente são baseadas em instantâneos, realizadas uma vez por dia e não têm requisitos de relatórios em tempo real.
Arquitetura simplificada
Transfira um ficheiro do Visio desta arquitetura.
Uma oportunidade de modernização conceitual envolve a transição da solução de data warehousing herdada para uma combinação de Banco de Dados SQL do Azure, Instância Gerenciada SQL do Azure e Malha. Essa estratégia garante ampla compatibilidade com ferramentas tradicionais do SQL Server e do cliente SQL, como o SQL Server Management Studio (SSMS). Ele também fornece opções de elevação e mudança para processos existentes e requer um aprimoramento mínimo para a equipe de suporte. Essa solução serve como um passo inicial para uma modernização abrangente, que permite que a organização adote totalmente uma abordagem lakehouse à medida que o data warehouse se expande e o conjunto de habilidades da equipe cresce.
Arquitetura
Transfira um ficheiro do Visio desta arquitetura.
Os armazéns de dados SMB herdados podem conter vários tipos de dados:
Dados não estruturados, como documentos e gráficos.
Dados semiestruturados, como logs, CSVs, JSON e arquivos XML.
Dados relacionais estruturados, incluindo bancos de dados que usam procedimentos armazenados para atividades de ETL e ELT.
Fluxo de dados
O fluxo de dados a seguir corresponde ao diagrama anterior. Ele demonstra a ingestão do tipo de dados que você escolher:
Os pipelines de dados de malha ou os pipelines do Azure Data Factory orquestram a ingestão de dados transacionais na solução de armazenamento de dados.
Os pipelines orquestram o fluxo de bancos de dados herdados migrados ou parcialmente refatorados e pacotes SSIS no Banco de dados SQL e na instância gerenciada pelo SQL. Você pode implementar rapidamente essa abordagem de elevação e mudança, que garante uma transição perfeita de uma solução SQL local para um futuro ambiente SaaS de malha. Você pode modernizar os bancos de dados incrementalmente após a elevação e o turno.
Os pipelines podem passar dados não estruturados, semiestruturados e estruturados para o Armazenamento Azure Data Lake para armazenamento e análise centralizados com outras fontes. Use essa abordagem quando a fusão de dados fornecer mais benefícios comerciais do que a replataforma dos dados.
Use fontes de dados do Microsoft Dynamics 365 para criar painéis centralizados de business intelligence (BI) em conjuntos de dados aumentados usando ferramentas de análise sem servidor do Fabric. Você pode trazer os dados fundidos e processados de volta para o Dynamics e usá-los para análise adicional no Fabric.
Os dados em tempo real de fontes de streaming podem entrar no sistema por meio dos Hubs de Eventos do Azure ou de outras soluções de streaming. Para clientes com requisitos de painel em tempo real, o Fabric Real-Time Analytics pode analisar esses dados imediatamente.
Os dados podem ser ingeridos no OneLake de malha centralizado para análise, armazenamento e emissão de relatórios adicionais usando atalhos de armazenamento do Data Lake. Este processo permite a análise in-loco e facilita o consumo a jusante.
As ferramentas de análise sem servidor, como o ponto de extremidade do SQL Analytics e os recursos do Fabric Spark, estão disponíveis sob demanda dentro do Fabric e não exigem recursos provisionados. As ferramentas de análise sem servidor são ideais para:
Atividades de ETL e ELT em dados OneLake.
Servindo camada ouro de arquitetura medalhão para relatórios do Power BI por meio do recurso DirectLake.
Explorações improvisadas de ciência de dados em formato T-SQL ou Python.
Prototipagem antecipada para entidades de armazém de dados.
O Fabric está totalmente integrado com potenciais consumidores de seus conjuntos de dados de várias fontes, incluindo relatórios front-end do Power BI, Machine Learning, Power Apps, Aplicativos Lógicos do Azure, Azure Functions e aplicativos Web do Serviço de Aplicativo do Azure.
Componentes
O Fabric é um serviço de análise que combina engenharia de dados, data warehousing, ciência de dados e recursos de BI e dados em tempo real. Nesta solução, os recursos de engenharia de dados do Fabric fornecem uma plataforma colaborativa para engenheiros de dados, cientistas de dados, analistas de dados e profissionais de BI. Esse componente-chave é alimentado por mecanismos de computação sem servidor e oferece valor comercial gerando insights que são distribuídos aos clientes.
O Banco de Dados SQL e a Instância Gerenciada SQL são serviços de banco de dados relacional baseados em nuvem. O Banco de Dados SQL e a Instância Gerenciada SQL usam o SSMS para desenvolver e manter artefatos herdados, como procedimentos armazenados. Nesta solução, esses serviços hospedam o data warehouse corporativo e executam atividades de ETL e ELT usando procedimentos armazenados ou pacotes externos. O Banco de Dados SQL e a Instância Gerenciada SQL são ambientes de plataforma como serviço (PaaS) que você pode usar para atender aos requisitos de alta disponibilidade e recuperação de desastres. Certifique-se de escolher o SKU que atenda às suas necessidades. Para obter mais informações, consulte Alta disponibilidade para o Banco de dados SQL e Alta disponibilidade para instância gerenciada do SQL.
O SSMS é um ambiente integrado para gerenciar a infraestrutura SQL que você pode usar para desenvolver e manter artefatos herdados, como procedimentos armazenados.
Os Hubs de Eventos são uma plataforma de streaming de dados em tempo real e um serviço de ingestão de eventos. Os Hubs de Eventos integram-se perfeitamente com os serviços de dados do Azure e podem ingerir dados a partir de qualquer lugar.
Alternativas
Você pode usar o Hub IoT do Azure para substituir ou complementar Hubs de Eventos . Escolha sua solução com base na fonte de seus dados de streaming e se você precisa de clonagem e comunicação bidirecional com os dispositivos de relatório.
Você pode usar pipelines de dados de malha em vez de pipelines de data factory para integração de dados. A sua decisão dependerá de vários fatores. Para obter mais informações, consulte Obtendo do Azure Data Factory para o Data Factory na malha.
Você pode usar o Fabric Warehouse em vez do Banco de Dados SQL ou da Instância Gerenciada SQL para armazenar dados corporativos. Este artigo prioriza o tempo de comercialização para clientes que desejam modernizar seus data warehouses. Para obter mais informações sobre opções de armazenamento de dados para malha, consulte Guia de decisão de malha.
Detalhes do cenário
Quando as PMEs modernizam seus data warehouses locais para a nuvem, elas podem adotar ferramentas de big data para escalabilidade futura ou usar soluções tradicionais baseadas em SQL para eficiência de custos, facilidade de manutenção e uma transição suave. Uma abordagem híbrida fornece o melhor dos dois mundos e permite a migração fácil de propriedades de dados existentes, usando ferramentas modernas e recursos de IA. As PMEs podem manter suas fontes de dados baseadas em SQL em execução na nuvem e modernizá-las conforme necessário.
Este artigo descreve várias estratégias para as PMEs modernizarem os armazenamentos de dados herdados e explorarem ferramentas e recursos de big data sem sobrecarregar os orçamentos e conjuntos de habilidades atuais. Estas soluções abrangentes de armazenamento de dados do Azure integram-se perfeitamente com os serviços do Azure e da Microsoft, incluindo serviços de IA, Microsoft Dynamics 365 e Microsoft Power Platform.
Potenciais casos de utilização
Migre um data warehouse relacional local tradicional com menos de 1 TB e use pacotes SSIS para orquestrar procedimentos armazenados.
Combine dados existentes do Dynamics ou do Microsoft Power Platform Dataverse com fontes Data Lake em lote e em tempo real.
Use técnicas inovadoras para interagir com dados centralizados do Azure Data Lake Storage Gen2. Essas técnicas incluem análise sem servidor, mineração de conhecimento, fusão de dados entre domínios e exploração de dados do usuário final, incluindo o Fabric Copilot.
Configure empresas de e-commerce para adotar um data warehouse para otimizar suas operações.
Esta solução não é recomendada para:
Uma implantação greenfield de armazéns de dados.
Migração de armazéns de dados locais maiores que 1 TB ou projetados para atingir esse tamanho dentro de um ano.
Considerações
Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.
Otimização de custos
A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.
A calculadora de preços do Azure permite modificar valores para entender como seus requisitos específicos afetam os custos. Você pode ver um exemplo de preço para um cenário de armazenamento de dados SMB na calculadora de preços do Azure.
A definição de preço do Banco de dados SQL depende das camadas de computação e serviço escolhidas e do número de vCores e unidades de transação de banco de dados. O exemplo descreve um único banco de dados com computação provisionada e oito vCores e pressupõe que você precisa executar procedimentos armazenados no Banco de dados SQL.
O preço do Data Lake Storage Gen2 depende da quantidade de dados que você armazena e da frequência com que os usa. O preço de amostra cobre 1 TB de armazenamento de dados e outras hipóteses transacionais. O 1 TB refere-se ao tamanho do data lake e não ao tamanho do banco de dados herdado original.
O preço da malha depende do preço da capacidade do Fabric F ou do preço Premium por pessoa. Os recursos sem servidor usam CPU e memória da capacidade dedicada adquirida.
O preço dos Hubs de Eventos depende da camada escolhida, do número de unidades de taxa de transferência provisionadas e do tráfego de entrada recebido. O exemplo pressupõe uma unidade de taxa de transferência na camada Standard manipulando mais de um milhão de eventos por mês.
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Galina Polyakova - Brasil | Arquiteto de Soluções Cloud Sênior
Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.
Próximos passos
- Para conteúdo de treinamento e laboratórios, consulte Caminhos de aprendizado do engenheiro de dados.
- Comece a usar o Fabric.
- Navegue por todos os cursos, percursos de aprendizagem e módulos.
- Crie um único banco de dados.
- Crie uma instância gerenciada pelo SQL.
- Crie uma conta de armazenamento para usar com o Data Lake Storage Gen2.
- Crie um hub de eventos usando o portal do Azure.