Explore armazenamentos de dados analíticos
Existem dois tipos comuns de armazenamento de dados analíticos.
Armazéns de dados
Um data warehouse é um banco de dados relacional no qual os dados são armazenados em um esquema otimizado para análise de dados em vez de cargas de trabalho transacionais. Comumente, os dados de um repositório transacional são transformados em um esquema no qual os valores numéricos são armazenados em tabelas de fatos centrais, que estão relacionadas a uma ou mais tabelas de dimensão que representam entidades pelas quais os dados podem ser agregados. Por exemplo, uma tabela de fatos pode conter dados de ordem de venda, que podem ser agregados por dimensões de cliente, produto, loja e tempo (permitindo, por exemplo, encontrar facilmente a receita total mensal de vendas por produto para cada loja). Esse tipo de esquema de tabela de fatos e dimensões é chamado de esquema em estrela, embora muitas vezes seja estendido em um esquema de floco de neve adicionando tabelas adicionais relacionadas às tabelas de dimensão para representar hierarquias dimensionais (por exemplo, produto pode estar relacionado a categorias de produtos). Um data warehouse é uma ótima opção quando você tem dados transacionais que podem ser organizados em um esquema estruturado de tabelas e deseja usar SQL para consultá-los.
Data Lakes
Um data lake é um armazenamento de arquivos, geralmente em um sistema de arquivos distribuído para acesso a dados de alto desempenho. Tecnologias como Spark ou Hadoop são frequentemente usadas para processar consultas nos arquivos armazenados e retornar dados para relatórios e análises. Esses sistemas geralmente aplicam uma abordagem de esquema em leitura para definir esquemas tabulares em arquivos de dados semiestruturados no ponto em que os dados são lidos para análise, sem aplicar restrições quando são armazenados. Os data lakes são ótimos para suportar uma combinação de dados estruturados, semiestruturados e até mesmo não estruturados que você deseja analisar sem a necessidade de imposição de esquema quando os dados são gravados no armazenamento.
Abordagens híbridas
Você pode usar uma abordagem híbrida que combina recursos de data lakes e data warehouses em uma data lakehouse. Os dados brutos são armazenados como arquivos em um data lake e os pontos de extremidade de análise SQL do Microsoft Fabric os expõem como tabelas, que podem ser consultadas usando SQL. Quando você cria um Lakehouse com o Microsoft Fabric, um ponto de extremidade de análise SQL é criado automaticamente. Os data lakehouses são uma abordagem relativamente nova em sistemas baseados no Spark e são habilitados por meio de tecnologias como o Delta Lake, que adiciona recursos de armazenamento relacional ao Spark, para que você possa definir tabelas que imponham esquemas e consistência transacional, suportem fontes de dados carregadas em lote e streaming e forneçam uma API SQL para consulta.
Serviços do Azure para repositórios analíticos
No Azure, há vários serviços que você pode usar para implementar um repositório analítico de grande escala, incluindo:
O Microsoft Fabric é uma solução unificada e completa para análise de dados em larga escala. Ele reúne várias tecnologias e recursos, permitindo que você combine a integridade e a confiabilidade de dados de um data warehouse relacional escalável e de alto desempenho baseado no SQL Server com a flexibilidade de um data lake e Apache Spark de código aberto. Ele também inclui suporte nativo para análise de log e telemetria com o Microsoft Fabric Real-Time Intelligence, bem como pipelines de dados integrados para ingestão e transformação de dados. Cada experiência de produto do Microsoft Fabric tem sua própria casa, por exemplo, a Página Inicial do Data Factory. Cada Fabric Home exibe os itens que você cria e tem permissão para usar de todo o espaço de trabalho que você acessa. O Microsoft Fabric é uma ótima opção quando você deseja criar uma solução de análise única e unificada.
O Azure Databricks é uma implementação do Azure da popular plataforma Databricks . O Databricks é uma solução abrangente de análise de dados construída no Apache Spark e oferece recursos SQL nativos, bem como clusters Spark otimizados para carga de trabalho para análise de dados e ciência de dados. O Databricks fornece uma interface de usuário interativa através da qual o sistema pode ser gerenciado e os dados podem ser explorados em notebooks interativos. Devido ao seu uso comum em várias plataformas de nuvem, convém considerar o uso do Azure Databricks como seu repositório analítico se quiser usar a experiência existente com a plataforma ou se precisar operar em um ambiente multicloud ou dar suporte a uma solução portátil em nuvem.
Nota
Cada um desses serviços pode ser pensado como um armazenamento de dados analíticos, no sentido de que eles fornecem um esquema e interface através dos quais os dados podem ser consultados. Em muitos casos, no entanto, os dados são realmente armazenados em um data lake e o serviço é usado para processar os dados e executar consultas. Algumas soluções podem até combinar o uso desses serviços. Um processo de ingestão de extrair, carregar e transformar (ELT) pode copiar dados para o data lake e, em seguida, usar um desses serviços para transformar os dados e outro para consultá-los. Por exemplo, um pipeline pode usar um bloco de anotações em execução no Azure Databricks para processar um grande volume de dados no data lake e, em seguida, carregá-lo em tabelas em um Microsoft Fabric Warehouse.