Descrever os principais conceitos da modelagem de dados
Os modelos analíticos permitem estruturar dados para dar suporte à análise. Os modelos são baseados em tabelas de dados relacionadas e definem os valores numéricos que você deseja analisar ou relatar (conhecidos como medidas) e as entidades que serão usadas para fazer a agregação (conhecidas como dimensões). Por exemplo, um modelo pode incluir uma tabela contendo medidas numéricas para vendas (como receita ou quantidade) e dimensões para produtos, clientes e tempo. Isso permite agregar medidas de venda em uma ou mais dimensões (por exemplo, para identificar a receita total por cliente ou o total de itens vendidos por produto, por mês). Conceitualmente, o modelo forma uma estrutura multidimensional, que normalmente é conhecida como cubo, no qual qualquer ponto em que as dimensões se cruzam representa uma medida agregada para essas dimensões)
Observação
Embora normalmente o modelo analítico seja referenciado como um cubo, pode haver mais (ou menos) que três dimensões, só não é fácil visualizar mais de três.
Tabelas e esquema
As tabelas de dimensões representam as entidades pelas quais as medidas numéricas são agregadas. Por exemplo, produto ou cliente. Cada entidade é representada por uma linha com um valor de chave exclusivo. As colunas restantes representam atributos de uma entidade. Por exemplo, os produtos têm nomes e categorias e os clientes têm endereços e cidades. É comum que a maioria dos modelos analíticos inclua uma dimensão de tempo para agregar medidas numéricas associadas a eventos ao longo do tempo.
As medidas numéricas que serão agregadas pelas várias dimensões no modelo são armazenadas em tabelas de fatos. Cada linha em uma tabela de fatos representa um evento gravado com medidas numéricas associadas. Por exemplo, a tabela Vendas no esquema abaixo representa as transações de vendas de itens individuais e inclui valores numéricos para quantidade vendida e receita.
Esse tipo de esquema, em que uma tabela de fatos está relacionada a uma ou mais tabelas de dimensões, é chamado de esquema em estrela (imagine que no esquema há cinco dimensões relacionadas a uma só tabela de fatos, formando uma estrela de cinco pontos). Você também pode definir um esquema mais complexo, no qual as tabelas de dimensões estão relacionadas a tabelas adicionais que contêm mais detalhes (por exemplo, você pode representar atributos de categorias de produto em uma tabela Category separada relacionada à tabela Product; nesse caso, o design é chamado de esquema floco de neve. O esquema de tabelas de fatos e dimensões é usado para criar um modelo analítico, no qual as agregações de medida em todas as dimensões são pré-calculadas; tornando o desempenho de atividades de análise e geração de relatório muito mais rápido do que calcular as agregações a cada vez.)
Hierarquias de atributo
Mais uma coisa que vale a pena considerar sobre os modelos analíticos é a criação de hierarquias de atributo que permitem fazer drill up ou drill down rapidamente para encontrar valores agregados em diferentes níveis em uma dimensão hierárquica. Por exemplo, considere os atributos nas tabelas de dimensões que discutimos até agora. Na tabela Produto, você pode formar uma hierarquia na qual cada categoria pode incluir vários produtos nomeados. Da mesma forma, na tabela Cliente, uma hierarquia pode ser formada para representar vários clientes nomeados em cada cidade. Por fim, na tabela Tempo, você pode formar uma hierarquia de ano, mês e dia. O modelo pode ser criado com valores pré-agregados para cada nível de uma hierarquia, o que permite alterar rapidamente o escopo da análise, por exemplo, exibindo o total de vendas por ano e depois fazendo drill down para ver um detalhamento maior do total de vendas por mês.
Modelagem analítica no Microsoft Power BI
Você pode usar o Power BI para definir um modelo analítico usando tabelas de dados, que podem ser importadas de uma ou mais fontes de dados. Depois, você pode usar a interface de modelagem de dados na guia Modelo do Power BI Desktop para definir o modelo analítico criando relações entre tabelas de fatos e de dimensões, definindo hierarquias, configurando tipos de dados e formatos de exibição para campos nas tabelas e gerenciando outras propriedades dos dados que ajudam a definir um modelo rico para análise.