Aplicar insights no Power BI para descobrir os locais de variação das distribuições
APLICA-SE A: Power BI Desktop Serviço do Power BI
Muitas vezes nos visuais, você vê um ponto de dados e se pergunta se a distribuição seria a mesma para categorias diferentes. Com o insights no Power BI você pode descobrir isso com apenas alguns cliques.
Considere o visual a seguir, que mostra o TotalSales por CountryName. A maioria das vendas vêm dos Estados Unidos, considerando 57% de todas as vendas com contribuições menores provenientes de outros países/regiões. Em casos como esse, é interessante explorar se essa mesma distribuição seria visualizada em diferentes subpopulações. Por exemplo, ela seria a mesma para todos os anos, todos os canais de vendas e todas as categorias de produtos? Embora seja possível aplicar filtros diferentes e comparar os resultados visualmente, isso pode ser demorado e propenso a erros.
Você pode solicitar que o Power BI localize onde uma distribuição é diferente e obter uma análise rápida, automatizada e informativas sobre seus dados. Clique com o botão direito do mouse em um ponto de dados e selecionar Analisar>Encontrar onde esta distribuição está diferente para o insight ser entregue a você em uma janela fácil de usar.
Nesse exemplo, a análise automatizada mostra que a proporção de vendas para Touring Bikes nos Estados Unidos e no Canadá é menor que a proporção de outros países/regiões.
Usar insights
Para usar os insights a fim de descobrir as diferenças das distribuições vistas em gráficos, basta clicar com o botão direito do mouse em qualquer ponto de dados ou no visual como um todo. Então selecione Analisar>Localizar onde essa distribuição é diferente.
O Power BI executa seus algoritmos de machine learning nos dados. Ele então preenche uma janela com um visual e uma descrição de quais categorias (colunas) e quais valores dessas colunas resultam na distribuição mais significativamente diferente. Os insights são fornecidos como um gráfico de colunas, conforme é mostrado na seguinte imagem:
Os valores com o filtro selecionado aplicado têm a cor padrão. Os valores em geral, como vistos no visual inicial original, são mostrados em cinza para facilitar a comparação. Até três filtros diferentes podem ser incluídos (Touring Bikes, Mountain Bikes e Road Bikes, neste exemplo) e para escolher filtros diferentes selecionando um ponto de dados ou usando Ctrl + clique para selecionar vários.
Para medidas aditivas simples, como Total de Vendas nesse exemplo, a comparação é baseada nos valores relativos, e não nos absolutos. As vendas de Touring Bikes são menores em relação ao total geral de vendas de todas as categorias, porém, o visual, por padrão, usa um eixo duplo para permitir a comparação entre a proporção de vendas de Touring Bikes em diferentes países/regiões. Isso é para o Touring Bikes versus todas as categorias de bicicletas. Mudar a alternância abaixo do visual permite que os dois valores sejam exibidos no mesmo eixo, para comparar os valores absolutos com facilidade, conforme é mostrado na seguinte imagem:
O texto descritivo também indica o nível de importância que pode estar relacionado a um valor de filtro, considerando o número de registros que correspondem ao filtro. Nesse exemplo, você vê que, embora a distribuição de Touring Bikes seja diferente, ela representa apenas 16,6% dos registros.
Os ícones polegar para cima e polegar para baixo na parte superior da página existem para que você possa fornecer comentários sobre o visual e o recurso. Porém, fazer isso não treina o algoritmo para influenciar os resultados retornados na próxima vez que você usar o recurso.
É importante observar que o botão + na parte superior do visual, que permite adicionar o visual selecionado ao relatório, como se você tivesse criado o visual manualmente. Em seguida, você pode formatar ou ajustar o visual adicionado exatamente como faria em qualquer outro visual do relatório. Você só pode adicionar um visual de insight selecionado quando estiver editando um relatório no Power BI.
Você pode usar insights quando o relatório está no modo de leitura ou edição. Isso o torna versátil tanto para analisar dados quanto para criar visuais que você pode adicionar a seus relatórios.
Detalhes dos resultados retornados
Entenda que o algoritmo obtém todas as outras colunas do modelo e aplica todos os valores dessas colunas como filtros ao visual original. O algoritmo então localiza qual desses valores de filtro produz o resultado mais diferente do original.
Provavelmente você está questionando o que significa diferente. Por exemplo, digamos que a divisão geral de vendas entre os EUA e o Canadá seja a seguinte:
País/Região | Vendas ($ milhão) |
---|---|
EUA | 15 |
Canadá | 5 |
Assim, para uma determinada categoria de produto "Road Bike a divisão de vendas pode ser:
País/Região | Vendas ($ milhão) |
---|---|
EUA | 3 |
Canadá | 1 |
Embora os números sejam diferentes em cada uma dessas tabelas, os valores relativos entre os EUA e o Canadá são idênticos: 75% e 25% geral e para Road Bikes. Portanto, elas não são consideradas diferentes. Para medidas aditivas simples como essa, o algoritmo procura as diferenças no valor relativo.
Por outro lado, considere uma medida como a margem calculada como Lucro/Custo. Se as margens gerais para os EUA e o Canadá eram as seguintes:
País/Região | Margem (%) |
---|---|
EUA | 15 |
Canadá | 5 |
Assim, para uma determinada categoria de produto "Road Bike a divisão de vendas pode ser:
País/Região | Margem (%) |
---|---|
EUA | 3 |
Canadá | 1 |
Devido à natureza dessas medidas, isso é curiosamente diferente. Para medidas não aditivas, como nesse exemplo de margem, o algoritmo procura as diferenças no valor absoluto.
Portanto, os visuais exibidos tem como objetivo mostrar as diferenças encontradas entre a distribuição geral, como visto no visual original, e o valor com o determinado filtro aplicado.
Para medidas aditivas, como Vendas no exemplo anterior, um gráfico de colunas e linhas é usado. Lá, o uso de um eixo duplo com escala adequada ocorre de modo que os valores relativos podem ser comparados. As colunas mostram o valor com o filtro aplicado e a linha mostra o valor geral. O eixo da coluna está à esquerda e o eixo da linha está à direita, normalmente. A linha é mostrada usando um estilo de nível, com uma linha tracejada, preenchida com cinza. No exemplo anterior, se o valor máximo do eixo de coluna fosse 4 e o valor máximo do eixo de linha fosse 20, seria fácil comparar os valores relativos entre os EUA e o Canadá para os valores filtrados e geral.
Da mesma forma, para medidas não aditivas, como margem no exemplo anterior, é usado um gráfico de colunas e de linhas, no qual o uso de um único eixo significa que os valores absolutos podem ser comparados facilmente. A linha preenchida com cinza mostra o valor geral. Seja para comparar números reais ou relativos, a determinação do grau em que duas distribuições são diferentes não é simplesmente uma questão de calcular a diferença nos valores. Por exemplo:
Quando o tamanho da população é fatorado, pois uma diferença é que menos significativa estatisticamente e menos interessante quando se aplica a uma proporção menor da população geral. Por exemplo, a distribuição de vendas entre países/regiões pode ser diferente para um produto específico. Isso não seria interessante se houvesse milhares de produtos, de modo que esse produto específico fosse responsável por apenas um pequeno percentual das vendas globais.
As diferenças para essas categorias em que os valores originais são muito altos ou próximos de zero são ponderadas mais do que outras. Por exemplo, se um país contribui ou região apenas com 1% das vendas em geral, mas para um determinado tipo de produto ele contribui com 6%, isso é mais significativo estatisticamente e, portanto, mais interessante do que um país ou região cuja contribuição se altera de 50% para 55%.
Várias heurísticas selecionam os resultados mais relevantes, por exemplo, considerando as outras relações entre os dados.
Depois de examinar as diferentes colunas e os valores de cada uma dessas colunas, o conjunto de valores que fornece as maiores diferenças é escolhido. Para facilitar a compreensão, eles são gerados e agrupados por coluna, com a coluna cujos valores oferecem a maior diferença listados em primeiro lugar. Até três valores são mostrados por coluna, mas um número menor poderá ser mostrado se houver menos de três valores com um grande impacto ou se alguns valores tiverem muito mais impacto do que outros.
Nem sempre todas as colunas no modelo são examinadas no tempo disponível, portanto, não é garantido que as colunas e os valores mais impactantes sejam exibidos. No entanto, várias heurísticas garantem que as colunas mais prováveis sejam examinadas primeiro. Por exemplo, digamos que depois de examinar todas as colunas, seja determinado que as seguintes colunas/os valores apresentam o maior impacto na distribuição, do maior impacto para o menor:
Subcategory = Touring Bikes
Channel = Direct
Subcategory = Mountain Bikes
Subcategory = Road Bikes
Subcategory = Kids Bikes
Channel = Store
Este seria o resultado em ordem de coluna:
Subcategoria: Touring Bikes, Mountain Bikes e Road Bikes (somente três filtros listados com o texto incluindo "... entre outros" para indicar que mais de três opções têm um impacto significativo)
Canal = Direto (somente a opção Direto é listada caso o nível de impacto for maior do que Loja)
Considerações e limitações
A seguinte lista é uma coleção de cenários atualmente sem suporte em insights:
- Filtros TopN
- Filtros de medida
- Medidas não numéricas
- Uso de "Mostrar valor como"
- Medidas filtradas – medidas filtradas são cálculos no nível do visual com um filtro específico aplicado (por exemplo, Total de vendas para a França). Elas são usadas em alguns dos visuais criados pelo recurso de insights
Além disso, atualmente, não há suporte para os seguintes tipos de modelo e fontes de dados em insights:
- DirectQuery
- Live Connect
- Reporting Services local
- Inserção
Conteúdo relacionado
Para saber mais, veja: