Analisar dados no Power BI

Concluído

A criação de perfil de dados trata do estudo das nuances dos dados: determinar anomalias, examinar e desenvolver as estruturas de dados subjacentes e consultar estatísticas de dados como contagens de linhas, distribuições de valores, valores mínimo e máximo, médias etc. Esse conceito é importante, porque permite que você formate e organize os dados, de modo que a interação com eles e a identificação da distribuição deles seja descomplicada, ajudando a minimizar os esforços ao trabalhar com os dados no front-end para desenvolver elementos de relatório.

Suponha que você esteja desenvolvendo relatórios para a equipe de Vendas na sua organização.  Você não tem certeza de como os dados estão estruturados e contidos dentro das tabelas e, portanto, deseja criar o perfil dos dados nos bastidores antes de começar a desenvolver os visuais.  O Power BI tem uma funcionalidade inerente que torna essas tarefas simples e amigáveis.

Examinar as estruturas de dados

Antes de começar a examinar os dados no Editor do Power Query, primeiro, você deverá aprender mais sobre as estruturas de dados subjacentes nas quais os dados são organizados. Você pode ver o modelo semântico atual na guia Modelo no Power BI Desktop.

Na guia Modelo, você pode editar propriedades de tabela e coluna específicas selecionando uma tabela ou algumas colunas e transformar os dados usando o botão Transformar Dados, que levará você para o Editor do Power Query. Além disso, você pode gerenciar, criar, editar e excluir relações entre tabelas diferentes usando Gerenciar Relações, localizada na faixa de opções.

Localizar anomalias e estatísticas de dados

Depois de criar uma conexão com uma fonte de dados e selecionar Transformar Dados, você será levado ao Editor do Power Query, no qual poderá determinar se existem anomalias nos dados.  As anomalias de dados são exceções nos dados. Determinar quais são essas anomalias pode ajudar você a identificar a aparência da distribuição normal dos dados e se há pontos de dados específicos que você precisa investigar mais detalhadamente. O Editor do Power Query determina as anomalias de dados usando o recurso Distribuição de Coluna.

Selecione Exibir na faixa de opções e, em Visualização de Dados, escolha uma entre algumas opções. Para entender as anomalias e as estatísticas de dados, selecione as opções Distribuição de Colunas, Qualidade da Coluna e Perfil da Coluna.  A figura a seguir mostra as estatísticas exibidas.

A Qualidade da coluna e a Distribuição da coluna são mostradas nos grafos acima das colunas de dados. A Qualidade da coluna mostra os percentuais de dados válidos, com erro e vazios. Em uma situação ideal, você deseja que 100% dos dados sejam válidos.

Observação

Por padrão, o Power Query examina as primeiras 1000 linhas do seu conjunto de dados. Para alterar isso, selecione o status de criação de perfil na barra de status e selecione Criação de perfil de coluna com base em todo o conjunto de dados. ]

A Distribuição de colunas mostra a distribuição dos dados dentro da coluna e as contagens de valores distintos e exclusivos, ambos os quais podem informar detalhes sobre as contagens de dados. Os valores distintos são todos os valores em uma coluna, incluindo duplicatas e valores nulos. Já os valores exclusivos não incluem duplicatas nem nulos. Portanto, a opção distintos nessa tabela informa a contagem total de valores presentes, enquanto exclusivos informa quantos desses valores só aparecem uma vez.

O Perfil da coluna fornece uma análise mais detalhada das estatísticas dentro das colunas para as primeiras mil linhas de dados. Essa coluna fornece vários valores diferentes, incluindo a contagem de linhas, que é importante ao verificar se a importação dos dados foi bem-sucedida. Por exemplo, se o banco de dados original tiver 100 linhas, você poderá usar essa contagem de linhas para verificar se as 100 linhas foram, de fato, importadas corretamente. Além disso, essa contagem de linhas mostrará quantas linhas o Power BI considerou como exceções, além de linhas e cadeias de caracteres vazias, bem como valores mínimos e máximos. Tudo isso vai informar o menor e o maior valor em uma coluna, respectivamente. Essa distinção é particularmente importante no caso de dados numéricos, pois notificará você imediatamente se você tiver um valor máximo que está além do que sua empresa identifica como um "máximo". Esse valor chama a atenção desses valores, o que significa que você pode concentrar seus esforços ao se aprofundar nos dados.  No caso em que os dados estavam na coluna de texto, como visto na imagem anterior, o valor mínimo é o primeiro valor e o valor máximo é o último valor em ordem alfabética.

Além disso, o grafo Distribuição de valores informa as contagens para cada valor distinto nessa coluna específica. Ao observar o gráfico da imagem anterior, observe que a distribuição de valores indica que "Anthony Gross" aparece o maior número de vezes na coluna SalesPerson e que "Lily Code" aparece o menor número de vezes. Essas informações são particularmente importantes porque identificam as exceções.  Se um valor aparecer muito mais vezes do que outros valores em uma coluna, o recurso Distribuição de valores permitirá que você identifique um local para começar a investigar por que isso ocorre.

Em uma coluna numérica, as Estatísticas das Colunas também incluirão quantos zeros e valores nulos existem, juntamente com o valor médio na coluna, o desvio padrão dos valores na coluna e quantos valores pares e ímpares estão na coluna. Essas estatísticas dão uma ideia da distribuição de dados dentro da coluna e são importantes porque resumem os dados na coluna e servem como ponto de partida para determinar quais são as exceções.

Por exemplo, ao examinar os dados da fatura, perceba que o gráfico de Distribuição de valor mostra que alguns vendedores na coluna SalesPerson aparecem o mesmo número de vezes nos dados. Além disso, você percebe que a mesma situação ocorreu na coluna Profit e em algumas outras tabelas também. Durante a investigação, você descobre que os dados que estava usando eram dados inválidos e precisavam ser atualizados e, portanto, fez a atualização imediatamente. Sem ver esse grafo, talvez você não tivesse visto esse erro tão rapidamente e, por esse motivo, a distribuição de valores é essencial.

Depois de concluir as edições no Editor do Power Query e estiver pronto para começar a criar visuais, retorne à Página Inicial na faixa de opções do Editor do Power Query. Selecione Fechar e Aplicar, o que levará você ao Power BI Desktop, e as edições/as transformações de colunas também serão aplicadas.

Agora você determinou os elementos que compõem os dados de criação de perfil no Power BI, que incluem carregar dados no Power BI, interrogar as propriedades da coluna para obter clareza, fazer edições adicionais no tipo e no formato dos dados nas colunas, localizar anomalias de dados e exibir estatísticas de dados no Editor do Power Query. Com esse conhecimento, você pode incluir no seu kit de ferramentas a capacidade de estudar seus dados de maneira eficiente e eficaz.