Dados de perfil no Power BI
A análise para otimização dos dados estuda as nuances dos dados: detetar anomalias, examinar e desenvolver as estruturas de dados subjacentes e consultar dados estatísticos, tais como contagens de linhas, distribuição de valores, valores máximos e mínimos, médias, entre outros. Este conceito é importante uma vez que permite moldar e organizar os dados, de modo que a interação com os dados e a identificação da distribuição dos dados é simples, o que ajuda a facilitar o processamento dos dados de front-end para desenvolver elementos de relatório.
Imagine que está a desenvolver relatórios para a equipa de vendas da sua organização. Não tem a certeza de como estão estruturados nem quais são os conteúdos dos dados das tabelas, pelo que pretende analisar os dados antes de começar a desenvolver os elementos visuais. O Power BI tem uma funcionalidade inerente que faz com que estas tarefas sejam de utilização fácil.
Analisar estruturas de dados
Antes de começar a analisar os dados no Editor do Power Query, deve aprender primeiro as estruturas dos dados subjacentes em que os dados estão organizados. Pode ver o modelo semântico atual no separador Modelo no Power BI Desktop.
No separador Modelo, pode editar propriedades de colunas e tabelas específicas ao selecionar uma tabela ou colunas e pode transformar os dados com o botão Transformar Dados, que o leva a Editor do Power Query. Além disso, pode gerir, criar, editar e eliminar relações entre diferentes tabelas com Gerir Relações, que se encontra no friso.
Localizar anomalias e estatísticas de dados
Após criar uma ligação a uma origem de dados e selecionar Transformar Dados, será aberto o Editor do Power Query, onde poderá verificar se existem anomalias nos dados. As anomalias dos dados são valores atípicos nos seus dados. Detetar quais são essas anomalias pode ajudá-lo a identificar qual é a distribuição normal dos seus dados e que pontos de dados específicos existem que precisam de mais investigação. Editor do Power Query determina anomalias de dados com a funcionalidade Distribuição de Colunas.
Selecione Ver no friso e, em Pré-visualização de Dados, pode escolher entre algumas opções. Para compreender as anomalias de dados e as estatísticas, selecione as opções Distribuição de Colunas, Qualidade da Coluna e Perfil de Coluna . A figura seguinte mostra as estatísticas apresentadas.
A qualidade das colunas e a distribuição de colunas são apresentadas nos gráficos acima das colunas de dados. A qualidade das colunas mostra-lhe as percentagens de dados que são válidas, por erro e vazias. O ideal seria que 100% dos dados fossem válidos.
Nota
Por predefinição, Power Query examina as primeiras 1000 linhas do conjunto de dados. Para alterar esta definição, selecione o estado da criação de perfis na barra de estado e selecione Criação de perfis da coluna com base no conjunto de dados completo. ]
A Distribuição de Colunas mostra-lhe a distribuição dos dados na coluna e faz a contagem de valores distintos ou exclusivos, que lhe podem indicar detalhes acerca das contagens de dados. Os valores distintos são todos os diferentes valores numa coluna, incluindo duplicados e valores nulos, enquanto os valores exclusivos não incluem duplicados ou nulos. Por conseguinte, a diferença nesta tabela indica-lhe a contagem total de quantos valores estão presentes, enquanto exclusivo indica quantos desses valores só aparecem uma vez.
O perfil de coluna dá-lhe uma análise mais aprofundada das estatísticas nas colunas das primeiras 1000 linhas de dados. Esta coluna indica vários valores diferentes, incluindo a contagem de linhas, que é importante quando verifica se a importação dos seus dados foi bem sucedida. Por exemplo, se a sua base de dados original tiver 100 linhas, pode utilizar esta contagem de linhas para verificar se as 100 linhas foram importadas corretamente. Além disso, esta contagem de linhas mostrará quantas linhas o Power BI considerou serem valores atípicos, linhas vazias e cadeias, e o mínimo e o máximo, o que lhe indicará o menor e maior valor numa coluna, respetivamente. Esta distinção é particularmente importante no caso dos dados numéricos, uma vez que o notificará imediatamente se tiver um valor máximo que ultrapasse o que a sua empresa identifica como um "máximo". Este valor chama a sua atenção para estes valores, o que significa que pode concentrar os seus esforços ao aprofundar os dados. No caso dos dados estarem na coluna de texto, como mostra a imagem anterior, o valor mínimo é o primeiro valor e o valor máximo é o último valor, quando em ordem alfabética.
Além disso, o gráfico Distribuição de valores indica-lhe as contagens para cada valor distinto nessa coluna específica. Ao observar o gráfico na imagem anterior, repare que a distribuição de valores indica que "Anthony Gross" aparece no maior número de vezes na coluna Vendedor e que "Lily Code" aparece o menor número de vezes. Esta informação é particularmente importante porque identifica valores atípicos. Se um valor aparecer muito mais vezes do que outros valores numa coluna, a funcionalidade Distribuição de valores permite identificar um local para iniciar a sua investigação.
Numa coluna numérica, as Estatísticas das Colunas também incluirão quantos zeros e valores nulos existem, juntamente com o valor médio na coluna, o desvio padrão dos valores na coluna e quantos valores pares e ímpares estão na coluna. Essas estatísticas dão-lhe uma ideia da distribuição dos dados dentro da coluna e são importantes porque resumem os dados na coluna e servem como ponto de partida para determinar quais são os valores atípicos.
Por exemplo, ao analisar os dados da fatura, nota que o gráfico Distribuição de valores mostra que alguns vendedores na coluna Vendedor aparecem o mesmo número de vezes dentro dos dados. Além disso, repara que ocorreu a mesma situação na coluna Lucro e em algumas outras tabelas também. Durante a sua investigação, descobre que os dados que estava a utilizar eram incorretos e precisavam ser atualizados, pelo que os atualiza imediatamente. Sem visualizar este gráfico, podia não ter visto este erro tão rapidamente e, por esse motivo, a distribuição de valores é essencial.
Depois de concluir as suas edições no Editor do Power Query e estar pronto para começar a criar elementos visuais, regresse a Casa no friso Editor do Power Query. Selecione Fechar & Aplicar, o que lhe devolverá Power BI Desktop e quaisquer edições/transformações de colunas também serão aplicadas.
Determinou agora os elementos que compõem a criação de perfis de dados no Power BI, que incluem carregar dados no Power BI, interrogar propriedades de colunas para obter mais clareza e fazer mais edições ao tipo e formato dos dados em colunas, encontrar anomalias de dados e ver estatísticas de dados em Editor do Power Query. Com estas informações, pode incluir no seu conjunto de ferramentas a capacidade de estudar os seus dados de maneira eficiente e eficaz.