Formatar os dados iniciais

Concluído

O Editor do Power Query no Power BI Desktop permite-lhe formatar (transformar) os seus dados importados. Pode efetuar ações como mudar o nome de colunas ou tabelas, alterar texto para números, remover linhas, definir a primeira linha como cabeçalho e muito mais. É importante formatar os seus dados para garantir que correspondem às suas necessidades e que são adequados para utilizar em relatórios.

Carregou dados de vendas não processados de duas origens para um modelo do Power BI.  Alguns dos dados foram importados de um ficheiro .cvs criado manualmente no Microsoft Excel pela equipa de vendas.  Os outros dados foram carregados através de uma ligação a um sistema de Planeamento de Recursos Empresariais (ERP) da sua organização.  Agora, quando analisa os dados no Power BI Desktop, repara que estão desorganizados: alguns dados não são necessários e alguns dados necessários estão no formato errado.

Precisa de utilizar o Editor do Power Query para limpar e formatar estes dados antes de começar a criar relatórios.

Introdução ao Editor do Power Query

Para começar a formatar os seus dados, abra Editor do Power Query ao selecionar a opção Transformar dados no separador Base do Power BI Desktop.

No Editor do Power Query, os dados na consulta selecionada são apresentados no meio do ecrã e, no lado esquerdo, o painel Consultas lista as consultas (tabelas) disponíveis.

Quando trabalha no Editor do Power Query, todos os passos que segue para formatar os seus dados são registados. Depois, de cada vez que a consulta se liga à origem de dados, aplica automaticamente os seus passos, para que os dados estejam sempre formatados conforme especificou.  O Editor do Power Query só faz alterações a uma vista particular dos seus dados, para que possa sentir-se confiante em relação às alterações que estão a ser aplicadas à sua origem de dados inicial. Pode ver uma lista dos seus passos no lado direito do ecrã, no painel Definições da Consulta , juntamente com as propriedades da consulta.

O friso do Editor do Power Query contém muitos botões que pode utilizar para selecionar, ver e formatar os seus dados.

Para saber mais sobre as funcionalidades e funções disponíveis, consulte o friso A consulta.

Nota

No Editor do Power Query, os menus de contexto do clique com o botão direito do rato e o separador Transformar no friso fornecem muitas das mesmas opções.

Identificar nomes e cabeçalhos de colunas

O primeiro passo na formatação dos seus dados iniciais é identificar os nomes e cabeçalhos das colunas nos dados e, em seguida, avaliar onde estão localizados para garantir que estão no local certo.

Na captura de ecrã seguinte, os dados de origem no ficheiro csv de SalesTarget (amostra não disponibilizada) tinham um destino categorizado por produtos e uma subcategoria dividida por meses, ambos organizados em colunas.

No entanto, pode reparar que os dados não foram importados como esperado.

Consequentemente, os dados são difíceis de ler. Ocorreu um problema com os dados no estado atual porque os cabeçalhos de coluna estão em linhas diferentes (marcadas a vermelho) e várias colunas têm nomes não descritivos, como Coluna1, Coluna2 e assim sucessivamente.

Após identificar a localização dos nomes e cabeçalhos das colunas, pode fazer alterações para reorganizar os dados.

Promover cabeçalhos

Quando uma tabela é criada no Power BI Desktop, o Editor do Power Query assume que todos os dados pertencem a linhas da tabela. No entanto, uma origem de dados poderá ter uma primeira linha que contém nomes de colunas, o que aconteceu com o ficheiro SalesTarget do exemplo anterior.  Para corrigir esta imprecisão, precisa de promover a primeira linha da tabela a cabeçalho da coluna.

Pode promover cabeçalhos de duas formas: selecionando a opção Utilizar Primeira Linha como Cabeçalhos no separador Base ou selecionando o botão pendente junto a Coluna1 e, em seguida, selecionando Utilizar Primeira Linha como Cabeçalhos.

A imagem seguinte ilustra como a funcionalidade Utilizar Primeira Linha como Cabeçalhos afeta os dados:

Mudar o nome das colunas

O próximo passo na formação dos seus dados é examinar os cabeçalhos das colunas. Poderá descobrir que uma ou mais colunas têm os cabeçalhos errados, um cabeçalho tem um erro ortográfico ou a convenção de nomenclatura do cabeçalho não é consistente ou intuitiva.

Veja a captura de ecrã anterior, que mostra o impacto da funcionalidade Utilizar Primeira Linha como Cabeçalhos . Repare que a coluna que contém os dados do Nome da subcategoria tem agora Mês como cabeçalho de coluna. Este cabeçalho da coluna está incorreto, por isso é necessário mudar-lhe o nome.

Pode mudar o nome dos cabeçalhos das colunas de duas formas. Uma abordagem é clicar com o botão direito do rato no cabeçalho, selecionar Mudar o nome, editar o nome e, em seguida, premir Enter. Em alternativa, pode fazer duplo clique no cabeçalho da coluna e substituir o nome pelo nome correto.

Também pode resolver este problema ao remover (ignorar) as duas primeiras linhas e, em seguida, mudar o nome das colunas para o nome correto.

Remover as primeiras linhas

Ao formatar os seus dados, poderá precisar de remover algumas das primeiras linhas. Por exemplo, se estiverem em branco ou tiverem dados dos quais não precisa nos seus relatórios.

Se continuarmos com o exemplo do ficheiro SalesTarget, repare que a primeira linha está em branco (não tem dados) e a segunda linha tem dados que já não são necessários.

Para remover estas linhas em excesso, selecione Remover Linhas>Remover Linhas Superiores no separador Base .

Remover colunas

Um passo fundamental no processo de formatação de dados é remover as colunas desnecessárias.  O melhor é remover as colunas o mais cedo possível. Uma forma de remover as colunas seria ao limitar a coluna quando obtém os dados da origem de dados. Por exemplo, se estiver a extrair dados de uma base de dados relacional com o SQL, pode limitar a coluna que vai extrair ao utilizar uma lista de colunas na instrução SELECT.

Remover colunas numa fase inicial do processo é melhor do que numa fase mais avançada, especialmente quando estabeleceu relações entre as suas tabelas. Remover colunas desnecessárias irá ajudá-lo a concentrar-se nos dados de que precisa e ajudar a melhorar o desempenho geral dos seus Power BI Desktop modelos semânticos e relatórios.

Examine todas as colunas e verifique se precisa mesmo dos dados que contêm. Se não planear utilizar esses dados num relatório, a coluna não adiciona nenhum valor ao modelo semântico. Portanto, a coluna deve ser removida.  Pode sempre adicionar a coluna mais tarde, se os seus requisitos se alterarem no futuro.

Pode remover colunas de duas formas. O primeiro método é selecionar as colunas que pretende remover e, em seguida, no separador Base , selecione Remover Colunas.

Em alternativa, pode selecionar as colunas que pretende manter e, em seguida, no separador Base , selecione Remover Colunas>Remover Outras Colunas.

Anular dinamização das colunas

A opção Anular dinamização é uma funcionalidade útil do Power BI. Pode utilizar esta funcionalidade com dados de qualquer origem de dados, mas maioritariamente ao importar dados do Excel. O exemplo seguinte mostra um documento de exemplo do Excel com dados de vendas.

Apesar de os dados fazerem sentido inicialmente, seria difícil criar um total de todas as vendas combinadas de 2018 e 2019. O seu objetivo seria utilizar estes dados no Power BI em três colunas: Month (Mês), Year (Ano) e SalesAmount (Montante de Vendas).

Ao importar os dados para o Power Query, ficará com um aspeto semelhante ao da imagem seguinte.

Em seguida, mude o nome da primeira coluna para Month (Mês). Esta coluna foi mal etiquetada porque o cabeçalho no Excel estava a etiquetar as colunas 2018 e 2019. Selecione as colunas 2018 e 2019, selecione o separador Transformar no Power Query e, em seguida, selecione Anular dinamização.

Pode mudar o nome da coluna Attribute (Atributo) para Year (Ano) e a coluna Value (Valor) para SalesAmount (Montante de Vendas).

A opção Anular dinamização simplifica o processo de criação de medidas DAX nos dados posteriormente. Ao concluir este processo, criou uma forma mais simples de fragmentar os dados com as colunas Year (Ano) e Month (Mês).

Colunas Pivot

Se os dados que está a formar são simples (ou seja, têm muitos detalhes, mas não estão organizados ou agrupados de forma especifica), a falta de estrutura pode complicar a sua capacidade de identificar padrões nos dados.

Pode utilizar a funcionalidade Coluna Dinâmica para converter os seus dados simples numa tabela que contém um valor agregado para cada valor exclusivo numa coluna. Por exemplo, poderá querer utilizar esta funcionalidade para resumir dados através de diferentes funções matemáticas, como Contagem, Mínimo, Máximo, Mediana, Média ou Soma.

No exemplo de SalesTarget, pode dinamizar as colunas para obter a quantidade de subcategorias do produto em cada categoria de produto.

No separador Transformar , selecione Transformar > Colunas Dinâmicas.

Na janela Coluna Dinâmica apresentada, selecione uma coluna na lista Coluna de Valores , como Nome da Subcategoria. Expanda as opções avançadas e selecione uma opção na lista Agregar Função de Valor , como Contar (Tudo) e, em seguida, selecione OK.

A imagem seguinte ilustra como a funcionalidade Coluna Dinâmica muda a forma como os dados são organizados.

Editor do Power Query regista todos os passos que efetua para formatar os seus dados e a lista de passos é apresentada no painel Definições da Consulta. Se tiver feito todas as alterações necessárias, selecione Fechar & Aplicar para fechar Editor do Power Query e aplicar as alterações ao modelo semântico. No entanto, antes de selecionar Fechar & Aplicar, pode tomar mais medidas para limpar e transformar os seus dados no Editor do Power Query.  Estes passos adicionais serão abordados mais à frente neste módulo.