Limpe e transforme dados com Power Query Editor

Concluído

Agora que nos conectamos a uma fonte de dados usando o Microsoft Power BI Desktop, é necessário ajustar os dados para que atendam às nossas necessidades. Às vezes, ajustar significa transformar os dados ao, por exemplo, renomear colunas ou tabelas, converter texto em números, remover linhas ou definir a primeira linha como cabeçalho.

O Power Query Editor no Power BI Desktop usa muitos menus de atalho (também conhecidos como menus do botão direito do mouse ou de contexto) e também disponibiliza tarefas na faixa de opções. A maioria das opções da guia Transformar na faixa de opções também pode ser selecionada clicando com o botão direito em um item (como uma coluna) e, depois, selecionando um comando no menu de atalho exibido.

Moldar dados

Ao moldar os dados no Power Query Editor, você fornece instruções passo a passo para o Power Query Editor ajustar os dados conforme eles são carregados e apresentados. A fonte de dados original não é afetada. Apenas essa exibição específica dos dados é ajustada, ou moldada.

As etapas especificadas (por exemplo, renomear uma tabela, transformar um tipo de dados ou excluir colunas) são registradas pelo Power Query Editor. Em seguida, são executadas sempre que a consulta se conecta à fonte de dados, para que os dados estejam sempre moldados da maneira especificada por você. Esse processo ocorre sempre que você usa a consulta no Power BI Desktop ou quando outra pessoa usar a sua consulta compartilhada (por exemplo, no serviço do Power BI). Essas etapas são capturadas sequencialmente em Etapas aplicadas no painel de Configurações do Power Query.

A imagem a seguir mostra o painel Config. de Consulta de uma consulta moldada. Vamos detalhar cada uma das etapas nos próximos parágrafos.

Configurações de consulta

Vamos voltar aos dados de aposentadoria que encontramos ao nos conectarmos à fonte de dados Web e vamos moldá-los para atender às nossas necessidades.

Observação

Confira a página da unidade anterior se você não tiver baixado o conjunto de dados de exemplo.

Os dados precisam ser números. Eles estão corretos nesse caso, mas se você precisar alterar o tipo de dados, clique com o botão direito do mouse no cabeçalho da coluna e selecione Alterar Tipo > Número Inteiro. Se você precisar alterar mais de uma coluna, selecione uma delas e, com a tecla Shift pressionada, selecione outras colunas adjacentes. Depois, clique com o botão direito no cabeçalho de uma coluna para alterar todas as colunas selecionadas. Também é possível usar a tecla Ctrl para selecionar colunas não adjacentes.

Tipo alterado da etapa aplicada

Observação

Normalmente, o Power Query detecta que uma coluna de texto deveria ser de números e altera automaticamente o tipo de dados ao inserir a tabela no Power Query Editor. Nesse caso, uma etapa em Etapas aplicadas identifica o que o Power Query fez para você.

Também é possível alterar, ou transformar, essas colunas de texto para cabeçalho usando a guia Transformar na faixa de opções. A imagem a seguir mostra a guia Transformar. A caixa vermelha realça o botão Tipo de Dados, que permite transformar o tipo de dados atual em outro.

A faixa de opções de Transformar e o botão Tipo de Dados

Observe que a lista Etapas Aplicadas no painel Config. de Consulta reflete todas as alterações feitas. Para remover qualquer etapa do processo de moldagem, basta selecioná-la e, depois, selecionar o X à esquerda.

Janela Configurações de Consulta

Conectar-se aos dados

Os dados sobre estados diferentes são interessantes e serão úteis para a criação de outras consultas e esforços de análise. Mas há um problema: a maioria dos dados usa uma abreviação de duas letras para códigos de estado, e não o nome completo do estado. Portanto, precisamos de alguma maneira de associar nomes de estado às suas abreviações.

Estamos com sorte: outra fonte de dados pública faz exatamente isso, porém é necessária bastante moldagem para que possamos conectá-la à nossa tabela de aposentadoria. Este é o recurso da Web para abreviações de estado:

http://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations

No Power Query Editor, na guia Página Inicial na faixa de opções, selecione Nova Fonte > Web. Depois, insira o endereço e selecione OK. A janela Navegador mostra o que encontrou nessa página da Web.

Abreviações de estados dos EUA do site

Selecione a tabela Códigos e abreviações..., pois ela inclui os dados que queremos, mas precisaremos moldá-la bastante para reduzir esses dados.

Selecione Carregar para inserir os dados no Power Query Editor para que possamos moldá-los. Depois, execute estas etapas:

  • Remova as três primeiras linhas: elas são resultado do modo de criação da tabela da página da Web, e não precisamos delas. Para removê-las, na guia Página Inicial da faixa de opções, selecione Remover Linhas > Remover Linhas Principais. Na caixa de diálogo que aparece, insira 3 como o número de linhas para remoção.

    Remover linhas principais

  • Remova as últimas 26 linhas: todas essas linhas se referem a territórios, e não precisamos inclui-las. O processo é o mesmo, mas desta vez, selecione Remover Linhas > Remover Linhas Inferiores e insira 26 como o número de linhas para remoção.

    Remover linhas inferiores

  • Filtrar Washington, D.C.: a tabela de estatísticas de aposentadoria não inclui Washington, D.C., então o excluiremos da nossa lista. Selecione a seta suspensa ao lado da coluna Estado federal e desmarque a caixa de seleção Distrito federal.

    Remover uma linha que contém um determinado valor

  • Remover algumas colunas desnecessárias – só precisamos do mapeamento de cada estado para sua abreviação oficial de duas letras, e essa informação é fornecida na primeira e na quarta coluna. Portanto, precisamos manter apenas essas duas colunas e remover todas as outras. Selecione a primeira coluna a ser removida, mantenha pressionada a tecla Ctrl e selecione as outras colunas a serem removidas (assim você pode selecionar várias colunas não adjacentes). Em seguida, na guia Página Inicial da faixa de opções, selecione Remover Colunas > Remover Colunas.

    Remover colunas específicas

  • Use a primeira linha como cabeçalho: como removemos as três primeiras linhas, a primeira linha atual é o cabeçalho que queremos. Selecione o botão Usar a Primeira Linha como Cabeçalho.

    Usar a primeira linha como cabeçalho

    Observação

    Agora é um bom momento para destacar que a sequência de etapas aplicadas no Power Query Editor é importante e pode afetar como os dados são moldados. Também é importante considerar como uma etapa pode afetar outra etapa subsequente. Se você remover uma etapa da lista Etapas Aplicadas, talvez as etapas subsequentes não se comportem conforme pretendido originalmente, devido ao impacto da sequência de etapas da consulta.

  • Renomear as colunas e a própria tabela: como de costume, há duas maneiras de renomear uma coluna. Use a sua preferida. Vamos renomeá-las como State Name (Nome do Estado) e State Code (Código do Estado). Para renomear a tabela, basta inserir o nome no campo Nome no painel Config. Consulta. Chamaremos esta tabela de StateCodes.

    Renomear colunas

Combinar dados

Agora que a tabela StateCodes está moldada, podemos combinar nossas duas tabelas em uma. Como as tabelas que temos são o resultado das consultas que aplicamos aos dados, elas são chamadas normalmente de consultas.

Há duas maneiras principais de combinar consultas: mesclando e acrescentando.

Para adicionar uma ou mais colunas a outra consulta, mescle as consultas. Para adicionar linhas de dados adicionais a uma consulta existente, acrescente à consulta.

Nesse caso, queremos mesclar as consultas. Para começar, selecione a consulta na qual a outra consulta será mesclada. Depois, na guia Página Inicial na faixa de opções, selecione Mesclar Consultas. Primeiro, vamos selecionar nossa consulta de aposentadoria. Já que estamos nela, vamos renomeá-la como RetirementStats.

Botão Mesclar Consultas

A caixa de diálogo Mesclar é exibida, solicitando a seleção da tabela a ser mesclada à tabela selecionada, e as colunas correspondentes a serem usadas para a mesclagem.

Selecione Estado na tabela RetirementStats (consulta) e selecione a consulta StateCodes. (Neste caso, a escolha é fácil porque há apenas uma outra consulta. Mas quando você se conectar a várias fontes de dados, haverá muitas consultas para escolha.) Após selecionar as colunas correspondentes corretas – Estado de RetirementStats e State Name de StateCodes – a caixa de diálogo Mesclar terá esta aparência, e o botão OK ficará disponível.

Caixa de diálogo Mesclar

Uma NewColumn é criada no final da consulta, e é o conteúdo da tabela (consulta) que foi mesclada com a consulta existente. Todas as colunas da consulta mesclada são condensadas na NewColumn, mas você pode expandir a tabela e incluir quaisquer colunas que quiser. Para expandir a tabela mesclada e selecionar as colunas para inclusão, selecione o ícone de expansão (ícone de expansão). A caixa de diálogo Expandir é exibida.

Caixa de diálogo Expandir

Nesse caso, queremos apenas a coluna State Code. Portanto, selecione apenas essa coluna e, em seguida, selecione OK. Você também pode desmarcar a caixa de seleção Usar nome da coluna original como prefixo. Se você deixá-la marcada, a coluna mesclada será nomeada como NewColumn.State Code (o nome da coluna original ou NewColumn, seguido por um ponto e depois o nome da coluna que está sendo introduzida na consulta).

Observação

Se quiser, você poderá explorar um pouco a maneira de inserir a tabela NewColumn. Se você não gostar do resultado, exclua a etapa Expandir da lista Etapas Aplicadas no painel Configurações de Consulta. Sua consulta retorna para o estado em que estava antes da aplicação dessa etapa. Você pode recomeçar quantas vezes quiser, até que o processo de expansão fique do jeito que você quer.

Agora temos uma única consulta (tabela) que combina duas fontes de dados, cada uma moldada para atender às nossas necessidades. Essa consulta pode servir como base para muitas conexões de dados adicionais e interessantes, como estatísticas de custo de moradia, dados demográficos ou oportunidades de trabalho em qualquer estado.

Para aplicar as alterações no Power Query Editor e carregá-las no Power BI Desktop, selecione Fechar e Aplicar na guia Página Inicial da faixa de opções.

Fechar e aplicar as configurações de dados

Agora, os dados em seu modelo estão prontos para uso. Em seguida, criaremos alguns visuais para o seu relatório.

Por enquanto, temos dados o suficiente para criar alguns relatórios interessantes, tudo no Power BI Desktop. Como este é um marco, vamos salvar esse arquivo do Power BI Desktop. Selecione Arquivo > Salvar na guia Página Inicial da faixa de opções para salvar o relatório. Vamos chamá-lo de Introdução ao Power BI Desktop.

Ótimo! Agora vamos para a próxima unidade, na qual criaremos alguns visuais interessantes.