Como acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

Artigo
08/16/2024

A ferramenta Data Wrangler é um recurso baseado em notebooks que oferece uma interface imersiva para análise de dados exploratória. Esse recurso combina uma exibição de dados em formato de grade com estatísticas de resumo dinâmicas, visualizações internas e uma biblioteca de operações comuns de limpeza de dados. É possível aplicar cada operação com poucas etapas. Você pode atualizar a exibição dos dados em tempo real e gerar código no Pandas ou no PySpark. Além disso, esse código pode ser salvo novamente no notebook como uma função com capacidade de reutilização. Este artigo tem como foco a exploração e a transformação de DataFrames do Pandas. Para obter mais informações sobre como usar o Data Wrangler em DataFrames do Spark, acesse este recurso.

Pré-requisitos

Obtenha uma assinatura do Microsoft Fabric. Ou, inscreva-se para uma avaliação gratuita do Microsoft Fabric.
Entre no Microsoft Fabric.
Use o seletor de experiência no canto inferior esquerdo da sua página inicial para alternar para o Fabric.

Limitações

No momento, há suporte para operações de código personalizadas apenas para DataFrames do pandas.
A exibição do Data Wrangler funciona melhor em monitores de grandes dimensões, embora seja possível minimizar ou ocultar diferentes partes da interface para se ajustar a telas menores.

Como iniciar o Data Wrangler

Você pode iniciar o Data Wrangler diretamente de um notebook do Microsoft Fabric para explorar e transformar qualquer DataFrame do pandas ou Spark. Para obter mais informações sobre como usar o Data Wrangler com DataFrames do Spark, acesse este artigo de complemento. Este snippet de código demonstra como realizar a leitura de dados de amostra em um DataFrame do Pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na guia “Início” da faixa de opções do notebook, use o menu de solicitação suspenso do Data Wrangler para navegar pelos DataFrames ativos disponíveis para edição. Selecione o que você deseja abrir no Data Wrangler.

Dica

O Data Wrangler não pode ser aberto enquanto o kernel do notebook estiver ocupado. Uma célula em execução deve concluir a execução antes que o Data Wrangler possa iniciar, conforme mostrado nesta captura de tela:

Como escolher exemplos personalizados

Para abrir uma amostra personalizada de qualquer DataFrame ativo com o Data Wrangler, selecione “Escolher amostra personalizada” no menu suspenso, como mostrado nesta captura de tela:

Isso abrirá uma janela pop-up com opções para especificar o tamanho da amostra desejada (número de linhas) e o método de amostragem (primeiros registros, últimos registros ou um conjunto aleatório). As primeiras 5 mil linhas do DataFrame servem como o tamanho padrão da amostra, conforme mostrado nesta captura de tela:

Exibindo estatísticas de resumo

Ao carregar o Data Wrangler, é exibida uma visão geral descritiva do DataFrame selecionado no painel “Resumo”. Esta visão geral contém informações sobre as dimensões do DataFrame, os valores ausentes e mais dados relevantes. A seleção de uma coluna na grade do Data Wrangler faz com que o painel “Resumo” se atualize e exiba estatísticas descritivas sobre a coluna em específico. Insights rápidos sobre cada coluna também estão disponíveis em seu cabeçalho.

Dica

As estatísticas e os elementos visuais específicos de cada coluna (tanto no painel “Resumo” quanto nos cabeçalhos das colunas) dependem dos tipos de dados da coluna. Por exemplo, um histograma com compartimento de uma coluna numérica aparece no cabeçalho da coluna somente se a coluna estiver convertida como um tipo numérico, conforme mostrado nesta captura de tela:

Operações de limpeza de dados de navegação

Uma lista pesquisável de etapas de limpeza de dados pode ser encontrada no painel “Operações”. Usando o painel “Operações”, a seleção de uma etapa de limpeza de dados solicita que você forneça uma ou mais colunas de destino, juntamente com os parâmetros necessários para concluir a etapa. Por exemplo, a solicitação para escalar numericamente uma coluna requer um novo intervalo de valores, conforme mostrado nesta captura de tela:

Dica

É possível aplicar uma seleção reduzida de operações usando o menu de cada cabeçalho de coluna, como mostrado nesta captura de tela:

Visualizar e aplicar operações

A grade de exibição do Data Wrangler realiza uma pré-visualização automática dos resultados de uma operação selecionada, e o código correspondente aparece automaticamente no painel abaixo da grade. Para confirmar o código visualizado, selecione "Aplicar" em ambos os lugares. Para excluir o código gerado na pré-visualização e tentar realizar uma nova operação, selecione “Descartar”, como mostrado nesta captura de tela:

Depois que uma operação é aplicada, a grade de exibição e as estatísticas resumidas do Data Wrangler são atualizadas para refletir os resultados. O código aparece na lista em execução de operações confirmadas, localizada no painel “Etapas de limpeza”, como mostrado nesta captura de tela:

Dica

É possível desfazer a última etapa aplicada a qualquer momento.. No painel “Etapas de limpeza”, um ícone de lixeira aparecerá se você passar o mouse sobre a última etapa aplicada, como mostrado nesta captura de tela:

Esta tabela faz um resumo das operações com suporte por parte do Data Wrangler atualmente:

Operação	Descrição
Sort	Classificar uma coluna em ordem crescente ou decrescente
Filter	Filtrar linhas com base em uma ou mais condições
Codificação One-Hot	Criar novas colunas para cada valor exclusivo em uma coluna existente, indicando a presença ou ausência desses valores por linha
Codificação one-hot com delimitador	Dividir e codificar dados categóricos únicos usando um delimitador
Alterar tipo de coluna	Alterar o tipo de dados de uma coluna
Soltar coluna	Exclua uma ou mais colunas
Selecionar coluna	Escolher uma ou mais colunas para manter e excluir o restante
Renomear coluna	Renomear uma coluna
Descartar valores ausentes	Remover linhas com valores ausentes
Soltar linhas duplicadas	Remover todas as linhas que têm valores duplicados em uma ou mais colunas
Preencher valores ausentes	Substituir células por valores ausentes por um novo valor
Localizar e substituir	Substituir células por um padrão de correspondência exato
Agrupar por coluna e agregação	Agrupar por valores de coluna e resultados agregados
Remover espaço em branco	Remover espaço em branco do início e do fim do texto
Dividir o texto	Dividir uma coluna em várias colunas com base em um delimitador definido pelo usuário
Converter texto em minúsculas	Converter texto em minúsculas
Converter texto em maiúsculas	Converter texto em MAIÚSCULAS
Valores mín./máx. da escala	Dimensionar uma coluna numérica entre um valor mínimo e máximo
Preenchimento relâmpago	Criar automaticamente uma nova coluna com base em exemplos derivados de uma coluna existente

Modifique sua exibição

A qualquer momento, é possível personalizar a interface ao usar a guia “Exibições” na barra de ferramentas localizada acima da grade de exibição do Data Wrangler. Isso pode ocultar ou exibir diferentes painéis com base em suas preferências e no tamanho da tela, como mostrado nesta captura de tela:

Salvar e exportar código

A barra de ferramentas acima da grade de exibição do Data Wrangler fornece opções para salvar o código gerado. É possível copiar o código para a área de transferência ou exportá-lo para o notebook como uma função. Exportar o código fecha o Data Wrangler e adiciona a nova função a uma célula de código no notebook. Você também pode baixar o DataFrame limpo como um arquivo csv.

Dica

O Data Wrangler gera um código que é aplicado somente quando você realiza a execução manual da nova célula, e não substitui o DataFrame original, como mostrado nesta captura de tela:

Em seguida, você pode realizar a execução do código exportado, conforme mostrado nesta captura de tela:

Para experimentar o Data Wrangler em DataFrames do Spark, acesse este artigo de complemento
Para obter uma demonstração em tempo real do Data Wrangler no Fabric, confira este vídeo dos nossos amigos do Guy in a Cube
Para experimentar o Data Wrangler no Visual Studio Code, acesse Data Wrangler no VS Code
Sentiu falta de algum recurso? Envie para nós. Deixe-nos saber! Sugira-o no fórum de ideias do Fabric

Compartilhar via

Como acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

Pré-requisitos

Limitações

Como iniciar o Data Wrangler

Como escolher exemplos personalizados

Exibindo estatísticas de resumo

Operações de limpeza de dados de navegação

Visualizar e aplicar operações

Modifique sua exibição

Salvar e exportar código

Comentários

Recursos adicionais

Compartilhar via

Como acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

Pré-requisitos

Limitações

Como iniciar o Data Wrangler

Como escolher exemplos personalizados

Exibindo estatísticas de resumo

Operações de limpeza de dados de navegação

Visualizar e aplicar operações

Modifique sua exibição

Salvar e exportar código

Conteúdo relacionado

Comentários

Recursos adicionais