Entenda o Estruturador de Dados

Concluído

O Estruturador de Dados é uma ferramenta compilada em notebooks do Microsoft Fabric que oferece uma plataforma abrangente para tarefas exploratórias e de pré-processamento. Ele oferece uma exibição de dados, estatísticas de resumo dinâmico, visualizações integradas e uma biblioteca de operações comuns de pré-processamento de dados.

Cada operação atualiza a exibição de dados em tempo real e gera um código reutilizável que pode ser salvo novamente no notebook. Com uma interface amigável, ele é uma ferramenta eficiente para cientistas de dados lidarem com grandes volumes de dados, transformando dados brutos em um conjunto de dados pronto para análise.

Pense no Estruturador de Dados como uma ferramenta que gera código para suas necessidades de exploração e pré-processamento de dados.

Observação

Atualmente, o Estruturador de Dados dá suporte apenas ao dataframe do Pandas.

Trabalhar com o Estruturador de Dados

O Estruturador de Dados pode ajudar na fase de pré-processamento da criação de um modelo de machine learning, fornecendo ferramentas e funcionalidades para limpeza de dados, definição de recursos, exploração de dados e melhoria da eficiência no pré-processamento de dados.

  • Exploração de dados: A exibição de dados como grade da ferramenta permite explorar visualmente seus dados, o que pode levar a insights sobre variáveis.

  • Limpeza de dados: O Estruturador de Dados fornece uma biblioteca de operações comuns de limpeza de dados, facilitando o tratamento de valores ausentes, exceções e tipos de dados incorretos.

  • Definição de recursos: Com suas visualizações integradas e estatísticas de resumo dinâmico, o Estruturador de Dados pode ajudá-lo a entender a distribuição de seus dados e criar recursos.

O Estruturador de Dados pode ajudar a garantir que seus dados estejam na melhor forma possível antes de serem usados para treinar um modelo de machine learning. Isso pode levar a modelos mais precisos e melhores previsões.

Iniciar o Estruturador de Dados a partir de um notebook

Para iniciar o Estruturador de Dados no Microsoft Fabric, siga essas etapas.

  1. Alterne do Power BI para a Ciência de Dados utilizando o ícone do alternador de experiências no lado esquerdo da sua página inicial. Depois, crie um notebook.

  2. Leia seus dados em um DataFrame do Pandas em um notebook do Microsoft Fabric.

    import pandas as pd
    df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
    
    Add another dataset example.
    
  3. Depois que os dados forem carregados em um dataframe, selecione Dados na faixa de opções do notebook.

  4. Selecione Iniciar Estruturador de Dados e, em seguida, selecione o dataframe que deseja abrir no Estruturador de Dados. Se você tiver vários dataframes, todos eles serão exibidos.

    Animated GIF showing multiple dataframes to open in Data Wrangler.

Dica

A extensão do Estruturador de Dados para Visual Studio Code permite a integração do Estruturador de Dados no VS Code e Jupyter Notebooks no VS Code.

Trabalhar com operadores

Imagine que você esteja trabalhando em um grande conjunto de dados para um projeto crítico. Os dados precisam ser muito trabalhados. Você tem valores ausentes, linhas duplicadas e colunas que precisam ser renomeadas. Além disso, você precisa transformar alguns dados categóricos em um formato que seu modelo de machine learning possa entender.

É aí que entra o Estruturador de Dados. Com o mínimo de esforço, você pode classificar e filtrar linhas, fazer codificação one-hot de dados categóricos, alterar tipos de coluna, remover colunas desnecessárias, renomear colunas, lidar com valores ausentes e muito mais. Além de facilitar essas tarefas, o Estruturador de Dados também gera código Python reutilizável para cada operação, que você pode salvar de volta em seu notebook. Isso significa que você pode automatizar tarefas de processamento de dados para conjuntos de dados futuros.

Aqui estão as categorias de operadores que estão atualmente disponíveis no Estruturador de Dados.

Categoria Descrição
Localizar e Substituir Inclui operações como remover linhas duplicadas, manipular valores ausentes e localizar e substituir valores.
Formato Envolve transformações de texto, como conversão para maiúsculas/minúsculas, divisão de texto, remoção de espaço em branco e transformações automáticas com tecnologia de Preenchimento Relâmpago da Microsoft.
Fórmulas Permite a criação de colunas usando fórmulas do Python personalizadas, binarizador de vários rótulos, codificação one-hot e cálculo do comprimento do texto.
Numérico Inclui operações como arredondamento (para cima, para baixo ou para o número mais próximo) e escala de valores mín./max.
Esquema Permite alterações no esquema do DataFrame, como alterar o tipo de coluna, clonar/remover/renomear/selecionar colunas.
Classificar e Filtrar Inclui operações para filtrar e classificar valores.
Others Inclui operações personalizadas para modificar o dataframe, agrupar e agregar, e criar colunas automáticas com tecnologia de Preenchimento Relâmpago da Microsoft.

Nas próximas unidades, exploraremos uma variedade de operadores e obteremos insights sobre como eles podem facilitar as tarefas de pré-processamento para a criação de modelos preditivos.