Executar a exploração de dados
O Data Wrangler facilita a exploração dos seus dados com uma interface de grade fácil de usar que apresenta dinamicamente estatísticas resumidas dos seus dados.
Por meio da exploração visual de estatísticas resumidas, os cientistas de dados podem selecionar os modelos de machine learning ou estatísticos apropriados que melhor se ajustam aos dados. Por exemplo, alguns modelos presumem que os dados são normalmente distribuídos e podem não ter um bom desempenho se essa suposição for violada.
Dica
Para obter mais informações sobre os princípios básicos da exploração de dados usando notebooks, consulte Explorar os dados para ciência de dados com notebooks do Microsoft Fabric.
Exibir estatísticas resumidas
Para fins de demonstração, vamos gerar alguns dados aleatórios para simular um cenário hipotético envolvendo preços de casas em um determinado bairro.
import pandas as pd
import numpy as np
# Set the seed
np.random.seed(0)
# Define the size of the dataset
size = 500
# Generate random data
data = {
'Size': np.random.randint(1000, 4001, size, dtype=int) // 10 * 10, # any integer value between 1000 and 4000, with multiple of 10
'Bedrooms': np.random.choice([2, 4, 3, 2, 1], size),
'YearBuilt': np.random.randint(1980, 2021, size), # any integer value between 1980 and 2020
'Price': np.random.normal(loc=110000, scale=20000, size=size), # normally distributed prices
'Type': np.random.choice(['Single Family', 'Townhouse', 'Condo', 'Duplex'], size) # type of the house
}
# Create a DataFrame
df = pd.DataFrame(data)
Para exibir as estatísticas resumidas do dataframe df
, selecione Dados na faixa de opções do notebook e, em seguida, Iniciar o Data Wrangler para o dataframe df
.
Para variáveis numéricas, a grade exibe um histograma, contagens de valores ausentes e únicos, bem como os valores mínimo e máximo. Quando se trata de variáveis categóricas, a grade oferece insights sobre a proporção de cada categoria dentro da variável.
O painel Resumo fornece estatísticas descritivas detalhadas e é atualizado dinamicamente à medida que você seleciona diferentes colunas na grade.
Agrupar e agregar dados
Alternativamente, você pode aplicar a agregação em seus dados usando o operador Agrupar por e agregar no painel de operadores.
No nosso cenário de preços de casas, imagine que precisamos da média de preços de casas por tipo.
Em apenas alguns segundos, podemos configurar o operador de agrupamento e agregação,no qual o código é gerado automaticamente para você. Além disso, a grade mostra os novos dados em verde e as colunas que serão removidas em vermelho.
Uma vez aplicado o operador, é assim que a grade final deverá aparecer.
Nesse ponto, você deve decidir gerar o código ou fazer o download do dataframe transformado como um arquivo de valores separados por vírgula (CSV).
Gerar código
No Data Wrangler, quando você usa qualquer operador interno ou personalizado, o dataframe não é alterado até que você adicione e execute o código gerado em seu notebook.
Uma vez que tenha aplicado todos os operadores para transformar os dados, selecione + Adicionar o código ao notebook na barra de ferramentas acima da grade do Data Wrangler. Isso gera uma função que pode ser executada no seu pipeline de dados.
Esse recurso simplifica as tarefas de exploração e pré-processamento de dados em seu fluxo de trabalho de ciência de dados.