Introdução

4 minutos

A ciência de dados é um campo multidisciplinar que usa métodos científicos, processos, algoritmos e ferramentas para extrair conhecimentos e insights de dados estruturados e não estruturados.

Em um projeto típico de ciência de dados, é uma prática comum começar com a análise exploratória de dados (EDA), que envolve entender padrões, detectar anomalias e verificar suposições relacionadas aos dados subjacentes.

Depois de ter esse entendimento, você poderá passar para a fase de pré-processamento. É aqui que você aborda os problemas de qualidade de dados identificados durante a EDA e prepara seus dados para modelagem. O pré-processamento transforma dados brutos em um formato compreensível para algoritmos de aprendizado de máquina, o que melhora sua capacidade de fazer previsões precisas.

O Data Wrangler no Microsoft Fabric fornece uma experiência gráfica em que você pode facilmente gerar código para fins de exploração e pré-processamento e garante que seus dados estão na melhor forma possível antes de serem usados para treinar um modelo de machine learning.

Entender o processo de ciência de dados

O pré-processamento de dados é uma preparação preliminar dos dados que define o estágio para todas as etapas subsequentes no processo de ciência de dados.

Diagram of sequential steps in the data science process.

Definir o problema: com usuários empresariais e analistas, decida o que o modelo deve prever e quando ele é bem-sucedido.
Obter os dados: encontre fontes de dados e obtenha acesso armazenando dados em um lakehouse.
Preparar os dados: explore os dados lendo-os de um lakehouse em um notebook. Limpe e transforme os dados com base nos requisitos do modelo.
Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro, acompanhando os experimentos com o MLflow.
Gerar insights: use a pontuação em lote do modelo para gerar as previsões solicitadas.

Neste módulo, o foco é pré-processar dados usando o Data Wrangler. Você trabalha em um bloco de anotações do Microsoft Fabric usando o Data Wrangler e o Python para exploração de dados. Você aprenderá a gerenciar dados ausentes e usar vários operadores para transformar dados para um pipeline de criação de modelos. Por fim, você tem experiência prática no pré-processamento de dados usando o Data Wrangler nos notebooks do Microsoft Fabric por meio de um exercício prático.

Introdução

Entender o processo de ciência de dados

Comentários