Introdução
A ciência de dados é um campo multidisciplinar que usa métodos científicos, processos, algoritmos e ferramentas para extrair conhecimentos e insights de dados estruturados e não estruturados.
Em um projeto típico de ciência de dados, é uma prática comum começar com a análise exploratória de dados (EDA), que envolve entender padrões, detectar anomalias e verificar suposições relacionadas aos dados subjacentes.
Depois de ter esse entendimento, você poderá passar para a fase de pré-processamento. É aqui que você aborda os problemas de qualidade de dados identificados durante a EDA e prepara seus dados para modelagem. O pré-processamento transforma dados brutos em um formato compreensível para algoritmos de aprendizado de máquina, o que melhora sua capacidade de fazer previsões precisas.
O Data Wrangler no Microsoft Fabric fornece uma experiência gráfica em que você pode facilmente gerar código para fins de exploração e pré-processamento e garante que seus dados estão na melhor forma possível antes de serem usados para treinar um modelo de machine learning.
Entender o processo de ciência de dados
O pré-processamento de dados é uma preparação preliminar dos dados que define o estágio para todas as etapas subsequentes no processo de ciência de dados.
- Definir o problema: com usuários empresariais e analistas, decida o que o modelo deve prever e quando ele é bem-sucedido.
- Obter os dados: encontre fontes de dados e obtenha acesso armazenando dados em um lakehouse.
- Preparar os dados: explore os dados lendo-os de um lakehouse em um notebook. Limpe e transforme os dados com base nos requisitos do modelo.
- Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro, acompanhando os experimentos com o MLflow.
- Gerar insights: use a pontuação em lote do modelo para gerar as previsões solicitadas.
Neste módulo, o foco é pré-processar dados usando o Data Wrangler. Você trabalha em um bloco de anotações do Microsoft Fabric usando o Data Wrangler e o Python para exploração de dados. Você aprenderá a gerenciar dados ausentes e usar vários operadores para transformar dados para um pipeline de criação de modelos. Por fim, você tem experiência prática no pré-processamento de dados usando o Data Wrangler nos notebooks do Microsoft Fabric por meio de um exercício prático.