Introdução
A ciência de dados é um campo multidisciplinar que usa métodos, processos, algoritmos e ferramentas científicas para extrair conhecimento e insights de dados estruturados e não estruturados.
Em um projeto típico de ciência de dados, é uma prática comum começar com a Análise Exploratória de Dados (EDA), onde envolve a compreensão dos padrões, a deteção de anomalias e a verificação de suposições relacionadas aos dados subjacentes.
Depois de ter esse entendimento, você pode passar para a fase de pré-processamento. É aqui que você aborda os problemas de qualidade de dados identificados durante o EDA e prepara seus dados para modelagem. O pré-processamento transforma dados brutos em um formato compreensível para algoritmos de aprendizado de máquina, o que melhora sua capacidade de fazer previsões precisas.
O Data Wrangler no Microsoft Fabric fornece uma experiência gráfica onde você pode gerar facilmente código para fins de exploração e pré-processamento e garante que seus dados estejam na melhor forma possível antes de serem usados para treinar um modelo de aprendizado de máquina.
Compreender o processo de ciência de dados
O pré-processamento de dados é uma preparação preliminar dos dados que define o cenário para todas as etapas subsequentes do processo de ciência de dados.
- Defina o problema: Juntamente com usuários de negócios e analistas, decida o que o modelo deve prever e quando é bem-sucedido.
- Obtenha os dados: encontre fontes de dados e obtenha acesso armazenando seus dados em uma Lakehouse.
- Prepare os dados: explore os dados lendo-os de uma Lakehouse em um caderno. Limpe e transforme os dados com base nos requisitos do modelo.
- Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro rastreando seus experimentos com MLflow.
- Gerar insights: use a pontuação em lote do modelo para gerar as previsões solicitadas.
Neste módulo, o foco é o pré-processamento de dados usando o Data Wrangler. Você trabalha em um bloco de anotações do Microsoft Fabric, usando o Data Wrangler e o Python para exploração de dados. Você aprende a gerenciar dados ausentes e usar vários operadores para transformar dados para um pipeline de construção de modelos. Por fim, você obtém experiência prática no pré-processamento de dados usando o Data Wrangler em notebooks do Microsoft Fabric por meio de um exercício prático.