Introdução
A ciência de dados é um campo multidisciplinar que usa métodos, processos, algoritmos e ferramentas científicas para extrair conhecimento e insights de dados estruturados e não estruturados.
Em um projeto típico de ciência de dados, é uma prática comum começar com a Análise Exploratória de Dados (EDA), onde envolve a compreensão dos padrões, a deteção de anomalias, o teste de hipóteses e a verificação de suposições relacionadas aos dados subjacentes.
Os insights obtidos com a EDA podem orientar os cientistas de dados na escolha dos modelos estatísticos ou de aprendizado de máquina apropriados que melhor se ajustam aos dados.
Os notebooks Microsoft Fabric permitem que você integre perfeitamente seus resultados de exploração em um fluxo de trabalho de ciência de dados. Isso pode ser usado para alimentar uma solução de relatório upstream, como um relatório do Power BI.
Compreender o processo de ciência de dados
A exploração de dados é uma investigação preliminar dos dados que prepara o terreno para todas as etapas subsequentes do processo de ciência de dados.
- Defina o problema: Juntamente com usuários de negócios e analistas, decida o que o modelo deve prever e quando é bem-sucedido.
- Obtenha os dados: encontre fontes de dados e obtenha acesso armazenando seus dados em uma Lakehouse.
- Prepare os dados: explore os dados lendo-os de uma Lakehouse em um caderno. Limpe e transforme os dados com base nos requisitos do modelo.
- Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro rastreando seus experimentos com MLflow.
- Gerar insights: use a pontuação em lote do modelo para gerar as previsões solicitadas.
Neste módulo, você se concentra em como carregar dados e executar a exploração de dados. Trabalhando em um bloco de anotações no Microsoft Fabric, você trabalha com Python para entender diferentes tipos de distribuição de dados. Você aprende o conceito de dados ausentes e estratégias para lidar com dados ausentes de forma eficaz. Finalmente, você visualiza dados usando várias técnicas e bibliotecas de visualização de dados.