Introdução
A ciência de dados é um campo multidisciplinar que usa métodos científicos, processos, algoritmos e ferramentas para extrair conhecimentos e insights de dados estruturados e não estruturados.
Em um projeto típico de ciência de dados, é uma prática comum começar com a Análise Exploratória de Dados (EDA), que envolve entender os padrões, detectar anomalias, testar hipóteses e verificar suposições relacionadas aos dados subjacentes.
Os insights obtidos com o EDA podem orientar os cientistas de dados na escolha dos modelos estatísticos ou de machine learning apropriados que melhor se encaixam nos dados.
Os notebooks do Microsoft Fabric permitem que você integre perfeitamente seus resultados de exploração a um fluxo de trabalho de ciência de dados. Em seguida, isso pode ser usado para alimentar uma solução de relatórios upstream, como um relatório do Power BI.
Entender o processo de ciência de dados
A exploração de dados é uma investigação preliminar dos dados que define o cenário para todas as etapas subsequentes no processo de ciência de dados.
- Definir o problema: com usuários empresariais e analistas, decida o que o modelo deve prever e quando ele é bem-sucedido.
- Obter os dados: encontre fontes de dados e obtenha acesso armazenando dados em um lakehouse.
- Preparar os dados: explore os dados lendo-os de um lakehouse em um notebook. Limpe e transforme os dados com base nos requisitos do modelo.
- Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro, acompanhando os experimentos com o MLflow.
- Gerar insights: use a pontuação em lote do modelo para gerar as previsões solicitadas.
Nesse módulo, você se concentra em como carregar dados e executar a exploração de dados. Ao trabalhar em um notebook no Microsoft Fabric, você trabalha com o Python para entender diferentes tipos de distribuição de dados. Você aprende o conceito de dados ausentes e estratégias para lidar com dados ausentes com eficiência. Por fim, você visualiza os dados usando várias técnicas e bibliotecas de visualização de dados.