Cenário de ponta a ponta da ciência de dados: introdução e arquitetura
Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementa cada etapa, desde ingestão, limpeza e preparação de dados, até treinamento de modelos de machine learning e geração de insights e, em seguida, consome esses insights usando ferramentas de visualização como o Power BI.
Se você é novo no Microsoft Fabric, veja O que é o Microsoft Fabric?.
Introdução
O ciclo de vida de um projeto de ciência de dados normalmente inclui (geralmente, iterativamente) as seguintes etapas:
- Compreensão de negócios
- Aquisição de dados
- Exploração, limpeza, preparação e visualização de dados
- Treinamento de modelos e acompanhamento de experimentos
- Avaliação de modelos e geração de insights.
As metas e os critérios de êxito de cada estágio dependem da colaboração, do compartilhamento de dados e da documentação. A experiência de ciência de dados do Fabric consiste em vários recursos nativos que permitem colaboração, aquisição de dados, compartilhamento e consumo de maneira direta.
Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados que contém o status de rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de machine learning para prever quais clientes do banco provavelmente sairão.
Você aprenderá a executar as seguintes atividades:
- Use os blocos de anotações do Fabric para cenários de ciência de dados.
- Ingerir dados em um Fabric Lakehouse usando o Apache Spark.
- Carregue dados existentes das tabelas Delta do lakehouse.
- Limpe e transforme dados usando ferramentas baseadas em Apache Spark e Python.
- Crie experimentos e execuções para treinar diferentes modelos de machine learning.
- Registre e acompanhe modelos treinados usando o MLflow e a interface do usuário do Fabric.
- Execute a pontuação em escala e salve resultados de previsões e inferências no lakehouse.
- Visualizar previsões no Power BI usando o DirectLake.
Arquitetura
Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:
- Ingerir dados de uma fonte de dados externa.
- Explorar e limpar dados.
- Treinar e registrar modelos de machine learning.
- Executar a pontuação em lote e salvar previsões.
- Visualizar os resultados da previsão no Power BI.
Componentes diferentes do cenário de ciência de dados
Fontes de dados – O Fabric facilita e rapidamente a conexão com os Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais das quais ingerir dados. Usando o Fabric Notebooks, você pode ingerir dados do Lakehouse interno, data warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra na ingestão e no carregamento de dados de um lakehouse.
Explorar, limpar e preparar – a experiência de ciência de dados no Fabric dá suporte à limpeza, transformação, exploração e featurização de dados usando funcionalidades nativas do Spark, bem como ferramentas que utilizam Python, como Data Wrangler e SemPy Library. Este tutorial mostrará a exploração de dados usando a biblioteca python seaborn
e a limpeza e preparação de dados usando o Apache Spark.
Modelos e experimentos – O Fabric permite que você treine, avalie e marque modelos de machine learning usando itens de teste e modelo internos com integração perfeita com do MLflow para acompanhamento de experimentos e registro/implantação de modelo. O Fabric também apresenta recursos para previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.
Armazenamento – o Fabric é padronizado no Delta Lake, o que significa que todos os mecanismos do Fabric podem interagir com o mesmo conjunto de dados armazenados em um lakehouse. Essa camada de armazenamento permite que você armazene dados estruturados e não estruturados que dão suporte ao armazenamento baseado em arquivo e ao formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.
Expor análises e insights – os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta líder de business intelligence do setor, para relatórios e visualização. Os dados persistentes no lakehouse também podem ser visualizados em notebooks usando bibliotecas de visualização nativas do Spark ou python, como matplotlib
, seaborn
, plotly
e muito mais. Os dados também podem ser visualizados usando a biblioteca SemPy que dá suporte a visualizações avançadas e específicas de tarefas internas para o modelo de dados semânticos, para dependências e suas violações e para casos de uso de classificação e regressão.