Cenário de ponta a ponta da ciência de dados: introdução e arquitetura

Artigo
02/03/2025

Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementa cada etapa, desde ingestão, limpeza e preparação de dados, até treinamento de modelos de machine learning e geração de insights e, em seguida, consome esses insights usando ferramentas de visualização como o Power BI.

Se você é novo no Microsoft Fabric, veja O que é o Microsoft Fabric?.

Introdução

O ciclo de vida de um projeto de ciência de dados normalmente inclui (geralmente, iterativamente) as seguintes etapas:

Compreensão de negócios
Aquisição de dados
Exploração, limpeza, preparação e visualização de dados
Treinamento de modelos e acompanhamento de experimentos
Avaliação de modelos e geração de insights.

As metas e os critérios de êxito de cada estágio dependem da colaboração, do compartilhamento de dados e da documentação. A experiência de ciência de dados do Fabric consiste em vários recursos nativos que permitem colaboração, aquisição de dados, compartilhamento e consumo de maneira direta.

Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados que contém o status de rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de machine learning para prever quais clientes do banco provavelmente sairão.

Você aprenderá a executar as seguintes atividades:

Use os blocos de anotações do Fabric para cenários de ciência de dados.
Ingerir dados em um Fabric Lakehouse usando o Apache Spark.
Carregue dados existentes das tabelas Delta do lakehouse.
Limpe e transforme dados usando ferramentas baseadas em Apache Spark e Python.
Crie experimentos e execuções para treinar diferentes modelos de machine learning.
Registre e acompanhe modelos treinados usando o MLflow e a interface do usuário do Fabric.
Execute a pontuação em escala e salve resultados de previsões e inferências no lakehouse.
Visualizar previsões no Power BI usando o DirectLake.

Arquitetura

Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:

Componentes diferentes do cenário de ciência de dados

Fontes de dados – O Fabric facilita e rapidamente a conexão com os Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais das quais ingerir dados. Usando o Fabric Notebooks, você pode ingerir dados do Lakehouse interno, data warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra na ingestão e no carregamento de dados de um lakehouse.

Explorar, limpar e preparar – a experiência de ciência de dados no Fabric dá suporte à limpeza, transformação, exploração e featurização de dados usando funcionalidades nativas do Spark, bem como ferramentas que utilizam Python, como Data Wrangler e SemPy Library. Este tutorial mostrará a exploração de dados usando a biblioteca python seaborn e a limpeza e preparação de dados usando o Apache Spark.

Modelos e experimentos – O Fabric permite que você treine, avalie e marque modelos de machine learning usando itens de teste e modelo internos com integração perfeita com do MLflow para acompanhamento de experimentos e registro/implantação de modelo. O Fabric também apresenta recursos para previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.

Armazenamento – o Fabric é padronizado no Delta Lake, o que significa que todos os mecanismos do Fabric podem interagir com o mesmo conjunto de dados armazenados em um lakehouse. Essa camada de armazenamento permite que você armazene dados estruturados e não estruturados que dão suporte ao armazenamento baseado em arquivo e ao formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.

Expor análises e insights – os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta líder de business intelligence do setor, para relatórios e visualização. Os dados persistentes no lakehouse também podem ser visualizados em notebooks usando bibliotecas de visualização nativas do Spark ou python, como matplotlib, seaborn, plotlye muito mais. Os dados também podem ser visualizados usando a biblioteca SemPy que dá suporte a visualizações avançadas e específicas de tarefas internas para o modelo de dados semânticos, para dependências e suas violações e para casos de uso de classificação e regressão.

Próxima etapa

Preparar seu sistema para o tutorial de ciência de dados

Compartilhar via

Cenário de ponta a ponta da ciência de dados: introdução e arquitetura

Introdução

Arquitetura

Componentes diferentes do cenário de ciência de dados

Próxima etapa

Comentários

Recursos adicionais