Partilhar via


Cenário completo de ciência de dados: introdução e arquitetura

Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementa cada etapa, desde a ingestão, limpeza e preparação de dados até o treinamento de modelos de aprendizado de máquina e a geração de insights e, em seguida, consome esses insights usando ferramentas de visualização como o Power BI.

Se você é novo no Microsoft Fabric, consulte O que é o Microsoft Fabric?.

Introdução

O ciclo de vida de um projeto de ciência de dados normalmente inclui (muitas vezes, iterativamente) as seguintes etapas:

  • Compreensão do negócio
  • Aquisição de dados
  • Exploração, limpeza, preparação e visualização de dados
  • Treinamento de modelos e acompanhamento de experimentos
  • Modelagem de pontuação e geração de insights.

Os objetivos e critérios de sucesso de cada etapa dependem da colaboração, compartilhamento de dados e documentação. A experiência de ciência de dados do Fabric consiste em vários recursos criados nativamente que permitem colaboração, aquisição de dados, compartilhamento e consumo de forma contínua.

Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados contendo o status de rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de aprendizado de máquina para prever quais clientes bancários provavelmente sairão.

Você aprenderá a realizar as seguintes atividades:

  1. Use os notebooks Fabric para cenários de ciência de dados.
  2. Ingerir dados num lakehouse do Fabric usando Apache Spark.
  3. Carregue os dados existentes das tabelas delta lakehouse.
  4. Limpe e transforme dados usando Apache Spark e ferramentas baseadas em Python.
  5. Crie experimentos e execuções para treinar diferentes modelos de aprendizado de máquina.
  6. Registre e acompanhe modelos treinados usando MLflow e a interface do usuário do Fabric.
  7. Execute a pontuação em escala e salve previsões e resultados de inferência para a casa do lago.
  8. Visualize previsões no Power BI usando o DirectLake.

Arquitetura

Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:

  1. Ingerir dados de uma fonte de dados externa.
  2. Explore e limpe os dados.
  3. Treinar e registrar modelos de aprendizado de máquina.
  4. Execute a pontuação em lote e salve previsões.
  5. Visualizar resultados de previsão no Power BI.

Diagrama dos componentes do cenário de ponta a ponta da ciência de dados.

Diferentes componentes do cenário de ciência de dados

Fontes de dados - O Fabric torna fácil e rápido conectar-se aos Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais para ingerir dados. Usando o Fabric Notebooks, você pode ingerir dados do Lakehouse, Data Warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra na ingestão e carregamento de dados de uma casa de lago.

Explore, limpe e prepare - A experiência de ciência de dados na plataforma Fabric suporta a limpeza, transformação, exploração e criação de características dos dados através de experiências integradas no Spark, bem como nas ferramentas baseadas em Python como o Data Wrangler e a SemPy Library. Este tutorial mostrará a exploração de dados usando seaborn de biblioteca Python e limpeza e preparação de dados usando o Apache Spark.

Modelos e experimentos - O Fabric permite treinar, avaliar e pontuar modelos de aprendizado de máquina usando experimentos e itens de modelo integrados com integração perfeita com MLflow para rastreamento de experimentos e registro/implantação de modelos. O Fabric também apresenta recursos de previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.

Storage - Fabric padroniza-se em Delta Lake, o que significa que todos os motores do Fabric podem interagir com o mesmo conjunto de dados armazenado em um lakehouse. Essa camada de armazenamento permite armazenar dados estruturados e não estruturados que suportam armazenamento baseado em arquivo e formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.

Exponha análises e insights - Os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta de business intelligence líder do setor, para geração de relatórios e visualização. Os dados persistentes no lakehouse também podem ser visualizados em notebooks usando bibliotecas de visualização nativas do Spark ou Python como matplotlib, seaborn, plotlye muito mais. Os dados também podem ser visualizados usando a biblioteca SemPy que oferece suporte a visualizações ricas e internas, específicas para tarefas, para o modelo de dados semânticos, para dependências e suas violações, e para casos de uso de classificação e regressão.

Próximo passo