O que é Ciência de Dados no Microsoft Fabric?
O Microsoft Fabric oferece experiências de Ciência de Dados para capacitar os usuários a concluir fluxos de trabalho de ciência de dados de ponta a ponta para fins de enriquecimento de dados e insights de negócios. Você pode concluir uma ampla gama de atividades em todo o processo de ciência de dados, desde exploração, preparação e limpeza de dados até experimentação, modelagem, pontuação de modelo e fornecimento de insights preditivos para relatórios de BI.
Os usuários do Microsoft Fabric podem acessar uma home page de ciência de dados. A partir daí, eles podem descobrir e acessar vários recursos relevantes. Por exemplo, eles podem criar experimentos, modelos e blocos de anotações de machine learning. Eles também podem importar blocos de anotações existentes na home page da Ciência de Dados.
Talvez você saiba como funciona um processo típico de ciência de dados. Como um processo conhecido, a maioria dos projetos de machine learning o segue.
Em um alto nível, o processo envolve estas etapas:
- Formulação e ideação de problemas
- Descoberta e pré-processamento de dados
- Experimentação e modelagem
- Enriquecer e operacionalizar
- Obter insights
Este artigo descreve as funcionalidades de Ciência de Dados do Microsoft Fabric de uma perspectiva do processo de ciência de dados. Para cada etapa no processo de ciência de dados, este artigo resume os recursos do Microsoft Fabric que podem ajudar.
Formulação e ideação de problemas
Os usuários de Ciência de Dados no Microsoft Fabric trabalham na mesma plataforma que usuários e analistas de negócios. Como resultado, o compartilhamento e a colaboração de dados tornam-se mais integrados entre diferentes funções. Os analistas podem compartilhar facilmente relatórios e conjuntos de dados do Power BI com profissionais de ciência de dados. A facilidade de colaboração entre funções no Microsoft Fabric facilita muito as entregas durante a fase de formulação do problema.
Descoberta e pré-processamento de dados
Os usuários do Microsoft Fabric podem interagir com dados no OneLake usando o item lakehouse. O Lakehouse anexa-se facilmente a um Notebook para navegar e interagir com os dados.
Os usuários podem ler facilmente dados de um Lakehouse diretamente em um dataframe do Pandas. Para exploração, isso possibilita leituras de dados perfeitas do OneLake.
Há um conjunto avançado de ferramentas disponíveis para pipelines de ingestão e orquestração de dados nos pipelines de integração de dados, uma parte integrada de maneira nativa do Microsoft Fabric. Pipelines de dados fáceis de criar podem acessar e transformar os dados em um formato que o machine learning pode consumir.
Exploração de dados
Uma parte importante do processo de aprendizado de máquina é entender os dados por meio da exploração e visualização.
Dependendo do local de armazenamento de dados, o Microsoft Fabric oferece um conjunto de ferramentas diferentes para explorar e preparar os dados para análise e aprendizado de máquina. Os notebooks se tornam uma das maneiras mais rápidas de começar a explorar dados.
Apache Spark e Python para preparação de dados
O Microsoft Fabric oferece recursos para transformar, preparar e explorar seus dados em escala. Com o Spark, os usuários podem aproveitar as ferramentas PySpark/Python, Scala e SparkR/SparklyR para pré-processamento de dados em escala. Bibliotecas de visualização de software livre avançadas podem aprimorar a experiência de exploração de dados para ajudar a entender melhor os dados.
Data Wrangler para limpeza de dados perfeita
A experiência do Bloco de Anotações do Microsoft Fabric adicionou um recurso para usar o Data Wrangler, uma ferramenta de código que prepara dados e gera código Python. Essa experiência facilita a execução mais rápida de tarefas entediantes e mundanas, por exemplo, limpeza de dados, e promove a repetibilidade e automação por meio do código gerado. Saiba mais sobre o Data Wrangler na seção Data Wrangler deste documento.
Experimentação e modelagem de ML
Com ferramentas como PySpark/Python, SparklyR/R, os notebooks podem lidar com o treinamento de modelo de machine learning.
Algoritmos e bibliotecas de ML podem ajudar a treinar modelos de machine learning. As ferramentas de gerenciamento de bibliotecas podem instalar essas bibliotecas e algoritmos. Os usuários têm, portanto, a opção de aproveitar uma grande variedade de bibliotecas populares de machine learning para concluir seu treinamento de modelo de ML no Microsoft Fabric.
Além disso, bibliotecas populares como o Scikit Learn também podem desenvolver modelos.
Experimentos e execuções do MLflow podem acompanhar o treinamento do modelo de ML. O Microsoft Fabric oferece uma experiência integrada do MLflow com a qual os usuários podem interagir, para registrar experimentos e modelos. Saiba mais sobre como usar o MLflow para acompanhar experimentos e gerenciar modelos no Microsoft Fabric.
SynapseML
A biblioteca de software livre SynapseML (anteriormente conhecida como MMLSpark), que a Microsoft possui e mantém, simplifica a criação de pipeline de machine learning massivamente escalonável. Como um ecossistema de ferramentas, ele expande a estrutura do Apache Spark em várias novas direções. O SynapseML unifica várias estruturas de machine learning existentes e novos algoritmos da Microsoft em uma API única e escalonável. A biblioteca SynapseML de software livre inclui um ecossistema avançado de ferramentas de ML para desenvolvimento de modelos preditivos, além de aproveitar modelos de IA pré-treinados dos serviços de IA do Azure. Saiba mais sobre SynapseML .
Enriquecer e operacionalizar
Os notebooks podem lidar com a pontuação em lote de modelos de aprendizado de máquina usando bibliotecas de código aberto para previsão ou a função universal escalável Spark Predict do Microsoft Fabric, que suporta modelos empacotados do MLflow no registro de modelos do Microsoft Fabric.
Obter insights
No Microsoft Fabric, os valores previstos podem ser facilmente gravados no OneLake e consumidos de maneira integrada por relatórios do Power BI, utilizando o modo Direct Lake do Power BI. Isso torna muito fácil para os profissionais de ciência de dados compartilhar resultados de seu trabalho com os stakeholders e também simplifica a operacionalização.
Notebooks que contêm pontuação em lote podem ser agendados para execução usando os recursos de agendamento do Notebook. A pontuação em lote também pode ser agendada como parte de atividades de pipeline de dados ou trabalhos do Spark. O Power BI obtém automaticamente as previsões mais recentes sem a necessidade de carregar ou atualizar os dados, graças ao modo Direct Lake no Microsoft Fabric.
Exploração de dados com link semântico
Cientistas de dados e analistas de negócios gastam muito tempo tentando entender, limpar e transformar dados antes que eles possam iniciar qualquer análise significativa. Os analistas de negócios normalmente trabalham com modelos semânticos e codificam seus conhecimentos de domínio e lógica de negócios em medidas do Power BI. Por outro lado, os cientistas de dados podem trabalhar com os mesmos dados, mas normalmente em um ambiente de código ou linguagem diferente.
O link semântico permite que os cientistas de dados estabeleçam uma conexão entre modelos semânticos do Power BI e a experiência de Ciência de Dados do Synapse no Microsoft Fabric por meio da biblioteca SemPy Python. O SemPy simplifica a análise de dados capturando e aproveitando a semântica de dados à medida que os usuários realizam várias transformações nos modelos semânticos. Aproveitando o link semântico, os cientistas de dados podem:
- evitar a necessidade de implementar novamente a lógica de negócios e o conhecimento de domínio em seu código
- acessar e usar facilmente as medidas do Power BI em seu código
- usar semântica para alimentar novas experiências, como funções semânticas
- explorar e validar dependências funcionais e relações entre dados
Por meio do uso do SemPy, as organizações podem esperar ver:
- maior produtividade e colaboração mais rápida entre as equipes que operam nos mesmos conjuntos de dados
- maior colaboração cruzada entre equipes de business intelligence e IA
- ambiguidade reduzida e uma curva de aprendizado mais fácil ao integrar em um novo modelo ou conjunto de dados
Para obter mais informações sobre o link semântico, consulte O que é o link semântico?.
Conteúdo relacionado
- Introdução aos exemplos de ciência de dados de ponta a ponta, confira Tutoriais da Ciência de Dados
- Saiba mais sobre a preparação e limpeza de dados com o Data Wrangler, consulte Data Wrangler
- Saiba mais sobre como acompanhar experimentos, consulte experimento de machine learning
- Saiba mais sobre como gerenciar modelos, consulte modelo de machine learning
- Saiba mais sobre a pontuação em lote com Predict, confira Pontuar modelos com PREDICT
- Fornecer previsões do lakehouse para o Power BI com o Modo Direct Lake