O que é Ciência de Dados no Microsoft Fabric?
O Microsoft Fabric oferece experiências Ciência de Dados para capacitar os usuários a concluir fluxos de trabalho de ciência de dados de ponta a ponta para fins de enriquecimento de dados e insights de negócios. Você pode concluir uma ampla gama de atividades em todo o processo de ciência de dados, desde exploração, preparação e limpeza de dados até experimentação, modelagem, pontuação de modelo e fornecimento de insights preditivos para relatórios do BI.
Os usuários do Microsoft Fabric podem acessar uma página inicial da Ciência de Dados. A partir daí, eles podem descobrir e acessar vários recursos relevantes. Por exemplo, eles podem criar experimentos, modelos e notebooks de aprendizado de máquina. Eles também podem importar blocos de anotações existentes na página inicial da Ciência de Dados.
Talvez você saiba como funciona um processo típico de ciência de dados. Como um processo conhecido, a maioria dos projetos de aprendizado de máquina seguem esse processo.
Em um alto nível, o processo envolve estas etapas:
- Formulação e ideação de problemas
- Descoberta e pré-processamento de dados
- Experimentação e modelagem
- Enriquecimento e operacionalização
- Obter insights
Este artigo descreve os recursos de Ciência de Dados do Microsoft Fabric sob uma perspectiva do processo de ciência de dados. Para cada etapa no processo de ciência de dados, este artigo resume os recursos do Microsoft Fabric que podem ajudar.
Formulação e ideação de problemas
Os usuários da Ciência de Dados do Microsoft Fabric trabalham na mesma plataforma que usuários e analistas de negócios. O compartilhamento de dados e a colaboração se tornam mais contínuos em diferentes funções como resultado. Os analistas podem compartilhar facilmente relatórios e conjuntos de dados do Power BI com profissionais de ciência de dados. A facilidade de colaboração entre funções no Microsoft Fabric facilita muito as entregas durante a fase de formulação do problema.
Descoberta e pré-processamento de dados
Os usuários do Microsoft Fabric podem interagir com os dados no OneLake usando o item lakehouse. O lakehouse anexa-se facilmente a um notebook para navegar e interagir com os dados.
Os usuários podem facilmente ler dados de um lakehouse diretamente em um dataframe do Pandas. Para exploração, isso possibilita leituras de dados perfeitas do OneLake.
Há um conjunto avançado de ferramentas disponíveis para pipelines de ingestão e orquestração de dados nos pipelines de integração de dados, uma parte integrada de maneira nativa do Microsoft Fabric. Pipelines de dados de fácil criação podem acessar e transformar os dados em um formato que o aprendizado de máquina pode consumir.
Exploração de dados
Uma parte importante do processo de machine learning é entender os dados por exploração e visualizações.
Dependendo do local de armazenamento de dados, o Microsoft Fabric oferece um conjunto de ferramentas diferentes para explorar e preparar os dados para análise e aprendizado de máquina. Os notebooks se tornam uma das maneiras mais rápidas de começar a explorar dados.
Apache Spark e Python para preparação de dados
O Microsoft Fabric oferece funcionalidades para transformar, preparar e explorar seus dados em escala. Com o Spark, os usuários podem aproveitar as ferramentas PySpark/Python, Scala e SparkR/SparklyR para pré-processamento de dados em escala. Bibliotecas avançadas de visualização de software livre podem aprimorar a experiência de exploração de dados para ajudar a entender melhor os dados.
Data Wrangler para limpeza contínua de dados
A experiência de notebook do Microsoft Fabric adicionou um recurso para usar o Data Wrangler, uma ferramenta de código que prepara dados e gera código Python. Essa experiência facilita a aceleração de tarefas entediantes e mundanas, por exemplo, limpeza de dados e criação de repetibilidade e automação por meio do código gerado. Saiba mais sobre o Data Wrangler na seção Data Wrangler deste documento.
Experimentação e modelagem de ML
Com ferramentas como PySpark/Python e SparklyR/R, os notebooks podem lidar com treinamento de modelos de aprendizado de máquina.
Algoritmos e bibliotecas de ML podem ajudar a treinar modelos de aprendizado de máquina. As ferramentas de gerenciamento de bibliotecas podem instalar essas bibliotecas e algoritmos. Portanto, os usuários têm a opção de aproveitar uma grande variedade de bibliotecas populares de aprendizado de máquina para concluir o treinamento de modelo de ML no Microsoft Fabric.
Além disso, bibliotecas populares como o Scikit Learn também podem desenvolver modelos.
Experimentos e execuções do MLflow podem acompanhar o treinamento do modelo de ML. O Microsoft Fabric oferece uma experiência interna do MLFlow com a qual os usuários podem interagir para registrar experimentos e modelos. Saiba mais sobre como usar o MLflow para acompanhar experimentos e gerenciar modelos no Microsoft Fabric.
SynapseML
A biblioteca de software livre do SynapseML (anteriormente conhecida como MMLSpark), que a Microsoft possui e mantém, simplifica a criação de pipelines de aprendizado de máquina altamente escalonável. Como um ecossistema de ferramentas, ela expande a estrutura do Apache Spark em várias direções novas. O SynapseML unifica várias estruturas de aprendizado de máquina existentes e novos algoritmos da Microsoft em uma API única e escalonável. A biblioteca SynapseML de código aberto inclui um ecossistema avançado de ferramentas de ML para o desenvolvimento de modelos preditivos, além de aproveitar os modelos de IA pré-treinados dos Serviços Cognitivos do Azure. Saiba mais sobre o SynapseML.
Enriquecimento e operacionalização
Os notebooks podem processar a pontuação em lote do modelo de machine learning com bibliotecas de código aberto para previsão ou a função Spark Predict universal escalonável do Microsoft Fabric, que dá suporte a modelos empacotados pelo MLflow no registro de modelos do Microsoft Fabric.
Obter insights
No Microsoft Fabric, os valores previstos podem ser facilmente gravados no OneLake e consumidos diretamente de relatórios do Power BI, com o modo Direct Lake do Power BI. Isso torna muito fácil para os profissionais de ciência de dados compartilhar resultados de seu trabalho com os stakeholders e também simplifica a operacionalização.
Notebooks que contêm pontuação em lote podem ser agendados para execução usando os recursos de agendamento do Notebook. A pontuação em lote também pode ser agendada como parte de atividades de pipeline de dados ou trabalhos do Spark. O Power BI obtém automaticamente as previsões mais recentes sem a necessidade de carregar ou atualizar os dados, graças ao modo Direct Lake no Microsoft Fabric.
Exploração de dados com link semântico (versão prévia)
Importante
Esse recurso está em versão prévia.
Os cientistas de dados e os analistas de negócios passam muito tempo tentando entender, limpar e transformar dados antes de iniciar qualquer análise significativa. Normalmente, os analistas de negócios trabalham com os modelos semânticos e codificam o conhecimento de domínio e a lógica de negócios em medidas do Power BI. Por outro lado, os cientistas de dados podem trabalhar com os mesmos dados, mas normalmente em um ambiente ou em uma linguagem de código diferente.
O link semântico (versão prévia) permite que os cientistas de dados estabeleçam uma conexão entre os modelos semânticos do Power BI e a experiência de Ciência de Dados do Synapse no Microsoft Fabric por meio da biblioteca SemPy Python. A SemPy simplifica a análise de dados capturando e aproveitando a semântica de dados, à medida que os usuários realizam várias transformações nos modelos semânticos. Ao aproveitar o link semântico, os cientistas de dados podem:
- evitar a necessidade de implementar novamente a lógica de negócios e o conhecimento de domínio no código
- acessar e usar com facilidade as medidas do Power BI no código
- usar a semântica para potencializar novas experiências, como funções semânticas
- explorar e validar dependências funcionais e relações entre os dados
Por meio do uso da SemPy, as organizações podem esperar ver:
- maior produtividade e colaboração mais rápida entre as equipes que operam nos mesmos conjuntos de dados
- aumento da colaboração cruzada entre equipes de business intelligence e IA
- ambiguidade reduzida e uma curva de aprendizado mais fácil ao integrar um novo modelo ou conjunto de dados
Para obter mais informações sobre o link semântico, confira O que é o link semântico (versão prévia)?.
Conteúdo relacionado
- Introdução aos exemplos de ciência de dados de ponta a ponta, confira Tutoriais da Ciência de Dados
- Saiba mais sobre preparação e limpeza de dados com o Data Wrangler, confira Data Wrangler
- Saiba mais sobre como acompanhar experimentos, confira Experimento de aprendizado de máquina
- Saiba mais sobre como gerenciar modelos em Modelo de machine learning
- Saiba mais sobre a pontuação em lote com Predict, confira Pontuar modelos com PREDICT
- Fornecer previsões do lakehouse para o Power BI com o Modo Direct Lake