Compartilhar via


Operacionalizar a malha de dados para engenharia de recursos orientada por domínio de IA/ML

A malha de dados ajuda as organizações a migrar de um data lake ou data warehouse centralizado para uma descentralização controlada por domínio de dados de análise sublinhados por quatro princípios: Propriedade de Domínio, Dados como Produto, Plataforma de Dados de Autoatendimento e Governança Computacional Federada. A malha de dados fornece os benefícios da propriedade de dados distribuídos e a melhoria da qualidade e da governança de dados que aceleram os negócios e o tempo de valorização para as organizações.

Implementação da malha de dados

Uma implementação típica da malha de dados inclui equipes de domínio com engenheiros de dados que criam pipelines de dados. A equipe mantém armazenamentos de dados operacionais e analíticos, como data lakes, data warehouse ou data lakehouse. Eles liberam os pipelines como produtos de dados para outras equipes de domínio ou equipes de ciência de dados consumirem. Outras equipes consomem os produtos de dados usando uma plataforma de governança de dados central, conforme mostrado no diagrama a seguir.

Diagrama de arquitetura mostrando uma implementação de malha de dados.

A malha de dados é clara sobre como os produtos de dados servem conjuntos de dados transformados e agregados para business intelligence. Mas não é explícito sobre a abordagem que as organizações devem adotar para criar modelos de IA/ML. Também não há diretrizes sobre como estruturar suas equipes de ciência de dados, a governança de modelo de IA/ML e como compartilhar modelos ou recursos de IA/ML entre equipes de domínio.

A seção a seguir descreve algumas estratégias que as organizações podem usar para desenvolver funcionalidades de IA/ML na malha de dados. E você vê uma proposta de uma estratégia sobre engenharia de recursos controlada por domínio ou malha de recursos.

Estratégias de IA/ML para malha de dados

Uma estratégia comum é que a organização adote equipes de ciência de dados como consumidores de dados. Essas equipes acessam vários produtos de dados de domínio na malha de dados de acordo com o caso de uso. Eles executam a exploração de dados e a engenharia de recursos para desenvolver e criar modelos de IA/ML. Em alguns casos, as equipes de domínio também desenvolvem seus próprios modelos de IA/ML usando seus dados e o produto de dados de outras equipes para estender e derivar novos recursos.

A engenharia de recursos é o núcleo da criação de modelos e normalmente é complexa e requer experiência de domínio. A estratégia acima pode ser demorada, pois as equipes de ciência de dados precisam analisar vários produtos de dados. Eles podem não ter conhecimento de domínio completo para criar recursos de alta qualidade. A falta de conhecimento de domínio pode levar a esforços duplicados de engenharia de recursos entre equipes de domínio. Além disso, problemas como reprodutibilidade do modelo de IA/ML devido a conjuntos de recursos inconsistentes entre equipes. As equipes de ciência de dados ou domínio precisam atualizar continuamente os recursos à medida que novas versões de produtos de dados são lançadas.

Outra estratégia é que as equipes de domínio liberem modelos de IA/ML em um formato como o ONNX (Open Neural Network Exchange), mas esses resultados são caixas pretas e combinar IA/modelos ou recursos entre domínios seria difícil.

Há uma maneira de descentralizar a criação do modelo de IA/ML entre equipes de ciência de dados e domínio para enfrentar os desafios? A estratégia de malha de recursos ou engenharia de recursos orientada por domínio proposta é uma opção.

Engenharia de recursos controlada por domínio ou malha de recursos

A engenharia de recursos controlada por domínio ou a estratégia de malha de recursos oferece uma abordagem descentralizada para a criação de modelos de IA/ML em uma configuração de malha de dados. O diagrama a seguir mostra a estratégia e como ela aborda os quatro princípios main da malha de dados.

Diagrama de arquitetura mostrando a engenharia de recursos controlada pelo domínio e a estratégia de malha de recursos.

Engenharia de recursos de propriedade de domínio por equipes de domínio

Nessa estratégia, a organização emparelha cientistas de dados com engenheiros de dados em uma equipe de domínio para executar a exploração de dados em limpo e transformar dados em, por exemplo, um data lake. A engenharia gera recursos que armazenam em um repositório de recursos. O repositório de recursos é um repositório de dados que fornece recursos para treinamento e inferência e ajuda a acompanhar a versão do recurso, metadados e estatísticas. Essa funcionalidade permite que os cientistas de dados da equipe de domínio trabalhem em estreita colaboração com especialistas em domínio e mantenham os recursos atualizados à medida que os dados são alterados no domínio.

Dados como produto: conjuntos de recursos

Os recursos gerados pela equipe de domínio, conhecidos como domínio ou recursos locais, publicam no catálogo de dados na plataforma de governança de dados como conjuntos de recursos. Esses conjuntos de recursos podem ser consumidos por equipes de ciência de dados ou outras equipes de domínio para criar modelos de IA/ML. Durante o desenvolvimento de modelos de IA/ML, as equipes de ciência de dados ou domínio podem combinar recursos de domínio para produzir novos recursos, chamados de recursos compartilhados ou globais. Esses recursos compartilhados são publicados de volta no catálogo de conjuntos de recursos para consumo.

Plataforma de dados de autoatendimento e governança de computação federada: padronização e qualidade de recursos

Essa estratégia pode levar à adoção de uma pilha de tecnologia diferente para pipelines de engenharia de recursos e definições de recursos inconsistentes entre equipes de domínio. Os princípios da plataforma de dados de autoatendimento garantem que as equipes de domínio estejam usando a infraestrutura e as ferramentas comuns para criar os pipelines de engenharia de recursos e impor o controle de acesso. O princípio de governança computacional federada garante a interoperabilidade dos conjuntos de recursos por meio da padronização global e verifica a qualidade do recurso.

Usar a engenharia de recursos controlada por domínio ou a estratégia de malha de recursos oferece uma abordagem descentralizada de criação de modelo de IA/ML para as organizações a fim de ajudar a reduzir o tempo no desenvolvimento de modelos de IA/ML. Essa estratégia ajuda a manter os recursos consistentes entre as equipes de domínio. Ele evita a duplicação de esforços e resulta em recursos de alta qualidade para modelos de IA/ML mais precisos, o que aumenta o valor para os negócios.

Implementação da malha de dados no Azure

Este artigo descreve os conceitos sobre como operacionalizar a IA/ML em uma malha de dados e não aborda ferramentas ou arquiteturas para criar essas estratégias. O Azure tem ofertas de repositório de recursos, como o repositório de recursos do Azure Databricks e o Feathr do LinkedIn. Você pode desenvolver conectores personalizados do Microsoft Purview para gerenciar e controlar repositórios de recursos.

Próximas etapas