Operações de machine learning

Artigo
07/19/2024

Este artigo descreve três arquiteturas do Azure para operações de aprendizado de máquina que têm pipelines de CI/CD (integração contínua e entrega contínua) de ponta a ponta e pipelines de retreinamento. As arquiteturas são para esses aplicativos de IA:

Aprendizado de máquina clássico
Pesquisa visual computacional (CV)
Processamento de idioma natural

Essas arquiteturas são resultado do projeto MLOps v2. Elas incorporam as práticas recomendadas que os arquitetos de solução identificaram no processo de desenvolvimento de várias soluções de aprendizado de máquina. O resultado são padrões implantáveis, repetíveis e sustentáveis. As três arquiteturas usam o serviço do Azure Machine Learning.

Para obter uma implementação com modelos de implantação de exemplo para MLOps v2, consulte Repositório GitHub do Azure MLOps v2.

Possíveis casos de uso

Aprendizado de máquina clássico: previsão, regressão e classificação de série temporal em dados estruturados tabulares são os casos de uso mais comuns nessa categoria. Os exemplos incluem:
- Classificação binária e de vários rótulos.
- Regressão linear, polinomial, de ridge, de laço, quantílica e bayesiana.
- ARIMA, autorregressiva (AR), SARIMA, VAR, SES, LSTM.
CV: A estrutura de MLOps deste artigo concentra-se principalmente nos casos de uso de CV de segmentação e classificação de imagem.
Processamento de linguagem natural: use esta estrutura MLOps para implementar:
- Reconhecimento de entidade nomeada:
- Classificação de texto
- Geração de texto
- Análise de sentimento
- Tradução
- Respostas às perguntas
- Resumo
- Detecção de sentenças
- Detecção de idioma
- Marcação de parte do discurso

Simulações de IA, aprendizado de reforço profundo e outras formas de IA não são abordados neste artigo.

MLOps como uma área de design essencial para cargas de trabalho de IA

O planejamento e a implementação de um MLOps e GenAIOps são uma área de design principal em cargas de trabalho de IA no Azure. Para saber por que essas cargas de trabalho de machine learning precisam de operações especializadas, consulte MLOps e GenAIOps para cargas de trabalho de IA no Azure no Azure Well-Architected Framework.

Arquitetura

O padrão de arquitetura MLOps v2 tem quatro componentes modulares,ou fases, principais do ciclo de vida do MLOps:

Acervo de dados
Administração e configuração
Desenvolvimento de modelo, ou fase de loop interno
Implantação de modelo, ou a fase de loop externo

Os componentes anteriores, as conexões entre eles e as personas típicas envolvidas são padrão em todas as arquiteturas de cenário MLOps v2. Pode haver variações nos detalhes de cada um, dependendo do cenário.

A arquitetura base do MLOps v2 para Machine Learning é o cenário clássico de aprendizado de máquina para dados tabulares. As arquiteturas CV e NLP se baseiam nessa arquitetura base e modificam.

O MLOps v2 abrange as seguintes arquiteturas descritas neste artigo:

Arquitetura do aprendizado de máquina clássico
Arquitetura CV do Machine Learning
Arquitetura de processamento de linguagem natural de aprendizado de máquina

Arquitetura do aprendizado de máquina clássico

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura do aprendizado de máquina clássico

Acervo de dados

Esse componente ilustra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente do ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. Uma marca de seleção verde marca as fontes e destinos de dados que representam as práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Esse componente é a primeira etapa na implantação da solução MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções que são associadas ao projeto. Por exemplo, a equipe de infraestrutura pode:
1. Crie repositórios de código-fonte do projeto.
2. Use o Bicep ou o Terraform para criar workspaces do Machine Learning.
3. Crie ou modifique conjuntos de dados e recursos de computação para desenvolvimento e implantação de modelos.
4. Defina de usuários da equipe de projeto, suas funções e controles de acesso a outros recursos.
5. Crie pipelines CI/CD.
6. Crie componentes de monitoramento para coletar e criar alertas para métricas de modelo e infraestrutura.
A principal persona associada a essa fase é a equipe de infraestrutura, mas uma organização também pode contar com engenheiros de dados, engenheiros de aprendizado de máquina e cientistas de dados.
Desenvolvimento de modelo (fase de loop interno)

A fase de loop interno consiste no fluxo de trabalho de ciência de dados iterativo que atua dentro de um workspace dedicado e seguro do Machine Learning. O diagrama anterior mostra um fluxo de trabalho típico. O processo começa com a ingestão de dados, passa pela análise exploratória de dados, experimentação, desenvolvimento e avaliação de modelos e, em seguida, registra um modelo para uso em produção. Esse componente modular é agnóstico e adaptável ao processo que sua equipe de ciência de dados usa para desenvolver modelos.

As personas associadas a essa fase incluem cientistas de dados e engenheiros de aprendizado de máquina.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolver um modelo que ela pode implantar, ela registra o modelo no registro do workspace do Machine Learning. Os pipelines de CI que são disparados, automaticamente por registro de modelo ou por aprovação human-in-the-loop fechada, promovem o modelo e quaisquer outras dependências de modelo para a fase de implantação do modelo.

Personas associadas a esse estágio normalmente são engenheiros de aprendizado de máquina.
Implantação de modelo (fase de loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e possível retreinamento.

Personas associadas a essa fase são principalmente engenheiros de aprendizado de máquina.
Processo de preparo e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, teste de unidade e verificações de IA responsável para identificar vieses de modelos e de dados. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação humana no circuito para promovê-lo para produção. As opções de implantação de modelo incluem um ponto final de lote gerido para cenários de lote ou um ponto final online gerido ou implementação Kubernetes que utiliza o Azure Arc para cenários online, quase em tempo real. A produção costuma ocorrer em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

Os engenheiros de aprendizado de máquina monitoraram componentes em preparação, teste e produção para análises detalhadas relacionadas a alterações no desempenho do modelo, dados e infraestrutura. Eles podem usar essas métricas para tomar medidas. O monitoramento de modelos e dados pode incluir verificação do descompasso de modelo e de dados, desempenho do modelo em novos dados e problemas de IA responsável. O monitoramento de infraestrutura pode identificar a resposta lenta do ponto de extremidade, a capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Com base em critérios relativos a modelo e dados como limites de métrica ou agendamentos, gatilhos automatizados e notificações podem implementar ações apropriadas a serem tomadas. Por exemplo, um gatilho pode treinar novamente um modelo para usar novos dados de produção e, em seguida, fazer um loopback do modelo para preparo e teste para uma avaliação de pré-produção. Ou um problema de modelo ou dados pode acionar uma ação que exija um loopback para a fase de desenvolvimento do modelo em que os cientistas de dados podem investigar o problema e potencialmente desenvolver um novo modelo.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios de questões de infraestrutura preocupantes, como atraso de resposta de ponto de extremidade ou complexidade insuficiente para a implantação, gatilhos automáticos e notificações podem implementar ações para serem tomadas. Os gatilhos e notificações automáticos podem acionar um loopback para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar e potencialmente reconfigurar os recursos de computação e rede.

Arquitetura de CV do Machine Learning

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura de CV

A arquitetura de CV do Machine Learning baseia-se na arquitetura de aprendizado de máquina clássica, mas tem modificações que são específicas para cenários de CV supervisionados.

Acervo de dados

Esse componente demonstra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. As imagens para cenários de CV podem vir de diversas fontes de dados. Para obter eficiência ao desenvolver e implantar modelos de CV com o Machine Learning, recomendamos o Armazenamento de Blobs do Azure e o Azure Data Lake Storage.
Administração e configuração

Esse componente é a primeira etapa na implantação do MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Para cenários de CV, a administração e a configuração do ambiente MLOps v2 são basicamente as mesmas do aprendizado de máquina clássico, mas incluem uma etapa extra. A equipe de infraestrutura usa o recurso de rotulagem do Machine Learning ou outra ferramenta para criar projetos de rotulagem e anotação de imagens.
Desenvolvimento de modelo (fase de loop interno)

A fase de loop interno consiste no fluxo de trabalho de ciência de dados iterativo executado em um workspace dedicado e seguro do Machine Learning. A principal diferença entre esse fluxo de trabalho e o cenário clássico de aprendizado de máquina é que a rotulagem e a anotação de imagem são um componente-chave desse loop de desenvolvimento.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolver um modelo que ela pode implantar, ela registra o modelo no registro do workspace do Machine Learning. Os pipelines de CI que são disparados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop promovem o modelo e quaisquer outras dependências de modelo para a fase de implantação do modelo.
Implantação de modelo (fase de loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e possível retreinamento.
Processo de preparo e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase normalmente inclui operações como implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, teste de unidade e verificações de IA responsável para identificar vieses de modelos e de dados. Para cenários de CV, os engenheiros de aprendizado de máquina não precisam treinar novamente o candidato ao modelo em dados de produção devido a restrições de recursos e tempo. Em vez disso, a equipe de ciência de dados pode usar dados de produção para o desenvolvimento do modelo. O modelo candidato registrado no loop de desenvolvimento é avaliado para produção. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação humana no circuito para promovê-lo para produção. As opções de implantação de modelo incluem um ponto final de lote gerido para cenários de lote ou um ponto final online gerido ou implementação Kubernetes que utiliza o Azure Arc para cenários online, quase em tempo real. A produção costuma ocorrer em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

Os engenheiros de aprendizado de máquina monitoraram componentes em preparação, teste e produção para análises detalhadas relacionadas a alterações no desempenho do modelo, dados e infraestrutura. Eles podem usar essas métricas para tomar medidas. O monitoramento de modelo e de dados podem incluir a verificação do desempenho do modelo em novas imagens. O monitoramento de infraestrutura pode identificar a resposta lenta do ponto de extremidade, a capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

O monitoramento de dados e de modelos e as fases de evento e ação do MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de CV quando uma degradação do desempenho do modelo em novas imagens é detectada. Nesse caso, é necessário um processo humano no circuito para revisar e anotar novos dados de texto para o modelo com desempenho insatisfatório. A próxima ação costuma ser voltar ao loop de desenvolvimento do modelo para atualizar o modelo com as novas imagens.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios de questões de infraestrutura preocupantes, como atraso de resposta de ponto de extremidade ou complexidade insuficiente para a implantação, gatilhos automáticos e notificações podem implementar ações para serem tomadas. Os gatilhos e notificações automáticos podem acionar um loopback para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar e potencialmente reconfigurar os recursos de computação, rede e ambiente.

Arquitetura de processamento de linguagem natural de aprendizado de máquina

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura de processamento de linguagem natural

A arquitetura de processamento de linguagem natural do Machine Learning baseia-se na arquitetura de aprendizado de máquina clássico, mas tem algumas modificações que são específicos a cenários de NLP.

Acervo de dados

Esse componente demonstra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. Uma marca de seleção verde indica fontes e destinos de dados que representam as melhores práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Esse componente é a primeira etapa na implantação do MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Para cenários de processamento de linguagem natural, a administração e a instalação do ambiente do MLOps v2 são praticamente iguais ao aprendizado de máquina clássico, mas com uma etapa adicional: criar projetos de rotulagem e anotação de imagem usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento de modelo (fase de loop interno)

A fase de loop interno consiste no fluxo de trabalho de ciência de dados iterativo executado em um workspace dedicado e seguro do Machine Learning. O ciclo típico de desenvolvimento de modelo de PNL difere do cenário clássico de aprendizado de máquina porque as etapas típicas de desenvolvimento para esse cenário incluem anotadores para frases e tokenização, normalização e incorporações para dados de texto.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolver um modelo que ela pode implantar, ela registra o modelo no registro do workspace do Machine Learning. Os pipelines de CI que são disparados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop promovem o modelo e quaisquer outras dependências de modelo para a fase de implantação do modelo.
Implantação de modelo (fase de loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e possível retreinamento.
Processo de preparo e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, teste de unidade e verificações de IA responsável para identificar vieses de modelos e de dados. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação humana no circuito para promovê-lo para produção. As opções de implantação de modelo incluem um ponto final de lote gerido para cenários de lote ou um ponto final online gerido ou implementação Kubernetes que utiliza o Azure Arc para cenários online, quase em tempo real. A produção costuma ocorrer em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

Os engenheiros de aprendizado de máquina monitoraram componentes em preparação, teste e produção para análises detalhadas relacionadas a alterações no desempenho do modelo, dados e infraestrutura. Eles podem usar essas métricas para tomar medidas. O monitoramento de modelos e dados pode incluir a verificação de descompasso de modelos e de dados, de desempenho do modelo em novos dados de texto e de problemas de IA responsável. O monitoramento de infraestrutura pode identificar problemas como resposta lenta de ponto de extremidade, capacidade de computação inadequada e problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Assim como acontece com a arquitetura de CV, o monitoramento de dados e de modelos e as fases de eventos e ações de MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de processamento de linguagem natural quando uma degradação do desempenho do modelo em um novo texto é detectada. Nesse caso, é necessário um processo humano no circuito para revisar e anotar novos dados de texto para o modelo com desempenho insatisfatório. Geralmente, a próxima ação é voltar ao loop de desenvolvimento do modelo para atualizar o modelo com os novos dados de texto.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios de questões de infraestrutura preocupantes, como atraso de resposta de ponto de extremidade ou complexidade insuficiente para a implantação, gatilhos automáticos e notificações podem implementar ações para serem tomadas. Os gatilhos e notificações automáticos podem acionar um loopback para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar e potencialmente reconfigurar os recursos de computação e rede.

Componentes

O Machine Learning é um serviço de nuvem que você pode usar para treinar, pontuar, implantar e gerenciar modelos de machine learning em escala.
Azure Pipelines: este é um sistema de compilação e teste que é baseado no Azure DevOps e usado para os pipelines de compilação e lançamento. O Azure Pipelines divide esses pipelines em etapas lógicas chamadas tarefas.
GitHub: é uma plataforma de hospedagem de código para controle de versão, colaboração e fluxos de trabalho de CI/CD.
O Azure Arc é uma plataforma que usa o Azure Resource Manager para gerenciar recursos do Azure e recursos locais. Os recursos podem incluir máquinas virtuais, clusters do Kubernetes e bancos de dados.
O Kubernetes é um sistema de código aberto para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos conteinerizados.
O Azure Data Lake Storage é um sistema de arquivos compatível com Hadoop. Tem um namespace hierárquico integrado e a grande escala e economia do Armazenamento de Blobs do Azure.
O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de Big Data.
Os O Hubs de Eventos do Azure é um serviço que ingere fluxos de dados gerados pelos aplicativos cliente. Depois, ele ingere e armazena os dados de streaming, o que preserva a sequência de eventos recebidos. Os consumidores podem se conectar aos pontos de extremidade do hub para recuperar mensagens para processamento. Essa arquitetura usa a integração do Data Lake Storage.

Outras considerações

O padrão de arquitetura MLOps v2 anterior tem vários componentes críticos, incluindo RBAC (controle de acesso baseado em função) que se alinha com as partes interessadas de negócios, gerenciamento eficiente de pacotes e mecanismos de monitoramento robustos. Esses componentes contribuem coletivamente para a implementação e o gerenciamento bem-sucedidos de fluxos de trabalho de aprendizado de máquina.

RBAC baseado em persona

É crucial que você gerencie o acesso a dados e recursos de aprendizado de máquina. O RBAC fornece uma estrutura robusta para ajudar você a gerenciar quem pode executar ações específicas e acessar áreas específicas em sua solução. Projete sua estratégia de segmentação de identidade para que se alinhe ao ciclo de vida dos modelos de aprendizado de máquina no Machine Learning e às personas incluídas no processo. Cada persona tem um conjunto específico de responsabilidades que são refletidas em suas funções RBAC e associação ao grupo.

Personas de exemplo

Para dar suporte à segmentação apropriada em uma carga de trabalho de aprendizado de máquina, considere as seguintes personas comuns que informam o design de grupo RBAC baseado em identidade.

Cientista de dados e engenheiro de aprendizado de máquina

Cientistas de dados e engenheiros de aprendizado de máquina executam várias atividades de aprendizado de máquina e ciência de dados em todo o ciclo de vida de desenvolvimento de software de um projeto. Suas funções incluem análise exploratória de dados e pré-processamento de dados. Cientistas de dados e engenheiros de aprendizado de máquina são responsáveis por treinar, avaliar e implantar modelos. As responsabilidades dessas funções também incluem atividades de reparo para modelos, pacotes e dados de aprendizado de máquina. Essas funções estão fora do escopo da equipe de suporte técnico da plataforma.