MLOps e GenAIOps para cargas de trabalho de IA no Azure
As operações de carga de trabalho de IA são centradas na curadoria de dados e no consumo desses dados. As operações garantem eficiência na obtenção e manutenção da qualidade, confiabilidade, segurança, ética e outros padrões que você prioriza para a carga de trabalho.
As tarefas de carga de trabalho podem ser categorizadas em três áreas principais: desenvolvimento de aplicativos, manipulação de dados e gerenciamento de modelos de IA. Cada categoria deve adotar metodologias operacionais comprovadas pelo setor, como DevOps, DataOps, MLOps e GenAIOps.
As atividades de DevOps abrangem todo o gerenciamento do ciclo de vida de desenvolvimento de aplicativos por meio de pipelines e monitoramento automatizados de CI/CD (integração contínua e implantação contínua). No entanto, para cargas de trabalho de IA, o pipeline de dados é um dos componentes principais. O DataOps, uma especialização do DevOps, concentra-se no gerenciamento do ciclo de vida dos dados, simplificando processos como extração, transformação e carregamento de dados (ETL/ELT). Os profissionais de DataOps normalmente medem o desempenho do fluxo de dados e a eficácia da limpeza de dados e monitoram o pipeline em busca de anomalias.
As cargas de trabalho de IA são inerentemente não determinísticas. Muitos modelos de IA são propensos a produzir respostas diferentes para a mesma pergunta durante a inferência. Essas cargas de trabalho precisam de processos que possam gerenciar e se adaptar à imprevisibilidade dos resultados de IA. O DataOps se estende ao MLOps, que operacionaliza os fluxos de trabalho de aprendizado de máquina para treinamento e teste de modelos. GenAIOps, um subconjunto especializado de MLOps, tem como alvo soluções de IA generativa. Envolve tarefas como descoberta de modelos e refinamento de modelos pré-treinados com dados enriquecidos.
As atividades operacionais geralmente se sobrepõem e as diferentes metodologias se aplicam em graus variados. Por exemplo, na IA discriminativa, o DataOps desempenha um papel importante, enquanto as atividades de DevOps são menos proeminentes. Por outro lado, na IA generativa, a excelência operacional depende mais do DevOps do que do DataOps.
Independentemente disso, o objetivo geral é a entrega de recursos com operações eficientes durante todo o ciclo de vida do desenvolvimento. Os resultados esperados são:
- Processos repetíveis com resultados consistentes.
- Precisão sustentada dos modelos ao longo do tempo.
- Governança eficaz que minimiza os riscos.
- Processos de gerenciamento de mudanças para adaptação ao desvio do modelo.
Automação e monitoramento são suas principais estratégias operacionais para atingir esses objetivos.
Você também precisa estabelecer processos padronizados para componentes de IA, para operações de rotina, não planejadas e de emergência, e ter mecanismos de rastreamento adequados. Sem esses processos, você corre o risco de:
- Erros repetidos e não reprodutibilidade no processamento de dados, hospedagem de modelos, gerenciamento de dados de aterramento e outras tarefas.
- Dados obsoletos ou de baixa qualidade usados para treinamento e refinamento de modelos.
- Afetar a confiança do usuário final no sistema, na pior das hipóteses, levando a problemas legais, de conformidade ou de segurança.
Você deve implementar processos estabelecidos com o conjunto certo de ferramentas. Ferramentas especializadas estão disponíveis para gerenciar fluxos de trabalho de IA/aprendizado de máquina em todos os ambientes.
Este artigo se concentra na estratégia de design para operações e fornece recomendações de ferramentas.
Recomendações
Aqui está o resumo das recomendações fornecidas neste artigo.
Recomendação | Descrição |
---|---|
Projete um ciclo de vida de operações de carga de trabalho eficiente. | Com base nos componentes de sua carga de trabalho de IA, diferentes estágios operacionais serão aplicados ao seu ciclo de vida. É importante que você entenda as práticas recomendadas relevantes para seu cenário e as ferramentas disponíveis para implementá-las. Reserve um tempo para aprender e implementar as principais recomendações para todos os componentes de sua carga de trabalho. ▪ Operações de Dados ▪ MLOps ▪ GenAIOps ▪ Monitoramento |
Automatize tudo. | A automação garante repetibilidade e eficiência no ciclo de vida de uma carga de trabalho. Embora os processos de DevOps sejam um dos principais contribuintes para isso, há etapas adicionais que você precisa seguir para criar, testar, validar e implantar seus modelos com eficiência. ▪ Automação |
Utilize pipelines de implantação sempre que possível. | Os pipelines de implantação podem ajudá-lo a fornecer implantações de infraestrutura repetíveis ou integrar código continuamente. Eles também são uma ótima ferramenta para criar e/ou validar modelos antes de promovê-los para produção. A implementação de pipelines de implantação ajuda a melhorar a confiabilidade, bem como a experiência geral do usuário de sua carga de trabalho. ▪ Pipelines de implantação |
Evite desvios e decadências em seus modelos. | Você deve se proteger contra a deterioração e o desvio do modelo, ao mesmo tempo em que tem um processo estruturado que o ajuda a aceitar novas alterações de modelo de maneira controlada. Seguir as recomendações sobre a manutenção do modelo ajuda você a permanecer em conformidade, evitar experiências inesperadas do usuário e fornecer um serviço mais atualizado. ▪ Manutenção de modelo |
Ciclo de vida das operações de carga de trabalho
Esta imagem ilustra os estágios operacionais dos modelos de IA, incluindo coleta de dados, limpeza de dados para eliminar inconsistências ou erros e transformação de dados em um formato analisável. Esses estágios são relevantes para treinar modelos discriminativos e fundamentar dados em modelos generativos. No entanto, o caso de uso específico de modelos generativos de treinamento não é representado nesta imagem. Esse caso de uso está fora do escopo deste artigo.
Os estágios de MLOps e GenAIOps são semelhantes. A principal diferença é que, no caso do GenAIOps, o foco muda do treinamento para a seleção do modelo certo, engenharia imediata e incorporação de conhecimento específico do domínio por meio de ajuste fino ou implementação de Geração Aumentada de Recuperação (RAG).
Até mesmo os estágios de implantação e monitoramento são bastante semelhantes.
As seções a seguir descrevem as práticas operacionais comuns. Eles cobrem todas as etapas do ciclo de vida, desde a pré-produção até a produção.
DataOps
Os dados são agregados de várias fontes de dados de produção e, em seguida, pré-processados para remover erros e inconsistências e lidar com valores ausentes. Finalmente, é transformado e normalizado em um formato adequado para treinamento ou enriquecimento. Os aspectos do design são descritos nos artigos Dados de treinamento e Dados de aterramento.
Os processos de operações de dados durante esse estágio devem ser eficientes porque lidar com grandes volumes de dados de várias fontes e pipelines de dados complexos pode ser desafiador. As abordagens que você adota precisam garantir que essa fase produza dados de alta qualidade. Monitore este estágio para acompanhar o progresso em direção à barra de qualidade aceitável.
Você também precisa garantir que os dados estejam seguros, já que os dados são da produção. Certifique-se de que os ambientes inferiores, como Desenvolvimento/Teste, sejam tão seguros quanto a produção para ajudar a evitar problemas de segurança.
Observação
Resolva dados de baixa qualidade investindo em uma extensa limpeza de dados durante as fases iniciais. Aproveite os padrões de análise conhecidos, como medalhão, malha de dados e armazenamentos de recursos, para realizar tarefas de processamento upstream. Se as fases upstream forem ineficazes, você precisará melhorar a qualidade durante as fases downstream, o que leva ao aumento dos custos da carga de trabalho porque a preparação de dados ocorre durante cada estágio.
Para obter informações sobre tarefas de processamento de dados, consulte estes artigos:
Ferramentas
Recomendamos que você padronize as ferramentas de orquestração de dados da carga de trabalho. As ferramentas devem ser capazes de fornecer um pipeline de dados que possa agrupar atividades e que tenha automação integrada.
Um pipeline do Azure Data Factory pode ser uma escolha inicial. Ele pode conectar e processar muitas fontes de dados com eficiência. Você também pode considerar o Azure Synapse Analytics, que combina Big Data e data warehouse e dá suporte a data lakes, Apache Spark e SQL do Azure Synapse. Ele também se integra ao Data Factory para ETL.
Para preparar dados de treinamento, os pipelines do Azure Machine Learning fornecem recursos especializados que podem automatizar tarefas como coleta e processamento de dados.
Tecnologias de código aberto como Pandas (para preparação de dados) e Scrapy são escolhas populares.
MLOps
O treinamento de modelo é o processo de selecionar algoritmos apropriados e fornecer a eles dados históricos e observações pré-processados para permitir que o modelo aprenda padrões e faça previsões.
Treinar o modelo (engenharia de recursos) e o ajuste de hiperparâmetros são processos iterativos e caros. Durante cada iteração, os cientistas de dados rastreiam os resultados com combinações de dados, código e parâmetros. Use pipelines repetíveis para rastrear experimentos com o mínimo de esforço manual até que o nível certo de precisão seja alcançado.
Outro desafio operacional é provisionar e dimensionar recursos de computação especializados onde os experimentos são realizados. Além disso, você deve empacotar e publicar modelos com eficiência.
As equipes podem começar com o desenvolvimento baseado em interface do usuário para reduzir os desafios e, à medida que se tornam mais confiantes, fazer a transição para uma abordagem baseada em código.
Ferramentas
Recomendamos que você use ferramentas que possam acompanhar experimentos de aprendizado de máquina capturando detalhes como versões de código, ambientes, parâmetros, execuções e resultados. O MLflow é uma dessas estruturas de software livre. Considere usar workspaces do Azure Machine Learning, que são compatíveis com o MLflow e fornecem um fluxo de trabalho simplificado que permite que os cientistas de dados gerenciem a produtividade e a reprodutibilidade em seus projetos. Para gerenciar o desenvolvimento de código com o controle do código-fonte, integre o pipeline de aprendizado de máquina ao controle do código-fonte, como o GitHub, ou use compartilhamentos de arquivos.
A computação de hospedagem também pode influenciar sua escolha de um orquestrador de fluxo de trabalho. Se o aplicativo estiver hospedado no AKS (Serviço de Kubernetes do Azure), considere usar o Kubeflow.
Se você estiver considerando o Azure Machine Learning, recomendamos que você comece com a perspectiva do Azure Well-Architected Framework no Machine Learning para garantir que você entenda como o produto pode ajudá-lo com as preocupações de qualidade do Well-Architected Framework da carga de trabalho.
Parte do benefício do processo é otimizar o tempo pessoal. Os cientistas de dados normalmente precisam de ferramentas e SDKs específicos para conduzir com eficácia a análise exploratória de dados (EDA) e a experimentação de suas estações de trabalho. Avalie se as opções predefinidas no Azure Machine Learning são adequadas. Caso contrário, armazene a configuração da estação de trabalho ou mantenha imagens de VM aprovadas para esse trabalho. Um exemplo de uma imagem que você pode usar como ponto de partida é a DSVM (Máquina Virtual de Ciência de Dados).
Em determinados casos, o uso de VMs pode não ser permitido pela política. Procure alternativas, como adicionar o Computador de Desenvolvimento da Microsoft e a Área de Trabalho Virtual do Azure. Você também pode considerar o uso do Docker para inicializar computadores que contêm imagens pré-criadas.
No entanto, à medida que esse estágio amadurece e você precisa de experimentos estendidos, mude para instâncias de computação gerenciadas e prefira opções integradas como parte do fluxo de trabalho. Avalie se você pode usar instâncias de computação do Azure Machine Learning para treinamento e inferência para fins de desenvolvimento e teste. Os clusters de computação podem lidar com grandes conjuntos de dados e modelos complexos.
O Azure Machine Learning fornece soluções baseadas em código por meio do SDK e opções de baixo código, como aprendizado de máquina automatizado e o designer visual. O SDK do Python oferece várias maneiras de treinar modelos, cada uma com recursos distintos. O Machine Learning também oferece suporte a otimização avançada e tecnologias de computação distribuída, como ORTModule, DeepSpeed e LoRA do ONNX Runtime Training para acelerar o processo de treinamento.
GenAIOps
As principais atividades durante esse estágio começam com a descoberta e avaliação de modelos existentes para identificar um que seja pré-treinado para o caso de uso específico. Este é um processo iterativo. Depois de encontrar um modelo adequado, ele pode se beneficiar de ser refinado para aterramento específico do domínio, que também envolve etapas iterativas e requer um certo nível de orquestração.
A integração e a implantação de modelos exigem ferramentas e práticas especializadas que vão além dos recursos tradicionais de MLOps, incluindo modelos de orquestração, índices vetoriais, prompts e blocos de código.
Ferramentas
Para lidar com tarefas de descoberta, aproveite os catálogos de modelos que incluem modelos de vários provedores. O Catálogo de modelos no Azure AI Studio permite que você avalie entre coleções coletadas e implante modelos com eficiência.
O fluxo de prompt do Azure Machine Learning pode ajudar no desenvolvimento do código de orquestração, permitindo a prototipagem, a experimentação, a iteração e a engenharia de prompt. Esses fluxos podem ser implantados em pontos de extremidade gerenciados do Azure Machine Learning. Avalie se você pode executar e implantar os fluxos com sua tecnologia de pipeline de CI/CD existente.
Implantação
Durante esse estágio, o modelo é implantado em uma plataforma de hospedagem e inferência ou na camada de serviço de cargas de trabalho de IA. As APIs precisam ser empacotadas como um contêiner escalonável. A plataforma de contêiner pode ser uma computação gerenciada ou uma plataforma de hospedagem personalizada. As práticas operacionais devem garantir a implantação segura e permitir reversões.
Comece com PaaS (plataforma como serviço) e soluções sem servidor, como o Serviço OpenAI do Azure, para simplificar a adoção e o gerenciamento. Considere usar a API sem servidor do Azure Machine Learning para agregar o acesso ao ponto de extremidade. Os clusters de computação gerenciados são uma opção viável para necessidades avançadas. A auto-hospedagem no AKS é outra opção. Certifique-se de dimensionar corretamente sua computação e manter o isolamento adequado de outras cargas de trabalho. Você também pode considerar opções como hospedar totalmente seu modelo como infraestrutura como serviço (IaaS). A IaaS oferece flexibilidade, mas pode adicionar carga operacional. Essas opções são descritas em Plataforma de aplicativos.
Este estágio apresenta a última chance de detectar problemas antes de mover o modelo para produção. Os processos de teste devem incluir etapas de validação para garantir que o modelo esteja configurado para fornecer previsões conforme o esperado.
Você deve integrar o modelo ao ambiente de produção existente seguindo processos de exposição progressiva e usando implantações lado a lado. O modelo canário é uma maneira comum de lançar novos modelos. Com este método, a base de usuários é aumentada gradualmente. A implantação azul-verde é outro método.
Ferramentas
Você pode usar pipelines do Azure Machine Learning ou Azure Pipelines para implantar seus modelos para inferência. O Machine Learning fornece vários recursos para operações simplificadas, incluindo provisionamento de nós, atualizações do sistema operacional, dimensionamento automático, monitoramento e redes virtuais isoladas.
O Machine Learning também dá suporte à implantação azul-verde, que permite que um único ponto de extremidade contenha várias implantações.
Se você usar outras plataformas de hospedagem, como Aplicativos de Contêiner do Azure ou Serviço de Aplicativo do Azure, será responsável pelas operações, incluindo provisionamento e dimensionamento. Use Azure DevOps, pipelines do GitHub ou sua escolha de tecnologia de CI/CD nesses casos.
Monitoramento
O monitoramento é uma estratégia fundamental e é aplicado em todas as etapas. É um processo contínuo e serve como uma entrada para portões de qualidade que garantem que as cargas de trabalho de IA sejam rigorosamente testadas para manter a consistência e a confiabilidade durante todo o ciclo de vida do desenvolvimento. Os modelos devem ser monitorados tanto do ponto de vista operacional quanto da ciência de dados.
É altamente recomendável que você tenha um processo de monitoramento de loop interno do DataOps que meça a proximidade de uma barra de qualidade de aceitação e verifique se há anomalias.
Para modelos pré-treinados, também é importante monitorar o desvio de dados e o desempenho, com foco principal na relevância. Avalie as entradas (prompts) e as saídas (conclusões) para garantir que sejam relevantes e precisas. Além disso, esteja ciente dos riscos de segurança, como tentativas de manipular o comportamento do modelo por meio de prompts mal-intencionados. Certifique-se de que haja uma moderação de conteúdo completa que inspecione os dados em ambas as direções e filtre o conteúdo impróprio. Essas considerações são descritas na área de design do ResponsibleAI.
Após a implantação, as operações de monitoramento são necessárias para resolver problemas como a deterioração do modelo. Os modelos podem se tornar obsoletos devido a alterações nos dados ou alterações externas que podem fazer com que o modelo produza resultados irrelevantes. Como medida proativa, use processos automatizados para monitoramento contínuo e avalie e treine novamente para manter a precisão e a relevância. Além disso, você precisa monitorar as métricas de infraestrutura e carga de trabalho, como faria com qualquer outra carga de trabalho, para ajudar a garantir o desempenho e a confiabilidade ideais. Para obter mais informações, consulte Testando a deterioração do modelo.
Ferramentas
Invista em ferramentas que facilitem a coleta de métricas de pontos de extremidade de inferência, como o coletor de dados do Azure Machine Learning.
Você também precisa de observabilidade do desempenho do modelo, desvio de dados e segurança e qualidade para IA generativa.
Para obter mais informações, confira estes tópicos:
Automação
As cargas de trabalho de IA são complexas porque o ciclo de vida geral envolve muitas funções, mudanças frequentes e etapas inter-relacionadas. Os processos manuais podem ser propensos a erros e inconsistências. A automação na hospedagem do modelo de processamento de dados ajuda a garantir a repetibilidade e a eficiência. A automação nem sempre é necessária, mas é uma maneira eficaz de gerenciar essas complexidades. Aqui estão alguns casos de uso em que a automação pode mitigar riscos:
Ao contrário da implantação de código tradicional, modelos e soluções não determinísticos em IA/aprendizado de máquina exigem experimentação e treinamento iterativos. Quando várias equipes colaboram, a automação, como forma de impor processos padronizados, pode ajudar a manter a consistência, a reprodutibilidade e a colaboração eficaz entre cientistas de dados, engenheiros e equipes de operações.
O ciclo de vida do modelo envolve dois tipos principais de treinamento:
O treinamento on-line incorpora dados recentes ao modelo com frequência, às vezes diariamente, para garantir que as decisões sejam baseadas nas informações mais recentes. Esse treinamento é integrado à carga de trabalho para que o modelo seja atualizado continuamente como parte do processo regular.
O treinamento offline treina o modelo com menos frequência, permitindo um intervalo maior entre as atualizações. O processo de treinamento é separado da carga de trabalho principal e é feito de forma assíncrona. Depois que o novo modelo estiver pronto, ele será integrado ao sistema.
A confiabilidade pode ser comprometida se as atualizações não forem frequentes. Se uma atualização for perdida, ela poderá ser adiada sem maiores problemas. Este conceito também se aplica aos dados de aterramento. Por exemplo, se você usar RAG, deverá decidir se precisa usar dados recentes ou se dados um pouco mais antigos são suficientes. Ambos os cenários envolvem equilibrar a necessidade de informações atualizadas com a praticidade da frequência de atualização. Você deve realizar o treinamento online por meio da automação devido à frequência e confiabilidade necessárias. Para treinamento offline, devido à frequência necessária, você precisa justificar a automação realizando uma análise de custo-benefício. Além disso, você pode executar o treinamento offline usando recursos mais baratos, como hardware offline.
Os processos tradicionais de DevOps são normalmente afetados por mudanças estruturais. No entanto, em IA e aprendizado de máquina, os modelos são treinados em dados de produção. A deterioração do modelo representa um risco significativo e pode levar à diminuição do desempenho ao longo do tempo se não for monitorada. A coleta e a análise automatizadas de métricas de desempenho, alertas e retreinamento de modelos são necessárias para manter a eficácia do modelo. Use a automação de uma forma que possa ajudá-lo a detectar alterações nos dados e nas dependências do modelo para obter uma compreensão clara do estado atual a qualquer momento.
Os modelos podem ser treinados com duas abordagens distintas.
- Os modelos são treinados no ambiente de desenvolvimento com dados de produção completos e apenas o artefato é promovido por meio de ambientes. Essa abordagem pode reduzir os custos computacionais, mas requer segurança mais rígida para lidar com dados de produção nos ambientes inferiores e pode não ser possível em todas as organizações.
- O modelo é treinado em cada ambiente. A promoção de código pode ajudar na estabilidade porque o código de treinamento é revisado e testado nos ambientes inferiores, mas aumenta o custo da computação.
As duas abordagens têm prós e contras. A escolha da abordagem certa depende das prioridades da sua organização e das práticas do Ciclo de Vida de Desenvolvimento de Software (SDLC) da carga de trabalho. Independentemente do método, testes e avaliações completos do modelo antes da implantação da produção são essenciais
Seu código de automação deve incorporar a linhagem de dados para dar suporte à auditabilidade , fornecendo um registro claro dos estágios de processamento de dados. Esse registro ajuda a gerenciar expectativas e demonstra como as decisões foram tomadas para que você possa resolver quaisquer preocupações sobre os resultados.
Pipelines de implantação
Em cargas de trabalho de IA/aprendizado de máquina, o desenvolvimento de modelos envolve a criação, validação e promoção de modelos para modelar plataformas de hospedagem. É importante ter pipelines de implantação que simplifiquem fluxos de trabalho complexos relacionados ao processamento de dados, engenharia de recursos, treinamento ou aumento de modelo e implantação em produção. Dada a natureza não determinística da IA, que torna os processos opacos, você precisa incorporar testes qualitativos em pipelines de lançamento e sistemas de monitoramento.
Embora MLOps e GenAIOps possam exigir atividades distintas de IA e as principais tecnologias possam ser diferentes, os conceitos subjacentes permanecem semelhantes aos do DevOps. Recomendamos que você aplique as práticas recomendadas de seus processos de DevOps existentes. Integre as atividades de IA aos pipelines existentes da sua carga de trabalho.
Normalmente, as cargas de trabalho de IA envolvem implantações de código tradicionais. Você pode optar por lidar com a implantação do modelo junto com o código ou separadamente em seu próprio ciclo de vida. A primeira abordagem é preferível. Esteja preparado para empacotar modelos e endpoints de inferência com implantação de carga de trabalho para manter as operações de IA focadas principalmente na preparação de dados, treinamento/ajuste fino, gerenciamento de dados de base e monitoramento.
Reavalie como os seguintes ativos podem ser adaptados para cobrir todo o ciclo de vida de MLOps e GenAIOps, desde a pré-produção até a produção:
- Ferramentas de infraestrutura como código (IaC)
- Pipelines de CI/CD
- A pilha de observabilidade para rastrear e identificar problemas
Ferramentas
Você pode estender os fluxos de trabalho do Azure Pipelines e do GitHub Actions, comumente usados para CI/CD, para modelos de aprendizado de máquina. Eles ajudam a implantar a infraestrutura de machine learning, componentes de carga de trabalho personalizados, código de orquestração e modelos. Combine pipelines do Azure Machine Learning com pipelines do Azure DevOps ou GitHub. Para obter mais informações, consulte Usar o Azure Pipelines com o Azure Machine Learning.
Dois fatores principais influenciam sua escolha da combinação certa de ferramentas: caso de uso e recursos. Por exemplo, os pipelines do Azure Machine Learning são ótimos para a orquestração executada por cientistas de dados. Ele possui um rico conjunto de recursos que suporta reutilização, armazenamento em cache e muito mais. Para opções de ferramentas, consulte Qual tecnologia de pipeline do Azure devo usar?.
Manutenção do modelo
O cenário de IA/ML é competitivo com inovação contínua. Novos modelos surgem com frequência, novos casos de uso são descobertos e novas fontes de dados se tornam disponíveis. Como resultado, o decaimento do modelo é um desafio comum.
Para evitar a degradação ou desvio do desempenho do modelo ao longo do tempo, você precisa implementar processos automatizados para monitoramento, avaliação e retreinamento contínuos. Por exemplo:
Manter um catálogo de modelos. Automatize o processo de descoberta de novos modelos e atualização do catálogo.
Adapte-se a novos casos de uso. À medida que novos casos de uso são adicionados aos requisitos de carga de trabalho, antecipe as consultas e ajuste sua lógica de processamento de dados de acordo.
Incorpore novas fontes de dados. Se novas fontes de dados puderem aprimorar o poder preditivo ou a relevância do seu modelo, atualize seu pipeline de ingestão de dados para se conectar e extrair dados dessas fontes.
Avalie a conformidade com os requisitos regulamentares. Ao se adaptar a novos recursos, certifique-se de que as alterações permaneçam válidas dentro das restrições dos padrões de conformidade organizacionais ou externos.
Implemente um processo formal para acompanhar a melhoria contínua e incorpore o autoaperfeiçoamento como um subprocesso dentro desse ciclo.
Evolução contínua
Revise e melhore regularmente as operações e incentive a inovação.
O modelo de maturidade MLOps progride de processos manuais para automação completa. Comece com compilações e monitoramento manuais e incorpore compilações automatizadas de aplicativos, ambientes de treinamento e implantação em fases, conforme justificado por métricas abrangentes. Para obter mais informações, consulte Modelo de maturidade de MLOps.
Os níveis de maturidade do GenAIOps passam de modelos básicos para implantação estruturada, usando progressivamente técnicas de otimização automatizadas. Para obter mais informações, consulte Avançar seu nível de maturidade para GenAIOps.