Conceber princípios de cargas de trabalho de aplicações inteligentes

Artigo
01/15/2025

As orientações sobre planeamento, desenvolvimento e manutenção de cargas de trabalho de aplicações inteligentes é baseada no Well-Architected do Power Platform e nos respetivos cinco pilares de excelência arquitetónica.

Pilar Well-Architected	Resumo
Fiabilidade	Uma carga de trabalho de aplicações inteligentes requer resiliência na camada de arquitetura para garantir que os modelos de IA e os fluxos de trabalho estão altamente disponíveis e podem recuperar rapidamente de falhas. Implemente mecanismos robustos de processamento de erros. Uma arquitetura resiliente também mantém a integridade dos dados usados pelos modelos de IA, garantindo saídas consistentes e precisas.
Segurança	Geralmente, uma carga de trabalho de aplicações inteligentes lida com dados confidenciais. Proteja dados confidenciais usados e gerados por modelos de IA. Implemente encriptação, controlos de acesso e auditorias de segurança regulares. Garanta que a carga de trabalho está em conformidade com as normas regulamentares relevantes, como RGPD (Regulamento Geral sobre a Proteção de Dados) e HIPAA (Health Insurance Portability and Accountability Act), para proteger a privacidade e os dados dos utilizadores.
Eficiência de desempenho	Uma carga de trabalho de aplicações inteligentes tem de ser concebida para ser dimensionada de forma totalmente integrada com volumes de dados e procura crescente dos utilizadores. Identifique as principais métricas de desempenho e implemente a monitorização para rastrear o progresso relativamente ao cumprimento dos objetivos de desempenho da carga de trabalho. No contexto de cargas de trabalho de aplicações inteligentes, o desempenho também considera o número de pedidos e interações que podem ser concluídas através do atendimento automático, o que, de outra forma, exigiria intervenção humana.
Excelência operacional	Uma carga de trabalho de aplicações inteligentes requer monitorização e registo abrangentes para rastrear o desempenho e a integridade de modelos, fluxos de trabalho e conversas de IA. A monitorização ajuda a identificar e a resolver problemas rapidamente. O pilar Excelência Operacional recomenda a utilização da automatização para simplificar as operações, reduzir a intervenção manual e minimizar o risco de erro humano.
Otimização da experiência	Uma carga de trabalho de aplicações inteligentes deve dar prioridade ao design da conversa para garantir uma experiência amigável que permita que os utilizadores atinjam os seus objetivos com o mínimo de esforço. O design deve considerar tópicos que a IA generativa não pode processar e incorporar mecanismos de contingência. Implemente também mecanismos para recolher feedback dos utilizadores e refinar continuamente os modelos de IA e a carga de trabalho com base nesse feedback.

Fiabilidade

Ao conceber uma carga de trabalho de aplicações inteligentes com o Power Platform, concentre-se na resiliência e na disponibilidade.

Resiliência é a capacidade de um sistema recuperar de falhas e continuar a funcionar.
Disponibilidade garante um tempo de atividade ininterrupto. A elevada disponibilidade minimiza o tempo de inatividade das aplicações e melhora a recuperação de incidentes.

A fiabilidade é importante no desenvolvimento de qualquer carga de trabalho e a IA generativa não é exceção. Na verdade, há fatores únicos a serem considerados ao projetar cargas de trabalho de IA generativa. Reconhecer e enfatizar a resiliência é essencial para cargas de trabalho de IA generativa para garantir a disponibilidade organizacional e manter a continuidade dos negócios.

Falhas podem acontecer na cloud. Em vez de tentar evitar falhas por completo, o seu objetivo deve ser minimizar os efeitos de um único componente com falha. Use as informações a seguir para minimizar o tempo de inatividade e garantir que as práticas recomendadas para elevada disponibilidade são incorporadas na carga de trabalho de aplicações inteligentes:

Certifique-se de que a carga de trabalho pode lidar com falhas e continuar a operar, mesmo que com funcionalidade reduzida. Identificar possíveis falhas e tornar o sistema resiliente, para tolerar e recuperar dessas falhas.
Torne a carga de trabalho observável para que as equipas de programação aprendam com as falhas. Identifique e resolva problemas rapidamente ao implementar mecanismos de monitorização, registo e alerta.
Certifique-se de que a carga de trabalho pode ser dimensionada para lidar com cargas variáveis, especialmente importante para cargas de trabalho de IA que possam ter procura flutuante.
Implemente mecanismos robustos de processamento de erros. Configure alertas automatizados para falhas do sistema e tenha um plano claro para recuperação rápida.
Valide a arquitetura e a escala de destino compreendendo os volumes de destino de mensagens de chat ou conversas. Os volumes de destino também ajudam a validar os aspectos de licenciamento da aplicação inteligente e o efeito potencial no armazenamento do Dataverse de transcrições de conversas.

Para aplicações inteligentes que usam recursos de IA generativa, considere não apenas a resiliência e a disponibilidade, mas também a fiabilidade e a precisão das respostas fornecidas pela carga de trabalho inteligente. Considere as seguintes recomendações para cada consideração de design:

Otimizar para Geração Aumentada de Obtenção (RAG): garanta que os seus dados estão limpos e bem estruturados, crie incorporações e índices eficientes para obtenção rápida e implemente mecanismos robustos de monitorização e feedback para melhorar continuamente o desempenho da carga de trabalho.
Pedidos eficazes: crie pedidos precisos e contextualmente relevantes para orientar a IA a produzir respostas precisas.
Avaliação regular: implemente monitorização e testes contínuos dos resultados de IA para avaliar a precisão, relevância e adesão ética.
Ciclos de feedback: estabeleça mecanismos de feedback onde os utilizadores podem reportar imprecisões, que podem ser usados para refinar e melhorar os modelos. O Microsoft Copilot Studio fornece análises de satisfação do cliente, que fornecem informações acionáveis sobre os fatores de satisfação ou insatisfação com as respostas do seu agente.
Formação específica do domínio: ajuste modelos em dados específicos de domínio para melhorar a precisão em contextos específicos.
Atualizações regulares: atualize periodicamente os modelos com novos dados para manter a relevância e precisão.
Intenções não reconhecidas: lide com intenções não reconhecidas usando Respostas generativas para encontrar respostas de origens de dados disponíveis e usando o Tópico de contingência para integração com outros sistemas.

Segurança

Num modelo de responsabilidade partilhada:

As organizações são as principais responsáveis pela gestão e operação de cargas de trabalho.
A Microsoft gere a segurança da infraestrutura subjacente, incluindo datacenters, segurança de rede e medidas de segurança física e recursos de segurança integrados, como encriptação, gestão de identidade e conformidade com as normas do setor. Mais informações em Segurança no Microsoft Power Platform e Segurança e governação do Copilot Studio.

Recomendamos que avalie regularmente os serviços e as tecnologias para garantir que a sua postura de segurança se adapta ao cenário de ameaças em evolução. Estabelecer uma compreensão clara do modelo de responsabilidade partilhada com os fornecedores é essencial ao colaborar para implementar medidas de segurança.

Pode usar vários métodos para proteger as suas cargas de trabalho de aplicações inteligentes:

Autenticação de utilizador e controlo de acessos: implemente medidas robustas de autenticação e controlo de acessos para garantir que apenas os utilizadores autorizados podem aceder à carga de trabalho de aplicações inteligentes. O acesso não autorizado à carga de trabalho de aplicações inteligentes pode resultar em violações de dados, uso indevido de recursos e exposição potencial de informações confidenciais. Mecanismos de autenticação fracos ou ineficazes também podem resultar em contas de utilizador comprometidas.
Conformidade: garanta que os dados estão protegidos e que são geridos em conformidade com os requisitos regulamentares. Compreenda os regulamentos locais, mantenha-se informado sobre as leis locais de proteção de dados e certifique-se de que a sua estratégia de residência de dados está em conformidade com esses regulamentos.
Integração: proteja todas as integrações com principais de serviço. Monitorize e proteja a integridade da rede de pontos finais internos e externos através de dispositivos e capacidades de segurança, como firewalls ou firewalls de aplicações Web.
Monitorização e auditoria contínuas: monitorize e audite continuamente as atividades de cargas de trabalho para detetar e responder proativamente.
Ferramentas de segurança do Azure: use as ferramentas de segurança do Azure integradas, como o Microsoft Defender para a Cloud e a Azure Policy, para monitorizar e aplicar políticas de segurança.
Preparação de colaboradores: prepare colaboradores sobre as melhores práticas de proteção de dados e a importância de aderir aos requisitos de residência de dados.

Eficiência do desempenho

A eficiência do desempenho é a capacidade da sua carga de trabalho de dimensionar eficientemente para satisfazer a procura pelos utilizadores.

Aumentar a eficiência do desempenho ao:

Compreender os volumes de destino para validar a arquitetura e a escala de destino. Os volumes de destino também ajudam a validar os aspectos de licenciamento da IA generativa (agente) e o efeito potencial no armazenamento do Dataverse de transcrições de conversas.
Compreenda os limites da plataforma. Quando integra a sua carga de trabalho de aplicações inteligentes com sistemas externos, por exemplo, através de pedidos Power Automate ou HTTP, é importante validar se cada componente pode lidar com a carga.
Monitorize continuamente o desempenho e detete anomalias usando ferramentas como o Azure Monitor, a Análise de Registos, o Application Insights e alertas.
Compreender os tempos de resposta esperados para:
- Primeiro carregamento de chat e primeira resposta de mensagem
- Latência máxima para o agente responder às consultas do utilizador
- Abordagem para lidar com ações de longa duração (por exemplo, esperar que um sistema externo obtenha dados)
Otimizar a taxa de deflexão, ou a taxa na qual os pedidos são concluídos de forma automática devido à automatização (reduzindo o número de pedidos que requerem assistência humana). Mais informações em Otimização do desempenho para cargas de trabalho de aplicações inteligentes.

Considerar cada um destes aspetos ajuda a criar uma carga de trabalho de aplicações inteligentes com uma experiência de utilizador consistente e coesa.

Excelência operacional

A excelência operacional envolve o desenvolvimento de processos eficientes para suportar a carga de trabalho de aplicações inteligentes.

Falhas operacionais podem afetar outras áreas do design, bem como o sucesso geral da carga de trabalho de aplicações inteligentes. É importante adaptar os seus processos operacionais para suportar uma carga de trabalho de aplicações inteligentes em produção. As seguintes recomendações fomentam a excelência operacional:

Automatize processos de compilação e lançamento. Processos de compilação e lançamento totalmente automatizados reduzem o atrito e aumentam a velocidade de implementação de atualizações, trazendo capacidade de repetição e consistência entre ambientes. A automatização encurta o ciclo de feedback, desde programadores que enviam alterações até a obtenção de informações sobre a qualidade do código, a cobertura do teste, a resiliência, a segurança e o desempenho, o que contribui para a produtividade do programador.
Informações de Conformidade e Governação.
Analise o desempenho e a integridade do seu ambiente em produção.
Mantenha documentação que capture:
- Procedimentos de resolução de problemas
- Planos de recuperação após desastre
Forneça orientações sobre como acelerar o processo de resolução de problemas.
Adote a melhoria operacional contínua. Dê prioridade à melhoria da rotina do sistema e da experiência dos utilizadores. Use um modelo de integridade para compreender e medir a eficiência operacional, juntamente com mecanismos de feedback para permitir que as equipas de aplicações compreendam e resolvam as lacunas de maneira iterativa.

Estas recomendações podem ajudar a sua equipa a colaborar de forma eficiente e transparente.

Otimização da experiência

Uma carga de trabalho de aplicações inteligentes deve dar prioridade ao design da conversa para garantir uma experiência amigável que permita que os utilizadores atinjam os seus objetivos com o mínimo de esforço. O design deve abordar tópicos que a IA generativa não pode processar e incluir mecanismos de contingência. Implemente também mecanismos para recolher feedback dos utilizadores e refinar continuamente os modelos de IA e a carga de trabalho com base nesse feedback.

A otimização da experiência dos utilizadores para uma carga de trabalho de aplicações inteligentes envolve várias considerações importantes:

Design da conversa: crie conversas intuitivas e fáceis de navegar. Use uma linguagem clara e concisa e garanta que a IA possa lidar com consultas comuns de utilizadores de forma eficaz. Concentre-se em ajudar os utilizadores a atingir os objetivos com o mínimo de esforço. Compreenda as intenções dos utilizadores e forneça respostas relevantes rapidamente para garantir uma experiência de utilizador totalmente integrada e eficiente.
Limitações de processamento: implemente mecanismos de contingência para tópicos com que a IA generativa não pode lidar, como redirecionar utilizadores para representantes de suporte ao cliente ou fornecer recursos alternativos. Conceba processos robustos de processamento de erros para gerir entradas inesperadas com graciosidade. Informe os utilizadores quando a IA não conseguir processar o pedido e ofereça alternativas.
Feedback de utilizador: integre mecanismos para recolher feedback de utilizadores continuamente. O Microsoft Copilot Studio fornece análises de satisfação do cliente, que fornecem informações acionáveis sobre os fatores de satisfação ou insatisfação com as respostas do seu agente. Use o feedback recolhido para refinar e melhorar os modelos de IA e a carga de trabalho geral. Atualizações regulares com base na entrada de utilizador podem melhorar significativamente a experiência dos utilizadores.
Diferentes tipos de personalização: personalize pedidos e instruções para os alinhar com os seus casos de utilização específicos e necessidades de utilizador, para garantir respostas mais precisas e relevantes. Use o encadeamento dinâmico para automatizar acionador e gerir fluxos de tópicos de forma eficiente para reduzir a necessidade de tópicos predefinidos manualmente e melhorar a capacidade da IA de reconhecer a intenção dos utilizadores. Mais informações em Otimizar pedidos e configuração de tópicos.

Próximos passos

Os princípios da Estrutura do Well-Architected são incorporados em áreas de design de carga de trabalho de aplicações inteligentes. Cada área de design fornece orientações direcionadas para ajudar a aceder rapidamente às informações de que precisa para melhorar a produtividade de forma eficiente.

Comece por rever as considerações de design necessárias para suportar uma carga de trabalho:

Partilhar via