Principi di progettazione dei carichi di lavoro delle applicazioni intelligenti

Articolo
01/15/2025

Le linee guida per la pianificazione, lo sviluppo e la gestione dei carichi di lavoro delle applicazioni intelligenti si basano su Power Platform Well-Architected e sui suoi cinque pilastri di eccellenza.

Pilastro di Well-Architected	Riepilogo
Affidabilità	Un carico di lavoro di un'applicazione intelligente richiede resilienza a livello di architettura per garantire che i modelli e i flussi di lavoro di intelligenza artificiale siano altamente disponibili e possano essere ripristinati rapidamente in caso di errore. Implementare solidi meccanismi di gestione degli errori. Un'architettura resiliente mantiene inoltre l'integrità dei dati utilizzati dai modelli di intelligenza artificiale, garantendo output coerenti e accurati.
Sicurezza	Un carico di lavoro di un'applicazione intelligente gestisce spesso dati sensibili. Proteggi i dati sensibili utilizzati e generati dai modelli di intelligenza artificiale. Implementa la crittografia, i controlli di accesso e i controlli di sicurezza regolari. Assicurati che il carico di lavoro sia conforme agli standard normativi pertinenti, come GDPR (Regolamento generale sulla protezione dei dati) e HIPAA (Health Insurance Portability and Accountability Act), per proteggere la privacy e i dati degli utenti.
Efficienza prestazionale	Un carico di lavoro per applicazioni intelligenti deve essere progettato per adattarsi perfettamente all'aumento dei volumi di dati e delle richieste degli utenti. Identifica le metriche chiave delle prestazioni e implementa il monitoraggio per tenere traccia dei progressi verso il raggiungimento degli obiettivi di prestazioni del carico di lavoro. Nel contesto dei carichi di lavoro delle applicazioni intelligenti, le prestazioni tengono conto anche del numero di richieste e interazioni che possono essere completate tramite self-service, che altrimenti richiederebbero l'intervento umano.
Eccellenza operativa	Un carico di lavoro di un'applicazione intelligente richiede un monitoraggio e una registrazione completi per tenere traccia delle prestazioni e dell'integrità di modelli, flussi di lavoro e conversazioni di intelligenza artificiale. Il monitoraggio consente di identificare e risolvere rapidamente i problemi. Il pilastro dell'eccellenza operativa consiglia di utilizzare l'automazione per semplificare le operazioni, ridurre l'intervento manuale e ridurre al minimo il rischio di errore umano.
Ottimizzazione dell'esperienza	Un carico di lavoro di un'applicazione intelligente dovrebbe dare priorità alla progettazione delle conversazioni per garantire un'esperienza intuitiva che consenta agli utenti di raggiungere i propri obiettivi con il minimo sforzo. La progettazione deve tenere conto di argomenti che l'IA generativa non è in grado di gestire e incorporare meccanismi di fallback. Implementa anche meccanismi per raccogliere il feedback degli utenti e perfeziona continuamente i modelli di intelligenza artificiale e il carico di lavoro in base a questo feedback.

Affidabilità

Quando progetti un carico di lavoro di un'applicazione intelligente con Power Platform, concentrati su resilienza e disponibilità.

Resilienza è la capacità di un sistema di eseguire il ripristino dagli errori e continuare a funzionare.
La disponibilità garantisce tempi di attività ininterrotti. L'alta disponibilità riduce al minimo i tempi di inattività delle applicazioni e migliora il ripristino in caso di incidenti.

L'affidabilità è importante nello sviluppo di qualsiasi carico di lavoro e l'IA generativa non fa eccezione. In effetti, ci sono fattori unici da considerare quando si progettano carichi di lavoro di IA generativa. Riconoscere ed enfatizzare la resilienza è essenziale per i carichi di lavoro dell'IA generativa per garantire la disponibilità organizzativa e mantenere la continuità aziendale.

Gli errori possono verificarsi nel cloud. Invece di cercare di prevenire del tutto gli errori, l'obiettivo dovrebbe essere quello di ridurre al minimo gli effetti di un singolo componente guasto. Utilizzare le informazioni seguenti per ridurre al minimo i tempi di inattività e garantire che le procedure consigliate per l'alta disponibilità siano integrate nel carico di lavoro dell'applicazione intelligente:

Assicurati che il carico di lavoro sia in grado di gestire gli errori e continui a funzionare, anche se con funzionalità ridotte. Identificare potenziali guasti e rendere il sistema resiliente, per tollerarli e ripristinarli.
Rendi il carico di lavoro osservabile in modo che i team di sviluppo imparino dagli errori. Identifica e risolvi rapidamente i problemi implementando meccanismi di monitoraggio, registrazione e avviso.
Assicurati che il carico di lavoro possa essere ridimensionato per gestire carichi variabili, particolarmente importante per i carichi di lavoro di intelligenza artificiale che potrebbero avere richieste fluttuanti.
Implementa solidi meccanismi di gestione e ripristino degli errori. Imposta avvisi automatici per gli errori di sistema e disponi di un piano chiaro per un ripristino rapido.
Convalida l'architettura e la scalabilità di destinazione comprendendo i volumi di destinazione dei messaggi di chat o delle conversazioni. I volumi di destinazione consentono inoltre di convalidare gli aspetti relativi alle licenze dell'applicazione intelligente e il potenziale effetto sull'archiviazione Dataverse per le trascrizioni delle conversazioni.

Per le applicazioni intelligenti che utilizzano funzionalità di IA generativa, considera non solo la resilienza e la disponibilità, ma anche l'affidabilità e l'accuratezza delle risposte fornite dal carico di lavoro intelligente. Prendere in considerazione le raccomandazioni seguenti per ogni considerazione progettuale:

Ottimizza per la RAG (Retrieval Augmented Generation): assicurati che i dati siano puliti e ben strutturati, crea integrazioni e indici efficienti per un rapido recupero e implementa solidi meccanismi di monitoraggio e feedback per migliorare continuamente le prestazioni del carico di lavoro.
Prompt efficaci: progetta prompt precisi e contestualmente pertinenti per guidare l'IA a produrre risposte accurate.
Valutazione regolare: implementa il monitoraggio e il test continuo dei risultati dell'IA per valutarne l'accuratezza, la pertinenza e l'aderenza etica.
Cicli di feedback: stabilisci meccanismi di feedback in cui gli utenti possono segnalare imprecisioni, che possono quindi essere utilizzate per perfezionare e migliorare i modelli. Microsoft Copilot Studio fornisce l'analisi della soddisfazione dei clienti, che forniscono informazioni utili sui fattori di soddisfazione o insoddisfazione per le risposte del tuo agente.
Formazione specifica del dominio: ottimizza i modelli su dati specifici del dominio per migliorare l'accuratezza in contesti specifici.
Aggiornamenti regolari: aggiorna periodicamente i modelli con nuovi dati per mantenerne la pertinenza e l'accuratezza.
Finalità non riconosciute: gestisci le finalità non riconosciute usando risposte generative per trovare risposte dalle origini dati disponibili e usando l'argomento di fallback per l'integrazione con altri sistemi.

Sicurezza

In un modello di responsabilità condiviso:

Le organizzazioni sono principalmente responsabili della gestione e del funzionamento dei carichi di lavoro.
Microsoft gestisce la sicurezza dell'infrastruttura sottostante, inclusi i data center, la sicurezza della rete, le misure di sicurezza fisica e le funzionalità di sicurezza integrate come la crittografia, la gestione delle identità e la conformità agli standard di settore. Altre informazioni in Sicurezza in Microsoft Power Platform e Sicurezza e governance di Copilot Studio.

Ti consigliamo di valutare regolarmente i servizi e le tecnologie per assicurarti che il tuo comportamento di sicurezza si adatti all'evoluzione del panorama delle minacce. Stabilire una chiara comprensione del modello di responsabilità condivisa con i fornitori è essenziale quando si collabora per implementare misure di sicurezza.

È possibile utilizzare diversi metodi per proteggere i carichi di lavoro delle applicazioni intelligenti:

Autenticazione degli utenti e controllo degli accessi: implementa solide misure di autenticazione e controllo degli accessi per garantire che solo gli utenti autorizzati possano accedere al carico di lavoro dell'applicazione intelligente. L'accesso non autorizzato al carico di lavoro dell'applicazione intelligente può causare violazioni dei dati, uso improprio delle risorse e potenziale esposizione di informazioni sensibili. Meccanismi di autenticazione deboli o inefficaci possono anche causare la compromissione degli account utente.
Conformità: garantisci che i dati siano protetti e gestiti in conformità ai requisiti normativi. Comprendi le normative locali e tieniti informato sulle leggi locali sulla protezione dei dati e assicurati che la tua strategia di residenza dei dati sia conforme a tali normative.
Integrazione: proteggi tutte le integrazioni con le entità servizio. Monitora e proteggi l'integrità di rete degli endpoint interni ed esterni tramite funzionalità e appliance di sicurezza, come firewall o Web application firewall.
Monitoraggio e controllo continui: monitora e verifica continuamente le attività dei carichi di lavoro per rilevare e rispondere in modo proattivo.
Strumenti di sicurezza Azure: usa gli strumenti di sicurezza predefiniti di Azure, ad esempio Microsoft Defender for Cloud e Azure Policy, per monitorare e applicare i criteri di sicurezza.
Formazione dei dipendenti: forma i dipendenti sulle procedure consigliate per la protezione dei dati e sull'importanza di rispettare i requisiti di residenza dei dati.

Efficienza prestazionale

L'efficienza delle prestazioni è la capacità del carico di lavoro di ridimensionarsi in modo efficiente per soddisfare le esigenze poste dagli utenti.

Aumenta l'efficacia delle prestazioni tramite:

Comprendere i volumi di destinazione per convalidare l'architettura e la scalabilità di destinazione. I volumi di destinazione consentono inoltre di convalidare gli aspetti relativi alle licenze dell'IA generativa (agente) e il potenziale effetto sull'archiviazione Dataverse per le trascrizioni delle conversazioni.
Comprensione dei limiti della piattaforma. Quando si integra il carico di lavoro dell'applicazione intelligente con sistemi esterni, ad esempio tramite Power Automate o richieste HTTP, è importante verificare che ogni componente sia in grado di gestire il carico.
Monitoraggio continuo delle prestazioni e rilevamento delle anomalie tramite l'utilizzo di strumenti quali Monitoraggio di Azure, Log Analytics, Application Insights e avvisi.
Comprendere i tempi di risposta previsti per:
- Primo caricamento della chat e risposta al primo messaggio
- Latenza massima per l'agente per rispondere alle query dell'utente
- Approccio per la gestione di azioni a esecuzione prolungata (ad esempio, l'attesa che un sistema esterno restituisca dati)
Ottimizzazione della velocità di deviazione, ovvero la velocità con cui le richieste vengono completate in modalità self-service grazie all'automazione (riducendo il numero di richieste che richiedono l'assistenza umana). Altre informazioni in Ottimizzazione delle prestazioni per carichi di lavoro di applicazioni intelligenti.

La considerazione di ciascuno di questi aspetti consente di creare un carico di lavoro dell'applicazione intelligente con un'esperienza utente coerente e coesa.

Eccellenza operativa

L'eccellenza operativa implica lo sviluppo di processi efficienti per supportare il carico di lavoro dell'applicazione intelligente.

Gli errori operativi possono influire su altre aree di progettazione e sul successo complessivo del carico di lavoro dell'applicazione intelligente. È importante personalizzare i processi operativi per supportare un carico di lavoro dell'applicazione intelligente in produzione. Le raccomandazioni seguenti promuovono l'eccellenza operativa:

Automatizza i processi di compilazione e rilascio. I processi di compilazione e rilascio completamente automatizzati riducono l'attrito e aumentano la velocità di distribuzione degli aggiornamenti, garantendo ripetibilità e coerenza tra gli ambienti. L'automazione abbrevia il ciclo di feedback, da quando gli sviluppatori spingono le modifiche all'ottenimento di informazioni dettagliate sulla qualità del codice, la copertura dei test, la resilienza, la sicurezza e le prestazioni, tutti elementi che contribuiscono alla produttività degli sviluppatori.
Mantenere conformità e governance
Analizza le prestazioni e l'integrità dell'ambiente in produzione.
Mantenere la documentazione che acquisisce:
- Procedure di risoluzione dei problemi
- Piani di ripristino di emergenza
Fornire indicazioni per la correzione su come accelerare il processo di risoluzione dei problemi.
Adotta il miglioramento operativo continuo. Dare priorità al miglioramento ordinario del sistema e dell'esperienza utente. Utilizza un modello di integrità per comprendere e misurare l'efficienza operativa, insieme a meccanismi di feedback per consentire ai team delle applicazioni di comprendere e colmare le lacune in modo iterativo.

Questi consigli possono aiutare il tuo team a collaborare in modo efficiente e trasparente.

Ottimizzazione dell'esperienza

Un carico di lavoro di un'applicazione intelligente dovrebbe dare priorità alla progettazione delle conversazioni per garantire un'esperienza intuitiva che consenta agli utenti di raggiungere i propri obiettivi con il minimo sforzo. La progettazione deve affrontare argomenti che l'IA generativa non è in grado di gestire e includere meccanismi di fallback. Implementa anche meccanismi per raccogliere il feedback degli utenti e perfeziona continuamente i modelli di intelligenza artificiale e il carico di lavoro in base a questo feedback.

L'ottimizzazione dell'esperienza utente per un carico di lavoro di un'applicazione intelligente implica diverse considerazioni chiave:

Progettazione di conversazioni: progetta conversazioni intuitive e di facile accesso. Usa un linguaggio chiaro e conciso e assicurati che l'intelligenza artificiale sia in grado di gestire efficacemente le query degli utenti comuni. Concentrati sull'aiutare gli utenti a raggiungere i loro obiettivi con il minimo sforzo. Comprendi gli intenti degli utenti e fornisci rapidamente risposte pertinenti per garantire un'esperienza utente fluida ed efficiente.
Gestione delle limitazioni: implementa meccanismi di fallback per gli argomenti che l'IA generativa non è in grado di gestire, come il reindirizzamento degli utenti ai rappresentanti del servizio clienti o la fornitura di risorse alternative. Progetta solidi processi di gestione degli errori per gestire correttamente gli input imprevisti. Informa gli utenti quando l'IA non è in grado di elaborare la loro richiesta e offri alternative.
Feedback degli utenti: integra i meccanismi per raccogliere continuamente il feedback degli utenti. Microsoft Copilot Studio fornisce l'analisi della soddisfazione dei clienti, che forniscono informazioni utili sui fattori di soddisfazione o insoddisfazione per le risposte del tuo agente. Usa il feedback raccolto per perfezionare e migliorare i modelli di intelligenza artificiale e il carico di lavoro complessivo. Gli aggiornamenti regolari basati sull'input dell'utente possono migliorare significativamente l'esperienza dell'utente.
Personalizzazione: personalizza le richieste e le istruzioni per allinearle ai casi d'uso specifici e alle esigenze degli utenti, per garantire risposte più accurate e pertinenti. Utilizza il concatenamento dinamico per automatizzare i trigger e gestire i flussi di argomenti in modo efficiente per ridurre la necessità di argomenti predefiniti manualmente e migliorare la capacità dell'IA di riconoscere l'intento dell'utente. Altre informazioni in Ottimizzare le richieste e la configurazione degli argomenti.

Passaggi successivi

I principi di progettazione di Well-Architected Framework sono incorporati nelle aree di progettazione del carico di lavoro delle applicazioni intelligenti. Ogni area di progettazione fornisce una guida mirata per aiutarti ad accedere rapidamente alle informazioni necessarie per migliorare la produttività in modo efficiente.

Inizia esaminando le considerazioni di progettazione necessarie per supportare un carico di lavoro:

Condividi tramite