Condividi tramite


Ottimizzazione delle prestazioni per carichi di lavoro applicativi intelligenti

L'efficienza delle prestazioni è la capacità del carico di lavoro di ridimensionarsi in modo efficiente per soddisfare le esigenze poste dagli utenti. Il monitoraggio delle prestazioni del carico di lavoro dell'applicazione intelligente è fondamentale per garantire che funzioni in modo efficace ed efficiente.

Il team del carico di lavoro deve stabilire metriche chiave delle prestazioni, esaminare regolarmente le prestazioni del sistema e diagnosticare tempestivamente eventuali problemi. Procedure di monitoraggio e diagnostica efficaci aiutano a mantenere l'affidabilità del sistema e la soddisfazione dell'utente.

Definire gli obiettivi per le prestazioni

L'identificazione delle metriche chiave delle prestazioni comporta la determinazione delle misurazioni essenziali che tengono traccia dei progressi verso il raggiungimento degli obiettivi di prestazioni del carico di lavoro. Queste metriche forniscono un modo quantificabile per misurare e migliorare l'efficienza delle prestazioni.

Quando identifichi le metriche chiave su cui concentrarti, considera le metriche relative a capacità, tempo di risposta, tasso di deviazione, coinvolgimento e risultati:

  • Capacità: velocità effettiva e concorrenza sono parametri di capacità del campione. La velocità effettiva si riferisce alla capacità di gestire un numero specifico di transazioni entro un determinato periodo di tempo. Ad esempio, un agente potrebbe gestire 200.000 sessioni di chat al mese. Considera anche le variazioni stagionali e il picco massimo previsto di conversazioni simultanee. La concorrenza è una misura di utenti o azioni simultanee. Ad esempio, un agente potrebbe gestire un massimo di 5.000 chat simultanee durante l'alta stagione. La comprensione dei volumi di destinazione consente di convalidare l'architettura e la scalabilità di destinazione.

  • Tempo di risposta: la latenza e il tempo di caricamento sono parametri temporali risposta comuni. Latenza è il tempo necessario per rispondere a una richiesta (200 millisecondi). Il tempo di carico è il tempo impiegato da un agente per attivarsi e rispondere al primo messaggio. Comprendere la latenza massima prevista per il agente per rispondere alle query e definire un approccio per la gestione delle azioni a esecuzione prolungata (ad esempio, l'attesa che un sistema esterno restituisca dati).

  • Tasso di deviazione: nel contesto dell'IA conversazionale, la deviazione è un indicatore che rappresenta la percentuale di richieste completate in modalità self-service che altrimenti verrebbero gestite dai rappresentanti del servizio clienti. In altre parole, si riferisce al numero di attività che un team non deve più gestire a causa dell'automazione. L'ottimizzazione del tasso di deflessione dell'agente è una delle principali aree di interesse per le organizzazioni per raggiungere i propri obiettivi aziendali, dal ritorno sull'investimento (ROI) e la soddisfazione del cliente (CSAT), al miglioramento delle prestazioni complessive dell'agente. Microsoft Copilot Studio fornisce una panoramica delle prestazioni dell'agente, inclusi indicatori chiave come il tasso di risoluzione, il tasso di escalation e il CSAT.

  • Interazione e risultati: il monitoraggio dell'engagement delle conversazioni e dei risultati è essenziale per misurare le metriche delle prestazioni degli agenti e identificare le aree di miglioramento. Altre informazioni in Misurazione dell'engagement dell'agente e Misurazione dei risultati dell'agente.

Pianificazione delle prestazioni

Le risorse nel carico di lavoro presentano limitazioni in termini di prestazioni. Le limitazioni delle prestazioni si applicano alle funzionalità di ciascun servizio. È necessario comprendere i limiti delle risorse nel carico di lavoro e tenerne conto nelle decisioni di progettazione. Ad esempio, dovresti sapere se le limitazioni delle risorse richiedono di modificare l'approccio di progettazione o di modificare completamente le risorse.

  • Comprendere i volumi di destinazione. I volumi di destinazione consentono inoltre di convalidare l'architettura e la scala di destinazione, gli aspetti relativi alle licenze dell'IA generativa dell'agente e il potenziale effetto sull'archiviazione Dataverse per le trascrizioni delle conversazioni.
  • Comprensione dei limiti della piattaforma. Quando si integra il carico di lavoro dell'applicazione intelligente con sistemi esterni, ad esempio tramite Power Automate o richieste HTTP, è importante verificare che ogni componente sia in grado di gestire il carico.
  • Identifica i colli di bottiglia. Misura la produttività e i tempi di risposta per identificare i componenti del sistema che potrebbero diventare problematici con l'aumentare del carico di lavoro. Identifica i colli di bottiglia nel processo end-to-end usando funzionalità di analisi del mining dei processi come la rilavorazione e l'analisi della causa radice.

Altre informazioni: Elementi consigliati per la pianificazione delle prestazioni

Monitoraggio delle prestazioni

L'ottimizzazione delle prestazioni richiede dati per misurare le prestazioni attuali di un carico di lavoro o di un flusso rispetto ai relativi obiettivi prestazionali. Raccogliere una quantità e una varietà di dati sufficienti per misurare con precisione le prestazioni del codice e dell'infrastruttura rispetto agli obiettivi di prestazioni prefissati. Assicurati che ogni componente e flusso all'interno del carico di lavoro generi automaticamente metriche e log continui e significativi.

Monitora attentamente le prestazioni del carico di lavoro dell'applicazione intelligente per assicurarti che funzioni al massimo dell'efficacia e dell'efficienza.

Copilot Studio fornisce analisi complete predefinite che consentono di comprendere l'utilizzo di un agente e gli indicatori di prestazioni chiave.

È possibile visualizzare i report relativi a:

  • Prestazioni e uso
  • Soddisfazione del cliente
  • Informazioni sessione
  • Utilizzo dell'argomento
  • Sessioni fatturate

Oltre alle funzionalità di analisi native all'interno di Copilot Studio, puoi inviare dati di telemetria ad Application Insights. Altre informazioni in Acquisire la telemetria con Application Insights. Monitoraggio continuo delle prestazioni e rilevamento delle anomalie tramite l'utilizzo di strumenti quali Monitoraggio di Azure, Log Analytics, Application Insights e avvisi.

Definisci gli indicatori di prestazioni chiave (KPI) che intendi monitorare per misurare il successo del carico di lavoro dell'applicazione intelligente, come il tasso di coinvolgimento, il tasso di risoluzione e il tasso di deviazione. Innanzitutto, esamina i dashboard nativi per comprendere i dati disponibili. Quindi, decidi se la creazione di un report personalizzato può soddisfare meglio le tue esigenze specifiche.

Altre informazioni:

Ottimizzazione delle prestazioni continua

L'ottimizzazione proattiva delle prestazioni comporta l'implementazione di misure per migliorare e potenziare le prestazioni del carico di lavoro prima che si verifichino problemi. Le misure proattive includono l'identificazione di potenziali colli di bottiglia, il monitoraggio delle metriche delle prestazioni e l'implementazione di ottimizzazioni per garantire che il carico di lavoro venga eseguito in modo efficiente e soddisfi gli obiettivi di prestazioni.

Per migliorare continuamente il carico di lavoro dell'applicazione intelligente, pianifica revisioni regolari delle prestazioni dell'agente:

Indicatore di prestazioni Definizione
Frequenza risoluzione Percentuale di richieste degli utenti che vengono risolte con successo dall'agente senza richiedere l'escalation a un rappresentante del servizio clienti.
Tasso di interazione Percentuale del totale delle sessioni attive. Una sessione è considerata attiva quando un utente interagisce con l'agente in modo significativo, ad esempio attivando un argomento non di sistema, eseguendo l'escalation della sessione o richiamando un argomento di fallback.
Tasso di abbandono Percentuale di sessioni attive che terminano senza raggiungere una risoluzione o un'escalation. In sostanza, misura la frequenza con cui gli utenti lasciano o smettono di interagire con l'agente prima che il loro problema venga risolto o inoltrato a un rappresentante.
Frequenza di escalation Percentuale di sessioni impegnate di cui è stata eseguita l'escalation a un rappresentante. Questa metrica è fondamentale per comprendere la frequenza con cui il agente non è in grado di risolvere le query degli utenti da solo e richiede l'intervento umano.
Espressioni non riconosciute Si verifica quando il modello di comprensione del linguaggio naturale (NLU) dell'agente non è in grado di associare l'input di un utente a un intento o un argomento predefinito. Il sistema non è in grado di determinare l'intento dell'utente in base all'input fornito.
CSAT Soddisfazione del cliente.
Argomenti con bassa risoluzione Si riferisce ad argomenti di conversazione che spesso non riescono a risolvere in modo efficace le query degli utenti. Questi argomenti spesso portano all'insoddisfazione degli utenti, all'abbandono o all'escalation a un rappresentante.

Questa revisione consente di stabilire le priorità nell'elenco di attività in sospeso degli aggiornamenti agente. Ad esempio, se le espressioni non riconosciute vengono spesso inoltrate a un rappresentante del servizio clienti, cogli l'occasione per migliorare l'autonomia del sistema. Analizza i modelli utente che attivano la soluzione alternativa e le espressioni non riconosciute ed esegui il training degli argomenti esistenti o creane di nuovi per fornire gli strumenti all'agente in modo da soddisfare meglio le esigenze degli utenti.

Altre informazioni: