Azure OpenAi regurgitation?

PaoloPerliti 0 Punti di reputazione
2024-10-17T07:04:04.82+00:00

In data martedì 15 ottobre 2024, intorno alle 11:50 circa, le chiamate al modello gpt4o su Azure OpenAI hanno cominciato a dare segni di evidente rallentamento (a differenza delle chiamate al modello gpt4o-mini). Ad un certo punto, intorno alle 11:55, una chiamata al modello gpt4o, utilizzata in un flusso RAG (Retrieval-Augmented Generation), ha cominciato a rispondere in modo non solo sconnesso e non attinente (né alla domanda, né ai documenti forniti su Azure AI Search), ma in un'altra lingua e su un argomento che non c'entrava nulla con il contesto (come fosse una conversazione di un altro utente o una "regurgitation"). Preciso che la suddetta chiamata è stata fatta in un ambiente di sviluppo controllato e isolato, a cui lavorano solo 2 persone. Al momento della chiamata c'era un unico utente attivo.
I rallentamenti sono perdurati per tutta la giornata del 15 ottobre, solo il giorno seguente tutto sembra essere tornato alla normalità.

Cosa può essere successo?

Azure
Azure
Una piattaforma e un'infrastruttura di cloud computing per la creazione, la distribuzione e la gestione di applicazioni e servizi tramite una rete mondiale di data center gestiti da Microsoft.
137 domande
0 commenti Nessun commento
{count} voti

1 risposta

Ordina per: Più utili
  1. Monica Caprio (Convergys International Europe) 1,130 Punti di reputazione Personale Esterno Microsoft
    2024-10-22T07:08:14.0633333+00:00

    Gentile Paolo,

    Quello che descrivi sembra un comportamento anomalo, e potrebbe essere dovuto a una combinazione di fattori tecnici legati alla gestione dei modelli di intelligenza artificiale su Azure OpenAI. Ecco alcune possibili cause:

    1. Problemi di infrastruttura o congestione

    • Sovraccarico del sistema: Un'evidente possibilità è che ci sia stato un sovraccarico dell'infrastruttura che gestisce le chiamate al modello GPT-4. Questo può causare rallentamenti o ritardi nell'elaborazione delle richieste. L'eccessivo carico di richieste può aver saturato le risorse del server, con conseguente degrado delle performance. I modelli più grandi, come GPT-4, possono essere più vulnerabili a questo problema rispetto a modelli più leggeri come GPT-4o-mini.
    • Limitazioni di risorse: Un'altra ipotesi è che ci siano stati dei colli di bottiglia nelle risorse disponibili per eseguire il modello (CPU, GPU, o memoria), il che può portare a risposte più lente o non appropriate. È anche possibile che Azure abbia temporaneamente ridotto le risorse disponibili per il tuo tenant a causa di un aumento della domanda da altri clienti.

    2. Problemi specifici del modello GPT-4o

    • Degradazione delle prestazioni del modello: I modelli AI come GPT-4 possono avere problemi legati all'integrità dei dati durante i periodi di alto carico. Il fenomeno che descrivi, dove una chiamata restituisce una risposta incoerente o apparentemente "preso da un altro contesto," potrebbe indicare una situazione di corruzione del contesto della chiamata. Questo potrebbe essere legato a un bug nel sistema che gestisce la coda delle richieste o l'allocazione delle risorse per il modello.
    • Bug nel sistema di isolamento delle sessioni: Anche se il tuo ambiente di sviluppo è controllato e isolato, potrebbe essersi verificato un problema di gestione delle sessioni all'interno del sistema Azure OpenAI stesso. Se ci sono stati problemi nella gestione del contesto tra sessioni o utenti diversi, potrebbe essersi verificato un "mescolamento" di contesti, portando a risposte non pertinenti o, come tu descrivi, a una sorta di "regurgitation" di una conversazione di un altro utente.

    3. Problemi con il flusso RAG (Retrieval-Augmented Generation)

    • Errore nel sistema di Retrieval: Se la tua pipeline utilizza RAG, è possibile che il componente di retrieval (Azure AI Search) non abbia fornito i documenti corretti o abbia introdotto errori. Questo potrebbe spiegare perché la risposta era non attinente al contesto o completamente errata.
    • Problema di sincronizzazione: Potrebbe essersi verificato un problema temporaneo di sincronizzazione tra il sistema di retrieval e il modello di generazione. Un rallentamento nel fornire i documenti corretti potrebbe aver portato il modello GPT-4 a tentare di generare una risposta basata su input incompleti o errati.

    4. Bug o aggiornamenti in corso

    • Aggiornamenti o manutenzioni non segnalate: Potrebbe esserci stata un'attività di aggiornamento o manutenzione non annunciata su Azure OpenAI, che ha temporaneamente destabilizzato il comportamento del modello. Anche se l'ambiente è isolato, cambiamenti all'infrastruttura o al software sottostante possono causare comportamenti inaspettati durante i periodi di aggiornamento.

    5. Errori a livello di caching o sessione

    • Cache corrotte o errate: In alcuni casi, il caching delle sessioni potrebbe risultare problematico, specialmente se il modello ha ricevuto input che non è stato cancellato correttamente da una sessione precedente. Questo può comportare risposte che sembrano provenire da un altro contesto, come hai descritto.

    Raccomandazioni per indagare:

    1. Controllo dei log: Verifica i log dettagliati del sistema per cercare eventuali messaggi di errore, timeout, o sovraccarico che potrebbero spiegare i rallentamenti e le risposte non pertinenti.
    2. Contatta il supporto Azure: Considera l'ipotesi di segnalare l'anomalia al supporto Azure, includendo i dettagli su tempi e comportamenti. Potrebbero confermare se ci sono stati problemi con il modello GPT-4o o l'infrastruttura durante quel periodo.
    3. Test ripetuti: Se l'anomalia non si ripete più, potrebbe essere stato un problema temporaneo legato alle risorse o a un sovraccarico. Se succede di nuovo, cerca di replicare le condizioni per identificare eventuali pattern.

    Questi scenari, presi singolarmente o combinati, potrebbero spiegare il comportamento anomalo che hai riscontrato.

    Spero ti sia stata utile.

    Buona giornata!

    Monica.

    0 commenti Nessun commento

Risposta

Le risposte possono essere contrassegnate come risposte accettate dall'autore della domanda. Ciò consente agli utenti di sapere che la risposta ha risolto il problema dell'autore.