Gestire l'intelligenza artificiale - Processo per gestire l'intelligenza artificiale

Articolo
11/01/2024

Questo articolo descrive il processo organizzativo per la gestione dei carichi di lavoro di intelligenza artificiale. Fornisce raccomandazioni per la gestione dei carichi di lavoro di intelligenza artificiale dallo sviluppo, dalla distribuzione e dalle operazioni. Una gestione efficace dell'IA richiede un approccio strutturato dallo sviluppo tramite la distribuzione e le operazioni in corso. Le aziende necessitano di procedure standardizzate e di monitoraggio regolare per evitare problemi come la deriva dei dati e del modello, assicurando che l'IA rimanga accurata e affidabile nel tempo.

Gestire le operazioni di intelligenza artificiale

La gestione delle operazioni di intelligenza artificiale garantisce visibilità e coerenza nel ciclo di vita dell'intelligenza artificiale. Adottando framework operativi come MLOps, creando ambienti sandbox e stabilendo pipeline CI/CD, è possibile supervisionare lo sviluppo, il test e la distribuzione.

Adottare un framework operativo di intelligenza artificiale. Implementare framework MLOps (operazioni di Machine Learning) per i flussi di lavoro di Machine Learning tradizionali e GenAIOps per carichi di lavoro di intelligenza artificiale generativi. Questi framework operativi organizzano il ciclo end-to-end per lo sviluppo di intelligenza artificiale. Ogni framework influisce sull'approccio e sugli strumenti del team che gestisce il carico di lavoro. Per altre informazioni, vedere MLOps e GenAIOps.
Standardizzare gli strumenti di sviluppo di intelligenza artificiale. Definire e standardizzare l'uso di SDK e API per coerenza tra i team di sviluppo. Strumenti come Azure SDK per i carichi di lavoro di intelligenza artificiale offrono librerie e API ottimizzate per il ridimensionamento dei modelli di intelligenza artificiale e l'integrazione nelle applicazioni. Per l'intelligenza artificiale generativa, standardizzare la piattaforma di intelligenza artificiale e gli agenti di orchestrazione, ad esempio Semantic Kernel, LangChain e Prompt Flow.
Usare un ambiente sandbox per la sperimentazione di intelligenza artificiale. Usare un ambiente sandbox per l'esperimento del modello di intelligenza artificiale. Si vuole coerenza tra ambienti di sviluppo, test e produzione. L'ambiente sandbox deve quindi essere distinto dagli ambienti di sviluppo, test e produzione nel ciclo di vita di sviluppo di intelligenza artificiale. Se si modificano i modelli di distribuzione e governance tra ambienti di sviluppo, test e produzione, può nascondere e introdurre modifiche di rilievo.
Stabilire pipeline di integrazione continua e recapito continuo per la distribuzione. Assicurarsi che le pipeline di dati includano controlli di qualità del codice, tra cui l'analisi di linting e statica. Le pipeline di dati devono includere anche unit test e test di integrazione, nonché flussi di sperimentazione e valutazione. Infine, incorporare i passaggi di distribuzione di produzione, ad esempio promuovere le versioni per gli ambienti di test e di produzione seguendo le approvazioni manuali. Mantenere la separazione tra modelli, flussi di richiesta e interfaccia utente client per garantire che gli aggiornamenti a un componente non influiscano sugli altri. Ogni flusso deve avere un proprio ciclo di vita per una promozione indipendente.

Gestire la distribuzione di intelligenza artificiale

La gestione della distribuzione di intelligenza artificiale riguarda la definizione di chi può distribuire le risorse di intelligenza artificiale e chi gestisce questi endpoint. Un approccio strutturato, guidato da un centro di intelligenza artificiale di eccellenza, aiuta le aziende a decidere se i team del carico di lavoro o un team centrale devono gestire le risorse, bilanciando la velocità di sviluppo con i requisiti di governance. Il CoE di intelligenza artificiale deve condurre lo sforzo per determinare l'approccio migliore.

Usare la gestione del team del carico di lavoro delle risorse di intelligenza artificiale per uno sviluppo più rapido. Quando i team del carico di lavoro gestiscono le risorse di intelligenza artificiale, hanno l'autonomia di distribuire e gestire le risorse di intelligenza artificiale entro i limiti dei criteri di governance. Usare Criteri di Azure per applicare la governance in modo coerente in tutti gli ambienti del carico di lavoro. Creare e comunicare criteri di intelligenza artificiale che i team del carico di lavoro devono seguire per risolvere eventuali lacune di governance. Ad esempio, creare criteri di intelligenza artificiale generativi per applicare le impostazioni di filtro del contenuto e impedire l'uso di modelli non consentiti. Questi criteri sono chiaramente noti ai team del carico di lavoro e controllano regolarmente.

Figura 1. Gestione del team del carico di lavoro delle risorse di intelligenza artificiale.
Usare una gestione condivisa delle risorse di intelligenza artificiale per aumentare la governance dell'IA. In un approccio condiviso di gestione dell'intelligenza artificiale, un team centrale gestisce le risorse di intelligenza artificiale per tutti i carichi di lavoro di intelligenza artificiale. Questo team distribuisce le risorse di intelligenza artificiale di base e configura la sicurezza e la governance usate da tutti i team del carico di lavoro. Usare questo approccio se si vuole che un singolo team controlli le distribuzioni e la governance dell'intelligenza artificiale nei carichi di lavoro.

Figura 2. Gestione centrale del team di intelligenza artificiale delle risorse di intelligenza artificiale.

La condivisione degli endpoint di intelligenza artificiale tra carichi di lavoro può semplificare la gestione, ma richiede un'attenta considerazione dei requisiti di governance e modello. Le aziende devono condividere endpoint solo all'interno di un singolo carico di lavoro con esigenze coerenti, poiché l'utilizzo condiviso tra esigenze diverse può complicare la governance e aumentare i costi.

Evitare di condividere gli endpoint di intelligenza artificiale quando le esigenze di governance e modello variano. I carichi di lavoro che richiedono impostazioni di filtro del contenuto diverse, ad esempio la governance sull'input e l'output, non devono condividere un endpoint. Inoltre, non condividere un singolo endpoint di intelligenza artificiale se un modello di intelligenza artificiale diverso offre un modo più conveniente per soddisfare i requisiti del carico di lavoro.
Condividere gli endpoint di intelligenza artificiale solo all'interno di un singolo carico di lavoro. La condivisione di un endpoint di intelligenza artificiale funziona meglio quando un team del carico di lavoro ha più applicazioni come parte dello stesso carico di lavoro. La condivisione degli endpoint di intelligenza artificiale offre il minor sovraccarico di gestione e semplifica la distribuzione. Queste applicazioni devono condividere le stesse esigenze di governance e i modelli di intelligenza artificiale. La condivisione degli endpoint può causare l'hit rate limits e le limitazioni delle quote. La maggior parte dei servizi di Azure ha limiti per ogni sottoscrizione. All'interno di una sottoscrizione, ogni area ha limiti di quota.

Gestire modelli di intelligenza artificiale

La gestione dei modelli di intelligenza artificiale prevede l'impostazione di strutture di governance, il monitoraggio continuo e la ripetizione del training per mantenere le prestazioni nel tempo. Questo processo consente alle aziende di allineare i modelli con standard etici, tenere traccia delle prestazioni del modello e garantire che i sistemi di IA rimangano efficaci e allineati agli obiettivi aziendali.

Stabilire una struttura di governance per la supervisione dell'IA. Creare un centro di intelligenza artificiale di eccellenza (AI CoE) o nominare un responsabile dell'intelligenza artificiale. Devono garantire la conformità agli standard di IA responsabili. Devono prendere decisioni su se i sistemi devono essere modificati in base a tali rapporti. Usare il dashboard di intelligenza artificiale responsabile per generare report sugli output del modello.
Definire una baseline di misurazione di intelligenza artificiale. Stabilire una baseline di misurazione per garantire che i modelli di intelligenza artificiale siano allineati agli obiettivi aziendali e agli standard etici. Usare indicatori KPI correlati a principi di IA responsabili, ad esempio equità, trasparenza e accuratezza. Eseguire il mapping di questi indicatori KPI ai carichi di lavoro di intelligenza artificiale. Ad esempio, in un chatbot del servizio clienti misurare l'equità valutando il livello di prestazioni del modello in gruppi demografici diversi. Per eseguire queste misurazioni, iniziare con gli strumenti usati nel dashboard Di intelligenza artificiale responsabile.
Implementare il monitoraggio continuo. I carichi di lavoro di intelligenza artificiale possono cambiare nel tempo a causa dell'evoluzione dei dati, degli aggiornamenti dei modelli o dei cambiamenti nel comportamento dell'utente. Monitorare i modelli di intelligenza artificiale, le risorse di intelligenza artificiale, i dati di intelligenza artificiale per garantire che questi carichi di lavoro rimangano allineati agli indicatori KPI. Eseguire controlli per valutare i sistemi di IA rispetto ai principi e alle metriche di IA responsabili definiti.
Identificare le cause radice dei problemi di prestazioni. Individuare l'origine del problema quando viene rilevato un calo delle prestazioni o dell'accuratezza monitorando l'intelligenza artificiale. Assicurarsi di avere visibilità su ogni fase dell'interazione per isolare il problema e implementare azioni correttive più rapidamente. Ad esempio, se un chatbot del servizio clienti genera risposte imprecise, il monitoraggio dovrebbe aiutare a determinare se l'errore si trova nella creazione della richiesta o nella comprensione del contesto del modello. Usare strumenti predefiniti come Monitoraggio di Azure e Application Insights per identificare in modo proattivo i colli di bottiglia e le anomalie delle prestazioni.
Tenere traccia del ritiro del modello. Tenere traccia del ritiro per i modelli con training preliminare per evitare problemi di prestazioni al termine del supporto del fornitore. Ad esempio, un modello di intelligenza artificiale generativa potrebbe essere deprecato, quindi è necessario aggiornarlo per mantenere le funzionalità. Il portale di Azure AI Foundry mostra la data di disattivazione dei modelli per tutte le distribuzioni.
Ripetere il training dei modelli di intelligenza artificiale in base alle esigenze. Tenere conto del degrado dei modelli nel tempo a causa delle modifiche apportate ai dati. Pianificare la ripetizione regolare del training in base alle prestazioni del modello o alle esigenze aziendali per garantire che il sistema di intelligenza artificiale rimanga pertinente. La ripetizione del training può essere costosa, quindi valutare il costo iniziale del training e usarlo per valutare la frequenza con cui ripetere il training dei modelli di intelligenza artificiale. Mantenere il controllo della versione per i modelli e garantire un meccanismo di rollback per le versioni sottoperformi.
Stabilire un processo di promozione del modello. Usare controlli di qualità per promuovere modelli sottoposti a training, ottimizzati e sottoposti a training a ambienti più elevati in base ai criteri di prestazioni. I criteri di prestazioni sono univoci per ogni applicazione.

Gestire i costi di intelligenza artificiale

La gestione dei costi di intelligenza artificiale richiede una chiara comprensione delle spese correlate alle risorse come l'elaborazione di calcolo, archiviazione e token. È consigliabile implementare le procedure consigliate per la gestione dei costi, monitorare l'utilizzo e configurare avvisi automatizzati per evitare spese impreviste e ottimizzare l'efficienza delle risorse.

Seguire le procedure consigliate per la gestione dei costi per ogni servizio. Ogni servizio di Azure include funzionalità e procedure consigliate specifiche che ottimizzano l'ottimizzazione dei costi. Prendere familiarità con le indicazioni seguenti per pianificare e gestire i costi in Azure AI Foundry, Azure OpenAI Servizioe Azure Machine Learning.
Monitorare e ottimizzare l'efficienza della fatturazione. Comprendere i punti di interruzione dei costi per evitare addebiti non necessari. Gli esempi includono l'uso completo delle soglie a prezzo fisso per la generazione di immagini o l'ottimizzazione oraria. Tenere traccia dei modelli di utilizzo, inclusi i token al minuto (TPM) e le richieste al minuto (RPM) e modificare i modelli e l'architettura di conseguenza. Prendere in considerazione un modello di fatturazione basato sull'impegno per modelli di utilizzo coerenti.
Configurare gli avvisi automatici dei costi. Usare gli avvisi relativi al budget per notificare addebiti imprevisti e stabilire strategie di budget per controllare e prevedere le spese di intelligenza artificiale.

Per le applicazioni di intelligenza artificiale generative con Azure OpenAI, vedere queste raccomandazioni per l'ottimizzazione dei costi.

Gestire i dati di intelligenza artificiale

La gestione efficace dei dati di intelligenza artificiale è incentrata sulla gestione dell'accuratezza, dell'integrità e della sensibilità dei dati nel ciclo di vita dell'intelligenza artificiale. Quando si curano set di dati di alta qualità e si proteggono le pipeline di dati, l'organizzazione può garantire che i dati rimangano affidabili e conformi ai requisiti normativi mutevoli.

Mantenere l'accuratezza dei dati e curare i set di dati d'oro. Sviluppare un set autorevole di dati usati per i test regolari e la convalida in entrambi i tipi di intelligenza artificiale. Cura continuamente questo set di dati per garantire che rifletta informazioni aggiornate e accurate.
Verificare l'integrità della pipeline di dati. Sviluppare e gestire pipeline di dati personalizzate per garantire l'integrità dei dati dalla raccolta dati alla pre-elaborazione e all'archiviazione. Ogni passaggio della pipeline deve essere sicuro per mantenere le prestazioni e l'affidabilità in entrambi i tipi di applicazioni di intelligenza artificiale.
Gestire le modifiche di riservatezza dei dati. Comprendere che la classificazione di riservatezza dei dati può cambiare nel tempo. È possibile riclassificare i dati a bassa riservatezza come altamente sensibili a causa di modifiche aziendali o normative. Sviluppare processi per rimuovere o sostituire i dati sensibili nei sistemi downstream. Microsoft Defender per il cloud e Microsoft Purview consentono di etichettare e gestire i dati sensibili. Questo processo inizia con un buon catalogo dati prima dell'inserimento di intelligenza artificiale. Quando si verificano modifiche, identificare tutti i modelli o i sistemi che usano i dati sensibili. Se possibile, ripetere il training dei modelli di intelligenza artificiale usando set di dati che escludono i dati sensibili riclassificati.

Gestire la continuità aziendale dell'intelligenza artificiale

La continuità aziendale e il ripristino di emergenza per l'intelligenza artificiale comportano la creazione di distribuzioni in più aree e test regolari dei piani di ripristino. Queste strategie consentono di garantire che i sistemi di intelligenza artificiale rimangano operativi durante le interruzioni e riducono al minimo il rischio di interruzioni prolungate o perdita di dati.

Usare le distribuzioni di più aree per l'intelligenza artificiale. Implementare distribuzioni con più aree per garantire disponibilità elevata e resilienza per sistemi di intelligenza artificiale generativi e non generativi. Queste strategie riducono al minimo i tempi di inattività e assicurano che le applicazioni di intelligenza artificiale critiche rimangano operative durante interruzioni a livello di area o errori dell'infrastruttura. Assicurarsi di implementare la ridondanza necessaria per i modelli sottoposti a training e ottimizzati per evitare la necessità di ripetere il training durante un'interruzione.
Testare e convalidare regolarmente i piani di ripristino di emergenza. Eseguire test regolari dei piani di ripristino di emergenza per verificare che sia possibile ripristinare in modo efficace i sistemi di intelligenza artificiale generativi e non generici. Includere i test dei processi di ripristino dei dati e le procedure di convalida per garantire che tutti i componenti di intelligenza artificiale funzionino correttamente dopo il ripristino. La convalida garantisce regolarmente che l'organizzazione sia preparata per eventi imprevisti reali e riduce al minimo il rischio di errori durante il ripristino.
Gestire e tenere traccia delle modifiche apportate ai sistemi di intelligenza artificiale. Assicurarsi che tutte le modifiche apportate a modelli, dati e configurazioni vengano gestite tramite sistemi di controllo della versione come Git. Questa operazione è fondamentale per tenere traccia delle modifiche e garantire la possibilità di ripristinare le versioni precedenti durante il ripristino. Per l'intelligenza artificiale generativa e non generativa, è consigliabile eseguire il controllo automatizzato delle modifiche del modello e del sistema in modo da poter identificare e ripristinare rapidamente le modifiche non pianificate.

Passaggio successivo

Intelligenza artificiale sicura

Condividi tramite

Gestire l'intelligenza artificiale - Processo per gestire l'intelligenza artificiale

Gestire le operazioni di intelligenza artificiale

Gestire la distribuzione di intelligenza artificiale

Gestire modelli di intelligenza artificiale

Gestire i costi di intelligenza artificiale

Gestire i dati di intelligenza artificiale

Gestire la continuità aziendale dell'intelligenza artificiale

Passaggio successivo

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Gestire l'intelligenza artificiale - Processo per gestire l'intelligenza artificiale

Gestire le operazioni di intelligenza artificiale

Gestire la distribuzione di intelligenza artificiale

Gestire la condivisione degli endpoint di intelligenza artificiale

Gestire modelli di intelligenza artificiale

Gestire i costi di intelligenza artificiale

Gestire i dati di intelligenza artificiale

Gestire la continuità aziendale dell'intelligenza artificiale

Passaggio successivo

Commenti e suggerimenti

Risorse aggiuntive