Ai Ready : processo per creare carichi di lavoro di intelligenza artificiale in Azure
Questo articolo descrive il processo aziendale per la creazione di carichi di lavoro di intelligenza artificiale in Azure. L'articolo fornisce raccomandazioni per prendere decisioni chiave per la progettazione e il processo per l'adozione di carichi di lavoro di intelligenza artificiale su larga scala. È incentrato sulle linee guida specifiche dell'intelligenza artificiale per la selezione dell'area, l'organizzazione delle risorse e la rete.
Stabilire l'affidabilità dell'intelligenza artificiale
L'affidabilità dell'intelligenza artificiale prevede la selezione delle aree appropriate per ospitare i modelli di intelligenza artificiale per garantire prestazioni, conformità e disponibilità coerenti. Le organizzazioni devono soddisfare la ridondanza, il failover e l'ottimizzazione delle prestazioni per gestire i servizi di intelligenza artificiale affidabili.
Usare più aree per ospitare gli endpoint del modello di intelligenza artificiale. Per i carichi di lavoro di produzione, ospitare gli endpoint di intelligenza artificiale in almeno due aree per garantire la ridondanza e garantire la disponibilità elevata. Anche se i modelli di intelligenza artificiale generativi sono senza stato, ospitarli in più aree garantisce un failover e un ripristino più rapidi durante gli errori a livello di area. Per i modelli di servizio OpenAI di Azure, è possibile usare distribuzioni globali. Queste distribuzioni di più aree possono instradare automaticamente e in modo trasparente le richieste a un'area con capacità sufficiente. Se si sceglie una distribuzione non globale, nota anche come distribuzione a livello di area, usare Azure Gestione API per il bilanciamento del carico delle richieste API agli endpoint di intelligenza artificiale.
Verificare la disponibilità del servizio. Prima della distribuzione, assicurarsi che sia disponibile nell'area per le risorse di intelligenza artificiale necessarie. Alcune aree potrebbero non fornire servizi di intelligenza artificiale specifici o avere funzionalità limitate, che possono influire sulle funzionalità della soluzione. Questa limitazione può influire anche sulla scalabilità della distribuzione. Ad esempio, la disponibilità del servizio Azure OpenAI può variare in base al modello di distribuzione. Questi modelli di distribuzione includono provisioning globale, con provisioning globale, standard a livello di area e con provisioning a livello di area. Controllare il servizio di intelligenza artificiale per verificare di avere accesso alle risorse necessarie.
Valutare la quota e la capacità dell'area. Prendere in considerazione i limiti di quota o sottoscrizione nell'area scelta man mano che i carichi di lavoro di intelligenza artificiale aumentano. I servizi di Azure hanno limiti di sottoscrizione a livello di area. Questi limiti possono influire sulle distribuzioni di modelli di intelligenza artificiale su larga scala, ad esempio carichi di lavoro di inferenza di grandi dimensioni. Per evitare interruzioni, contattare supporto tecnico di Azure in anticipo se si prevede una necessità di capacità aggiuntiva.
Valutare le prestazioni. Quando si compilano applicazioni che devono recuperare i dati, ad esempio le applicazioni di generazione aumentata(RAG), è importante prendere in considerazione i percorsi di archiviazione dei dati per ottimizzare le prestazioni. Non è necessario colocare i dati con i modelli nelle app RAG, ma in questo modo è possibile migliorare le prestazioni riducendo la latenza e garantendo un recupero efficiente dei dati.
Preparare la continuità delle operazioni. Per garantire la continuità aziendale e il ripristino di emergenza, replicare asset critici come modelli ottimizzati, dati RAG, modelli sottoposti a training e set di dati di training in un'area secondaria. Questa ridondanza consente un ripristino più rapido in caso di interruzione del servizio e garantisce una disponibilità continua del servizio.
Stabilire la governance dell'intelligenza artificiale
La governance dell'intelligenza artificiale comprende l'organizzazione delle risorse e l'applicazione di criteri per gestire i carichi di lavoro e i costi di intelligenza artificiale. Implica la strutturazione di gruppi di gestione e sottoscrizioni per garantire la conformità e la sicurezza in carichi di lavoro diversi. La governance appropriata dell'IA impedisce l'accesso non autorizzato, gestisce i rischi e garantisce che le risorse di intelligenza artificiale funzionino in modo efficiente all'interno dell'organizzazione.
Separare i carichi di lavoro di intelligenza artificiale interni e con connessione Internet. Usare almeno i gruppi di gestione per separare i carichi di lavoro di intelligenza artificiale in internet ("online") e solo interno ("aziendale"). La distinzione fornisce un limite importante per la governance dei dati. Consente di mantenere i dati interni separati dai dati pubblici. Non si vuole che gli utenti esterni accevano alle informazioni aziendali riservate necessarie per il lavoro interno. Questa distinzione tra carichi di lavoro interni e con connessione Internet è allineata ai gruppi di gestione delle zone di destinazione di Azure.
Applicare i criteri di intelligenza artificiale a ogni gruppo di gestione. Iniziare con i criteri di base per ogni tipo di carico di lavoro, ad esempio i criteri usati nelle zone di destinazione di Azure. Aggiungere altre definizioni di Criteri di Azure alla baseline per favorire la governance uniforme per i servizi di intelligenza artificiale di Azure, Ricerca di intelligenza artificiale di Azure, Azure Machine Learning e Azure Macchine virtuali.
Distribuire le risorse di intelligenza artificiale nelle sottoscrizioni dei carichi di lavoro. Le risorse di intelligenza artificiale devono ereditare i criteri di governance del carico di lavoro dal gruppo di gestione del carico di lavoro (interno o con connessione Internet). Mantenerli separati dalle risorse della piattaforma. Le risorse di intelligenza artificiale controllate dai team della piattaforma tendono a creare colli di bottiglia per lo sviluppo. Nel contesto della zona di destinazione di Azure distribuire carichi di lavoro di intelligenza artificiale nelle sottoscrizioni dell'area di destinazione dell'applicazione.
Stabilire una rete di intelligenza artificiale
La rete di intelligenza artificiale si riferisce alla progettazione e all'implementazione dell'infrastruttura di rete per i carichi di lavoro di intelligenza artificiale, inclusa la sicurezza e la connettività. Implica l'uso di topologie come hub-spoke, l'applicazione di misure di sicurezza come la protezione DDoS e la garanzia di un trasferimento efficiente dei dati. La rete di intelligenza artificiale efficace è fondamentale per la comunicazione sicura e affidabile, impedendo interruzioni basate sulla rete e mantenendo le prestazioni.
Attivare la protezione DDoS di Azure per carichi di lavoro di intelligenza artificiale con connessione Internet.Protezione DDoS di Azure protegge i servizi di intelligenza artificiale da potenziali interruzioni e tempi di inattività causati da attacchi Denial of Service distribuiti. Abilitare la protezione DDoS di Azure a livello di rete virtuale per difendersi dalle inondazioni del traffico destinate alle applicazioni con connessione Internet.
Connettersi con le reti locali. Usare un jumpbox e Azure Bastion per proteggere l'accesso operativo ai carichi di lavoro di intelligenza artificiale. Se necessario, alcuni servizi, ad esempio Azure AI Foundry, possono accedere alle risorse locali. Per le organizzazioni che trasferiscono grandi quantità di dati dalle origini locali agli ambienti cloud, usare una connessione a larghezza di banda elevata.
Prendere in considerazione Azure ExpressRoute. Azure ExpressRoute è ideale per volumi di dati elevati, elaborazione in tempo reale o carichi di lavoro che richiedono prestazioni coerenti. Include funzionalità FastPath che migliora le prestazioni del percorso dati.
Prendere in considerazione Azure Gateway VPN. Usare Azure Gateway VPN per volumi di dati moderati, trasferimento di dati poco frequenti o quando è necessario l'accesso a Internet pubblico. È più semplice configurare ed essere conveniente per set di dati più piccoli rispetto a ExpressRoute. Usare la topologia e la progettazione corrette per i carichi di lavoro di intelligenza artificiale. Usare la VPN da sito a sito per la connettività cross-premise e ibrida. Usare una VPN da punto a sito per la connettività sicura dei dispositivi. Per altre informazioni, vedere Connettere una rete locale ad Azure.
Preparare i servizi di risoluzione dei nomi di dominio. Quando si usano endpoint privati, integrare endpoint privati con DNS per una risoluzione DNS appropriata e una corretta funzionalità dell'endpoint privato. Distribuire l'infrastruttura DNS di Azure come parte della zona di destinazione di Azure e configurare server d'inoltro condizionale dai servizi DNS esistenti per le zone appropriate. Per altre informazioni, vedere integrazione di collegamento privato e DNS su larga scala per le zone di destinazione di Azure.
Configurare i controlli di accesso alla rete. Usare i gruppi di sicurezza di rete (NSG) per definire e applicare criteri di accesso che regolano il traffico in ingresso e in uscita da e verso carichi di lavoro di intelligenza artificiale. Questi controlli possono essere usati per implementare il principio dei privilegi minimi, assicurando che sia consentita solo la comunicazione essenziale.
Usare i servizi di monitoraggio di rete. Usare servizi come Network Insights di Monitoraggio di Azure e Azure Network Watcher per ottenere visibilità sulle prestazioni e sull'integrità della rete. Usare anche Microsoft Sentinel per il rilevamento e la risposta avanzata delle minacce nella rete di Azure.
Distribuire Firewall di Azure per controllare e proteggere il traffico del carico di lavoro di Azure in uscita. Firewall di Azure applica i criteri di sicurezza per il traffico in uscita prima che raggiunga Internet. Usarlo per controllare e monitorare il traffico in uscita e consentire a SNAT di nascondere gli indirizzi IP interni convertendo gli indirizzi IP privati nell'INDIRIZZO IP pubblico del firewall. Garantisce traffico in uscita sicuro e identificabile per migliorare il monitoraggio e la sicurezza.
Usare Web application firewall (WAF) di Azure per carichi di lavoro con connessione Internet.Azure WAF consente di proteggere i carichi di lavoro di intelligenza artificiale da vulnerabilità Web comuni, tra cui attacchi SQL injection e scripting tra siti. Configurare Azure WAF in gateway applicazione per i carichi di lavoro che richiedono una sicurezza avanzata dal traffico Web dannoso.
Stabilire una base di intelligenza artificiale
Una base di intelligenza artificiale fornisce l'infrastruttura di base e la gerarchia delle risorse che supportano i carichi di lavoro di intelligenza artificiale in Azure. Include la configurazione di ambienti scalabili e sicuri in linea con le esigenze operative e di governance. Una solida base di intelligenza artificiale consente una distribuzione e una gestione efficienti dei carichi di lavoro di intelligenza artificiale. Garantisce anche sicurezza e flessibilità per la crescita futura.
Usare la zona di destinazione di Azure
Una zona di destinazione di Azure è il punto di partenza consigliato per preparare l'ambiente Azure. Fornisce una configurazione predefinita per le risorse della piattaforma e dell'applicazione. Dopo aver creato la piattaforma, è possibile distribuire carichi di lavoro di intelligenza artificiale in zone di destinazione dell'applicazione dedicate. La figura 2 seguente illustra come i carichi di lavoro di intelligenza artificiale si integrano all'interno di una zona di destinazione di Azure.
Figura 2. Carico di lavoro di intelligenza artificiale in una zona di destinazione di Azure.
Creare un ambiente di intelligenza artificiale
Se non si usa una zona di destinazione di Azure, seguire le raccomandazioni riportate in questo articolo per creare l'ambiente di intelligenza artificiale. Il diagramma seguente mostra una gerarchia di risorse di base. Segmenta i carichi di lavoro di intelligenza artificiale interni e i carichi di lavoro di intelligenza artificiale con connessione Internet, come descritto in Stabilire la governance dell'intelligenza artificiale. I carichi di lavoro interni usano i criteri per negare l'accesso online ai clienti. Questa separazione protegge i dati interni dall'esposizione agli utenti esterni. Lo sviluppo di intelligenza artificiale deve usare un jumpbox per gestire risorse e dati di intelligenza artificiale.
Figura 3. Gerarchia di risorse di base per i carichi di lavoro di intelligenza artificiale.
Passaggi successivi
Il passaggio successivo consiste nel creare e distribuire carichi di lavoro di intelligenza artificiale nell'ambiente di intelligenza artificiale. Usare i collegamenti seguenti per trovare le linee guida per l'architettura che soddisfano le proprie esigenze. Iniziare con le architetture PaaS (Platform-as-a-Service). PaaS è l'approccio consigliato da Microsoft per l'adozione dell'IA.