Le applicazioni di chat aziendali possono consentire ai dipendenti di interagire con conversazioni. Ciò è particolarmente vero a causa del continuo progresso dei modelli linguistici, ad esempio i modelli GPT di OpenAI e i modelli LLaMA di Meta. Queste applicazioni di chat sono costituite da un'interfaccia utente di chat, repository di dati che contengono informazioni specifiche del dominio pertinenti alle query dell'utente, modelli linguistici che ragionano sui dati specifici del dominio per produrre una risposta pertinente e un agente di orchestrazione che supervisiona l'interazione tra questi componenti.
Questo articolo fornisce un'architettura di base per la creazione e la distribuzione di applicazioni di chat aziendali che usano modelli linguistici del servizio OpenAI di Azure. L'architettura usa il flusso di richiesta per creare flussi eseguibili. Questi flussi eseguibili orchestrano il flusso di lavoro dai prompt in ingresso agli archivi dati per recuperare i dati di base per i modelli di linguaggio, insieme ad altre logiche Python necessarie. Il flusso eseguibile viene distribuito in un endpoint online gestito con calcolo gestito.
L'hosting dell'interfaccia utente di chat personalizzata segue le linee guida per l'applicazione Web dei servizi app di base per la distribuzione di un'applicazione Web sicura, con ridondanza della zona e a disponibilità elevata nel servizio app Azure. In tale architettura, servizio app comunica con la soluzione PaaS (Platform as a Service) di Azure tramite l'integrazione della rete virtuale su endpoint privati. L'interfaccia utente della chat servizio app comunica con l'endpoint online gestito per il flusso su un endpoint privato. L'accesso pubblico al portale di Azure AI Foundry è disabilitato.
Importante
L'articolo non illustra i componenti o le decisioni relative all'architettura della baseline servizio app'applicazione Web. Leggere questo articolo per indicazioni sull'architettura su come ospitare l'interfaccia utente della chat.
L'hub di Azure AI Foundry è configurato con isolamento della rete virtuale gestita che richiede l'approvazione di tutte le connessioni in uscita. Con questa configurazione viene creata una rete virtuale gestita, insieme agli endpoint privati gestiti che consentono la connettività alle risorse private, ad esempio l'area di lavoro Archiviazione di Azure, Registro Azure Container e Azure OpenAI. Queste connessioni private vengono usate durante la creazione e il test del flusso e dai flussi distribuiti nell'ambiente di calcolo di Machine Learning.
Un hub è la risorsa Azure AI Foundry di primo livello che offre un modo centrale per gestire la sicurezza, la connettività e altri problemi in più progetti. Questa architettura richiede un solo progetto per il carico di lavoro. Se si hanno esperienze aggiuntive che richiedono flussi di prompt diversi con logica diversa, potenzialmente usando risorse back-end diverse, ad esempio gli archivi dati, è possibile prendere in considerazione l'implementazione di tali flussi in un progetto diverso.
Suggerimento
Questo articolo è supportato da un'implementazione di riferimento che illustra un'implementazione di chat end-to-end di base in Azure. È possibile usare questa implementazione come base per lo sviluppo di soluzioni personalizzate nel primo passaggio verso la produzione.
Architettura
Scaricare un file di Visio di questa architettura.
Componenti
Molti componenti di questa architettura sono gli stessi dell'architettura di chat end-to-end di Azure OpenAI di base. Nell'elenco seguente vengono evidenziate solo le modifiche apportate all'architettura di base.
- Azure OpenAI viene usato sia nell'architettura di base che in questa architettura di base. Azure OpenAI è un servizio completamente gestito che fornisce l'accesso all'API REST ai modelli linguistici di Azure OpenAI, tra cui GPT-4, GPT-3.5-Turbo e il set di modelli di incorporamento. L'architettura di base sfrutta le funzionalità aziendali, ad esempio la rete virtuale e il collegamento privato, che l'architettura di base non implementa.
- Azure AI Foundry è una piattaforma che è possibile usare per compilare, testare e distribuire soluzioni di intelligenza artificiale. Il portale di Azure AI Foundry viene usato in questa architettura per compilare, testare e distribuire la logica di orchestrazione del flusso di richiesta per l'applicazione di chat. In questa architettura, Azure AI Foundry fornisce l'rete virtuale gestita per la sicurezza di rete. Per altre informazioni, vedere la sezione rete per altri dettagli.
- gateway applicazione è un servizio di bilanciamento del carico di livello 7 (HTTP/S) e un router del traffico Web. Usa il routing basato sul percorso URL per distribuire il traffico in ingresso tra zone di disponibilità e esegue l'offload della crittografia per migliorare le prestazioni dell'applicazione.
- Web Application Firewall (WAF) è un servizio nativo del cloud che protegge le app Web da exploit comuni come SQL injection e cross-site scripting. Web Application Firewall offre visibilità sul traffico da e verso l'applicazione Web, consentendo di monitorare e proteggere l'applicazione.
- Azure Key Vault è un servizio cloud che archivia e gestisce in modo sicuro informazioni sensibili, come segreti, chiavi di crittografia e certificati. Centralizza la gestione delle informazioni riservate.
- Rete virtuale di Azure è un servizio che consente di creare reti virtuali private isolate e sicure in Azure. Per un'applicazione Web in servizio app, è necessaria una subnet di rete virtuale per usare endpoint privati per la comunicazione sicura di rete tra le risorse.
- Collegamento privato consente ai client di accedere ai servizi PaaS (Platform as a Service) di Azure direttamente da reti virtuali private senza usare indirizzi IP pubblici.
- DNS di Azure è un servizio di hosting per i domini DNS che offre la risoluzione dei nomi usando l'infrastruttura di Microsoft Azure. Le zone di DNS privato consentono di eseguire il mapping del nome di dominio completo (FQDN) di un servizio all'indirizzo IP di un endpoint privato.
Alternative
Questa architettura include più componenti che possono essere gestiti da altri servizi di Azure che potrebbero essere allineati meglio ai requisiti funzionali e non funzionali del carico di lavoro. Ecco alcune alternative di questo tipo da conoscere.
Aree di lavoro di Azure Machine Learning (ed esperienze del portale)
Questa architettura usa portale di Azure AI Foundry per compilare, testare e distribuire flussi di richiesta. In alternativa, è possibile usare le aree di lavoro di Azure Machine Learning, poiché entrambi i servizi hanno funzionalità sovrapposte. Anche se il portale di Azure AI Foundry è una scelta ottimale se si progetta una soluzione di flusso prompt, esistono alcune funzionalità per cui Azure Machine Learning offre attualmente un supporto migliore. Per altre informazioni, vedere il confronto delle funzionalità. È consigliabile non combinare e associare il portale di Azure AI Foundry e Azure Machine Learning Studio. Se il lavoro può essere eseguito completamente nel portale di Azure AI Foundry, usare il portale di Azure AI Foundry. Se sono ancora necessarie funzionalità di studio di Azure Machine Learning, continuare a usare studio di Azure Machine Learning.
Componenti del livello applicazione
In Azure sono disponibili diverse offerte di servizi per applicazioni gestite che possono fungere da livello applicazione per il front-end dell'interfaccia utente di chat. Vedere Scegliere un servizio di calcolo di Azure per tutte le risorse di calcolo e Scegliere un servizio contenitore di Azure per le soluzioni contenitore. Ad esempio, mentre Azure App Web e App Web per contenitori è stato selezionato sia per l'API dell'interfaccia utente della chat che per l'host del flusso di prompt, è possibile ottenere risultati simili con servizio Azure Kubernetes (AKS) o App contenitore di Azure. Scegliere la piattaforma applicativa del carico di lavoro in base ai requisiti funzionali e non funzionali specifici del carico di lavoro.
Hosting del flusso di richiesta
La distribuzione dei flussi di prompt non è limitata ai cluster di calcolo di Machine Learning e questa architettura illustra che con un'alternativa nel servizio app Azure. I flussi sono in definitiva un'applicazione in contenitori che può essere distribuita in qualsiasi servizio di Azure compatibile con i contenitori. Queste opzioni includono servizi come servizio Azure Kubernetes (servizio Azure Kubernetes), App Azure Container e servizio app Azure. Scegliere un servizio contenitore di Azure in base ai requisiti del livello di orchestrazione.
Un esempio del motivo per cui l'hosting del flusso di richieste di hosting in un ambiente di calcolo alternativo è una considerazione è illustrato più avanti in questo articolo.
Archivio dati a terra
Anche se questa architettura conduce con Ricerca di intelligenza artificiale di Azure, la scelta dell'archivio dati per i dati di base è una decisione architetturale specifica per il carico di lavoro. Molti carichi di lavoro sono infatti poliglotta e hanno origini e tecnologie diverse per i dati di base. Queste piattaforme dati variano da archivi dati OLTP esistenti, database nativi del cloud, ad esempio Azure Cosmos DB, tramite soluzioni specializzate come Ricerca di intelligenza artificiale di Azure. Una caratteristica comune, ma non obbligatoria, per tale archivio dati è la ricerca vettoriale. Vedere Scegliere un servizio di Azure per la ricerca vettoriale per esplorare le opzioni in questo spazio.
Raccomandazioni e considerazioni
Affidabilità
L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni che l'utente ha preso con i clienti. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per l'affidabilità.
L'architettura di base applicazione Web del servizio app è incentrata sulla ridondanza di zona per i servizi a livello di area chiave. Le zone di disponibilità sono località separate fisicamente entro un'area. Forniscono ridondanza all'interno di un'area per i servizi di supporto quando due o più istanze vengono distribuite tra di esse. Quando una zona riscontra tempi di inattività, le altre zone all'interno dell'area potrebbero comunque non essere interessate. L'architettura garantisce anche un numero sufficiente di istanze di servizi di Azure e la configurazione di tali servizi da distribuire tra zone di disponibilità. Per maggiori informazioni, consultare la sezione Base per esaminare tale materiale sussidiario.
Questa sezione illustra l'affidabilità dal punto di vista dei componenti di questa architettura non risolti nella baseline di servizio app, tra cui Machine Learning, Azure OpenAI e Ricerca di intelligenza artificiale.
Ridondanza di zona per le distribuzioni di flussi
Le distribuzioni aziendali richiedono in genere ridondanza di zona. Per ottenere la ridondanza di zona in Azure, le risorse devono supportare le zone di disponibilità ed è necessario distribuire almeno tre istanze della risorsa o abilitare il supporto della piattaforma quando il controllo dell'istanza non è disponibile. Attualmente, l'ambiente di calcolo di Machine Learning non offre supporto per le zone di disponibilità. Per ridurre il potenziale impatto di una catastrofe a livello di data center sui componenti di Machine Learning, è necessario stabilire cluster in varie aree insieme alla distribuzione di un servizio di bilanciamento del carico per distribuire le chiamate tra questi cluster. È possibile usare i controlli di integrità per garantire che le chiamate vengano instradate solo ai cluster che funzionano correttamente.
Esistono alcune alternative ai cluster di calcolo di Machine Learning, ad esempio servizio Azure Kubernetes (servizio Azure Kubernetes), Funzioni di Azure, app contenitore di Azure e servizio app Azure. Ognuno di questi servizi supporta le zone di disponibilità. Per ottenere la ridondanza di zona per l'esecuzione del prompt flow, senza la complessità aggiunta di una distribuzione in più aree, è necessario distribuire i flussi in uno di questi servizi.
Il diagramma seguente illustra un'architettura alternativa in cui i prompt flow vengono distribuiti in servizio app. Servizio app viene usato in questa architettura perché il carico di lavoro lo usa già per l'interfaccia utente della chat e non trarrà vantaggio dall'introduzione di una nuova tecnologia nel carico di lavoro. I team del carico di lavoro con AKS devono prendere in considerazione la distribuzione in tale ambiente, soprattutto se AKS viene usato per altri componenti nel carico di lavoro.
Il diagramma è numerato per le aree rilevanti in questa architettura:
I flussi vengono comunque creati nel flusso di richiesta e l'architettura di rete rimane invariata. Gli autori di flussi si connettono ancora all'esperienza di creazione nel progetto Azure AI Foundry tramite un endpoint privato e gli endpoint privati gestiti vengono usati per connettersi ai servizi di Azure durante il test dei flussi.
Questa linea punteggiata indica che i flussi eseguibili in contenitori vengono inseriti nel Registro contenitori. Non illustrato nel diagramma sono le pipeline in cui vengono inseriti in contenitori i flussi e il push in Registro Contenitori. Il calcolo in cui queste pipeline vengono eseguite deve avere una linea di rete per le risorse, ad esempio il registro contenitori di Azure e il progetto Azure AI Foundry.
È disponibile un'altra app Web distribuita nello stesso piano di servizio app che ospita già l'interfaccia utente della chat. La nuova app Web ospita il flusso del prompt in contenitori, incluso nello stesso piano di servizio app già in esecuzione con almeno tre istanze, distribuite tra le zone di disponibilità. Queste istanze servizio app si connettono al Registro contenitori tramite un endpoint privato durante il caricamento dell'immagine del contenitore del prompt flow.
Il contenitore del prompt flow deve connettersi a tutti i servizi dipendenti per l'esecuzione del flusso. In questa architettura, il contenitore del prompt flow si connette ad AI Search e Azure OpenAI. Anche i servizi PaaS esposti solo alla subnet dell'endpoint privato gestito di Machine Learning devono essere esposti nella rete virtuale in modo che sia possibile stabilire una linea di vista da servizio app.
Azure OpenAI - Affidabilità
Azure OpenAI attualmente non supporta le zone di disponibilità. Per ridurre il potenziale impatto di una catastrofe a livello di data center nelle distribuzioni di modelli in Azure OpenAI, è necessario distribuire Azure OpenAI in varie aree insieme alla distribuzione di un servizio di bilanciamento del carico per distribuire le chiamate tra le aree. È possibile usare i controlli di integrità per garantire che le chiamate vengano instradate solo ai cluster che funzionano correttamente.
Per supportare in modo efficace più istanze, è consigliabile esternalizzare i file di ottimizzazione, ad esempio in un account di archiviazione con ridondanza geografica. Questo approccio riduce al minimo lo stato archiviato in Azure OpenAI per ogni area. È comunque necessario ottimizzare i file per ogni istanza per ospitare la distribuzione del modello.
È importante monitorare la velocità effettiva richiesta in termini di token al minuto (TPM) e richieste al minuto (RPM). Assicurarsi che il TPM sia sufficiente assegnato dalla quota per soddisfare la domanda per le distribuzioni e impedire la limitazione delle chiamate ai modelli distribuiti. Un gateway, ad esempio Azure Gestione API, può essere distribuito davanti al servizio o ai servizi OpenAI di Azure e può essere configurato per riprovare se sono presenti errori temporanei e limitazioni. API Management può essere usato anche come interruttore per impedire al servizio di essere sovraccaricato con la chiamata, superandone la quota. Per altre informazioni sull'aggiunta di un gateway per problemi di affidabilità, vedere Accedere ad Azure OpenAI e ad altri modelli linguistici tramite un gateway.
AI Search - Affidabilità
Distribuire AI Search con il piano tariffario Standard o superiore in un'area che supporta le zone di disponibilità e distribuire tre o più repliche. Le repliche vengono distribuite automaticamente in modo uniforme tra le zone di disponibilità.
Considerare le indicazioni seguenti per determinare il numero appropriato di repliche e partizioni:
Usare le metriche di monitoraggio e i log e l'analisi delle prestazioni per determinare il numero appropriato di repliche per evitare limitazioni e partizioni basate su query e per evitare la limitazione basata su indici.
Azure AI Foundry - Affidabilità
Se si esegue la distribuzione in cluster di calcolo dietro l'endpoint online gestito di Machine Learning, prendere in considerazione le indicazioni seguenti relative alla scalabilità:
Ridimensionare automaticamente gli endpoint online per garantire una capacità sufficiente per soddisfare la domanda. Se i segnali di utilizzo non sono abbastanza tempestivi a causa dell'utilizzo di burst, prendere in considerazione l'overprovisioning per evitare un impatto sull'affidabilità da troppe istanze disponibili.
Prendere in considerazione la creazione di regole di ridimensionamento in base alle metriche di distribuzione, ad esempio il carico della CPU e le metriche degli endpoint, ad esempio la latenza delle richieste.
Non è necessario distribuire meno di tre istanze per una distribuzione di produzione attiva.
Evitare distribuzioni in istanze in uso. Al contrario, eseguire la distribuzione in una nuova distribuzione e spostare il traffico dopo che la distribuzione è pronta per ricevere il traffico.
Gli endpoint online gestiti fungono da servizio di bilanciamento del carico e router per il calcolo gestito in esecuzione dietro di essi. È possibile configurare la percentuale di traffico che deve essere instradata a ogni distribuzione, purché le percentuali vengano aggiunte fino al 100%. È anche possibile distribuire un endpoint online gestito con traffico 0% instradato a qualsiasi distribuzione. Se, come nell'implementazione di riferimento fornita, si usa l'infrastruttura come codice (IaC) per distribuire le risorse, inclusi gli endpoint online gestiti, esiste un problema di affidabilità. Se il traffico è configurato per l'indirizzamento alle distribuzioni (create tramite l'interfaccia della riga di comando o il portale di Azure AI Foundry) e si esegue una successiva distribuzione IaC che include l'endpoint online gestito, anche se non aggiorna l'endpoint online gestito in alcun modo, il traffico dell'endpoint torna al routing di 0% traffico. In effetti, questo significa che i flussi di prompt distribuiti non saranno più raggiungibili fino a quando non si regola nuovamente il traffico in base alla posizione desiderata.
Nota
Le stesse linee guida per la scalabilità del servizio app dall'architettura di base si applicano se si distribuisce il flusso in servizio app.
Progettazione in più aree
Questa architettura non è creata per essere un timbro a livello di area in un'architettura in più aree. Offre disponibilità elevata all'interno di un'unica area a causa dell'utilizzo completo delle zone di disponibilità, ma manca alcuni componenti chiave per rendere questa soluzione veramente pronta per una soluzione in più aree. Di seguito sono riportati alcuni componenti o considerazioni mancanti in questa architettura:
- Ingresso e routing globali
- Strategia di gestione DNS
- Strategia di replica dei dati (o isolamento)
- Designazione attiva-attiva, attiva-passiva o a freddo attivo
- Una strategia di failover e failback per ottenere l'RTO e l'RPO del carico di lavoro
- Decisioni sulla disponibilità dell'area per le esperienze per gli sviluppatori nella risorsa hub di Azure Studio
Se i requisiti del carico di lavoro richiedono una strategia in più aree, è necessario investire in attività di progettazione aggiuntive su componenti e processi operativi oltre a quanto presentato in questa architettura. Si progetta per supportare il bilanciamento del carico o il failover ai livelli seguenti:
- Dati di base
- Hosting di modelli
- Livello di orchestrazione (flusso prompt in questa architettura)
- Interfaccia utente con connessione client
Inoltre, è necessario mantenere la continuità aziendale nell'osservabilità, nelle esperienze del portale e nei problemi di IA responsabili, ad esempio la sicurezza dei contenuti.
Sicurezza
La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per la sicurezza.
Questa architettura estende il footprint di sicurezza implementato nella chat end-to-end Basic con l'architettura Azure Open AI. Mentre l'architettura di base usa le identità gestite assegnate dal sistema e le assegnazioni di ruolo assegnate dal sistema, questa architettura usa le identità assegnate dall'utente con assegnazioni di ruolo create manualmente.
L'architettura implementa un perimetro di sicurezza di rete, insieme al perimetro di identità implementato nell'architettura di base. Dal punto di vista della rete, l'unica cosa che dovrebbe essere accessibile da Internet è l'interfaccia utente della chat tramite Gateway applicazione. Dal punto di vista dell'identità, l'interfaccia utente della chat deve autenticare e autorizzare le richieste. Le identità gestite vengono usate, laddove possibile, per autenticare le applicazioni nei servizi di Azure.
Oltre alle considerazioni sulla rete, questa sezione descrive le considerazioni sulla sicurezza per la rotazione delle chiavi e l'ottimizzazione del modello OpenAI di Azure.
Gestione delle identità e dell'accesso
Quando si usano identità gestite assegnate dall'utente, prendere in considerazione le indicazioni seguenti:
- Creare identità gestite separate per le risorse seguenti di Azure AI Foundry e Machine Learning, se applicabile:
- Azure AI Foundry Hub
- Progetti di Azure AI Foundry per la creazione e la gestione dei flussi
- Endpoint online nel flusso distribuito se il flusso viene distribuito in un endpoint online gestito
- Implementare controlli di accesso alle identità per l'interfaccia utente della chat usando Microsoft Entra ID
Creare progetti e endpoint online separati per flussi di prompt diversi da isolare da altri utenti dal punto di vista delle autorizzazioni. Creare un'identità gestita separata per ogni progetto e endpoint online gestito. Concedere agli autori del flusso di richiesta l'accesso solo ai progetti necessari.
Quando si esegue l'onboarding degli utenti nei progetti Di Azure AI Foundry per eseguire funzioni come i flussi di creazione, è necessario assegnare le risorse necessarie alle assegnazioni di ruolo con privilegi minimi.
Ruoli di accesso in base al ruolo di Machine Learning
Come nell'architettura di base, il sistema crea automaticamente assegnazioni di ruolo per le identità gestite assegnate dal sistema. Poiché il sistema non conosce le funzionalità dell'hub e dei progetti che è possibile usare, crea assegnazioni di ruolo che supportano tutte le potenziali funzionalità. Le assegnazioni di ruolo create automaticamente potrebbero superare i privilegi di provisioning in base al caso d'uso. Un esempio è il ruolo "Collaboratore" assegnato all'hub per il registro contenitori, in cui è probabile che richieda solo l'accesso "Reader" al piano di controllo. Se è necessario limitare ulteriormente le autorizzazioni per gli obiettivi con privilegi minimi, è necessario usare le identità assegnate dall'utente. Queste assegnazioni di ruolo verranno create e gestite manualmente.
A causa del carico di manutenzione della gestione di tutte le assegnazioni necessarie, questa architettura favorisce l'eccellenza operativa rispetto alle assegnazioni di ruolo con privilegi minimi assoluti. Si noti che è necessario eseguire tutte le assegnazioni elencate nella tabella.
Identità gestita | Ambito | Assegnazioni di ruoli |
---|---|---|
Identità gestita dell'hub | Collaboratore | Gruppo di risorse |
Identità gestita dell'hub | Hub | Amministratore di Azure per intelligenza artificiale |
Identità gestita dell'hub | Registro Container | Collaboratore |
Identità gestita dell'hub | Insieme di credenziali delle chiavi di | Collaboratore |
Identità gestita dell'hub | Insieme di credenziali delle chiavi di | Amministratore |
Identità gestita dell'hub | Account di archiviazione | Lettore |
Identità gestita dell'hub | Account di archiviazione | Collaboratore account di archiviazione |
Identità gestita dell'hub | Account di archiviazione | Collaboratore dati BLOB di archiviazione |
Identità gestita dell'hub | Account di archiviazione | Collaboratore privilegiato per i dati dei file di archiviazione |
Identità gestita dell'hub | Account di archiviazione | Collaboratore ai dati della tabella di archiviazione |
Identità gestita del progetto | Project | Amministratore di Azure per intelligenza artificiale |
Identità gestita del progetto | Registro Container | Collaboratore |
Identità gestita del progetto | Insieme di credenziali delle chiavi di | Collaboratore |
Identità gestita del progetto | Insieme di credenziali delle chiavi di | Amministratore |
Identità gestita del progetto | Account di archiviazione | Lettore |
Identità gestita del progetto | Account di archiviazione | Collaboratore account di archiviazione |
Identità gestita del progetto | Account di archiviazione | Collaboratore dati BLOB di archiviazione |
Identità gestita del progetto | Account di archiviazione | Collaboratore privilegiato per i dati dei file di archiviazione |
Identità gestita del progetto | Account di archiviazione | Collaboratore ai dati della tabella di archiviazione |
Identità gestita degli endpoint online | Project | Segreti di connessione dell'area di lavoro di Azure Machine Learning |
Identità gestita degli endpoint online | Project | Writer metriche di AzureML |
Identità gestita degli endpoint online | Registro Container | ACRPull |
Identità gestita degli endpoint online | OpenAI di Azure | Utente Servizi cognitivi OpenAI |
Identità gestita degli endpoint online | Account di archiviazione | Collaboratore dati BLOB di archiviazione |
Identità gestita degli endpoint online | Account di archiviazione | Lettore dei dati del BLOB di archiviazione |
servizio app (quando il flusso di richiesta viene distribuito in servizio app) | OpenAI di Azure | Utente Servizi cognitivi OpenAI |
Utente del portale (sviluppo del flusso di richiesta) | OpenAI di Azure | Utente Servizi cognitivi OpenAI |
Utente del portale (sviluppo del flusso di richiesta) | Account di archiviazione | Collaboratore ai dati dei BLOB di archiviazione (usare l'accesso condizionale) |
Utente del portale (sviluppo del flusso di richiesta) | Account di archiviazione | Collaboratore privilegiato per i dati dei file di archiviazione |
È importante comprendere che l'hub di Azure AI Foundry include risorse di Azure condivise tra progetti, ad esempio un account di archiviazione e un registro contenitori. Se si dispone di utenti che necessitano solo dell'accesso a un subset dei progetti, prendere in considerazione l'uso delle condizioni di assegnazione dei ruoli, per i servizi di Azure che li supportano, per fornire l'accesso con privilegi minimi alle risorse. Ad esempio, i BLOB in Archiviazione di Azure supportano le condizioni di assegnazione dei ruoli. Per un utente che richiede l'accesso a un subset dei progetti, anziché assegnare autorizzazioni per ogni contenitore, usare le condizioni di accesso ai ruoli per limitare le autorizzazioni ai contenitori BLOB usati da tali progetti. Ogni progetto ha un GUID univoco che funge da prefisso per i nomi dei contenitori BLOB usati nel progetto. Tale GUID può essere usato come parte delle condizioni di assegnazione di ruolo.
L'hub ha il requisito di avere Contributor
accesso al gruppo di risorse hub per consentire la creazione e la gestione di risorse dell'hub e del progetto. Un effetto collaterale che l'hub ha l'accesso del piano di controllo a qualsiasi risorsa anche nel gruppo di risorse. Tutte le risorse di Azure non direttamente correlate all'hub e i relativi progetti devono essere creati in un gruppo di risorse separato. È consigliabile creare almeno due gruppi di risorse per un team del carico di lavoro usando un hub di Azure AI Foundry autogestito. Un gruppo di risorse che contiene l'hub, i relativi progetti e tutte le relative dipendenze dirette, ad esempio registro contenitori di Azure, Key Vault e così via. Un gruppo di risorse per contenere tutto il resto del carico di lavoro.
È consigliabile ridurre al minimo l'uso delle risorse di Azure necessarie per l'operazione dell'hub (Registro Contenitori, Account di archiviazione, Key Vault, Application Insights) da altri componenti nei carichi di lavoro. Ad esempio, se è necessario archiviare i segreti come parte del carico di lavoro, è necessario creare un insieme di credenziali delle chiavi separato dall'insieme di credenziali delle chiavi associato all'hub. L'hub Key Vault deve essere usato solo dall'hub per archiviare i segreti dell'hub e del progetto.
Assicurarsi che per ogni progetto distinto le assegnazioni di ruolo per le relative dipendenze non forniscano l'accesso alle risorse che l'utente del portale e l'identità gestita gestita degli endpoint online gestiti non richiedono. Ad esempio, l'assegnazione Cognitive Services OpenAI User
di ruolo ad Azure OpenAI concede l'accesso a tutte le distribuzioni per tale risorsa. Non è possibile limitare gli autori di flussi o le identità gestite degli endpoint online gestiti con l'accesso all'assegnazione di ruolo a distribuzioni di modelli specifiche in Azure OpenAI. Per scenari come questo, le linee guida sono la distribuzione di servizi come Azure OpenAI e Ricerca di intelligenza artificiale di Azure in base al progetto e non distribuire risorse a tali servizi a cui gli autori di flussi o le identità gestite degli endpoint online gestiti non devono avere accesso. Ad esempio, distribuire solo i modelli nell'istanza di Azure OpenAI del progetto a cui il progetto richiede l'accesso. Distribuire solo gli indici nell'istanza di Ricerca di intelligenza artificiale di Azure a cui il progetto deve avere accesso.
Rete
Oltre all'accesso basato sull'identità, la sicurezza di rete è alla base dell'architettura di chat end-to-end di base che usa OpenAI. Da un livello elevato, l'architettura di rete garantisce che:
- Un singolo punto di ingresso sicuro per il traffico UI chat.
- Il traffico di rete è filtrato.
- I dati in transito vengono crittografati end-to-end con TLS (Transport Layer Security).
- L'esfiltrazione dei dati viene ridotta al minimo usando Collegamento privato per mantenere il traffico in Azure.
- Le risorse di rete sono raggruppate e isolate logicamente l'una dall'altra tramite la segmentazione di rete.
Flussi di rete
Due flussi in questo diagramma sono trattati nella baseline servizio app'architettura dell'applicazione Web: il flusso in ingresso dall'utente finale all'interfaccia utente della chat (1) e il flusso da servizio app ai servizi PaaS di Azure (2). Questa sezione è incentrata sul flusso di endpoint online di Machine Learning. Il flusso seguente passa dall'interfaccia utente della chat eseguita nella baseline servizio app'applicazione Web al flusso distribuito nell'ambiente di calcolo di Machine Learning:
- La chiamata dall'interfaccia utente della chat ospitata servizio app viene instradata tramite un endpoint privato all'endpoint online di Machine Learning.
- L'endpoint online instrada la chiamata a un server che esegue il flusso distribuito. L'endpoint online funge sia da servizio di bilanciamento del carico che da router.
- Le chiamate ai servizi PaaS di Azure richiesti dal flusso distribuito vengono instradate tramite endpoint privati gestiti.
Ingresso in Machine Learning
In questa architettura l'accesso pubblico all'area di lavoro di Machine Learning è disabilitato. Gli utenti possono accedere all'area di lavoro tramite accesso privato perché l'architettura segue l'endpoint privato per la configurazione dell'area di lavoro di Machine Learning. In realtà, gli endpoint privati vengono usati in questa architettura per integrare la sicurezza basata sull'identità. Ad esempio, l'interfaccia utente della chat ospitata servizio app può connettersi ai servizi PaaS che non sono esposti alla rete Internet pubblica, inclusi gli endpoint di Machine Learning.
L'accesso all'endpoint privato è necessario anche per la connessione all'area di lavoro di Machine Learning per la creazione di flussi.
Il diagramma mostra un autore del prompt flow che si connette tramite Azure Bastion a una jump box della macchina virtuale. Da tale jump box, l'autore può connettersi all'area di lavoro di Machine Learning tramite un endpoint privato nella stessa rete della jump box. La connettività alla rete virtuale può essere eseguita anche tramite i gateway ExpressRoute o VPN e il peering di rete virtuale.
Passare dalla rete virtuale gestita di Azure AI Foundry ai servizi PaaS di Azure
È consigliabile configurare l'hub di Azure AI Foundry per isolamento della rete virtuale gestita che richiede l'approvazione di tutte le connessioni in uscita. Questa architettura segue questa raccomandazione. Esistono due tipi di regole in uscita approvate. Le regole in uscita necessarie sono quelle che servono per il funzionamento della soluzione, ad esempio Registro Contenitori e Archiviazione. Le regole in uscita definite dall'utente si basano su risorse personalizzate, ad esempio Azure OpenAI o Ai Search, che il flusso di lavoro userà. È necessario configurare le regole in uscita definite dall'utente. Le regole in uscita obbligatorie vengono configurate quando viene creata la rete virtuale gestita. La rete virtuale gestita viene distribuita su richiesta quando viene usata per la prima volta ed è persistente da allora.
Le regole in uscita possono essere endpoint privati, tag di servizio o nomi di dominio completi (FQDN) per endpoint pubblici esterni. In questa architettura, la connettività ai servizi di Azure, ad esempio Registro Contenitori, Archiviazione, Azure Key Vault, Azure OpenAI e Ricerca di intelligenza artificiale sono connesse tramite collegamento privato. Anche se non in questa architettura, alcune operazioni comuni che potrebbero richiedere la configurazione di una regola in uscita FQDN scaricano un pacchetto pip, clonano un repository GitHub o scaricano immagini del contenitore di base da repository esterni.
Segmentazione e sicurezza della rete virtuale
La rete in questa architettura ha subnet separate per gli scopi seguenti:
Gateway applicazione
Componenti di integrazione servizio app
Endpoint privati
Azure Bastion
Macchina virtuale jump box
Training e subnet di assegnazione dei punteggi: entrambe sono destinate a usare il proprio ambiente di calcolo correlato al training e all'inferenza. In questa architettura non viene eseguito il training e si usa il calcolo gestito.
Punteggio
Ogni subnet ha un gruppo di sicurezza di rete (NSG) che limita il traffico in ingresso e in uscita per tali subnet solo a ciò che è necessario. Nella tabella seguente viene illustrata una visualizzazione semplificata delle regole del gruppo di sicurezza di rete aggiunte dalla baseline a ogni subnet. La tabella fornisce il nome e la funzione della regola.
Subnet | In ingresso | In uscita |
---|---|---|
snet-appGateway | Quote per gli indirizzi IP di origine degli utenti dell'interfaccia utente della chat (ad esempio Internet pubblico), oltre agli elementi necessari per il servizio. | Accesso all'endpoint privato servizio app, oltre agli elementi necessari per il servizio. |
snet-PrivateEndpoints | Consentire solo il traffico proveniente dalla rete virtuale. | Consentire solo il traffico verso la rete virtuale. |
snet-AppService | Consentire solo il traffico proveniente dalla rete virtuale. | Consentire l'accesso agli endpoint privati e a Monitoraggio di Azure. |
AzureBastionSubnet | Vedere le indicazioni in Uso dell'accesso al gruppo di sicurezza di rete e Azure Bastion. | Vedere le indicazioni in Uso dell'accesso al gruppo di sicurezza di rete e Azure Bastion. |
snet-jumpbox | Consentire RDP (Remote Desktop Protocol) in ingresso e SSH dalla subnet host di Azure Bastion. | Consentire l'accesso agli endpoint privati |
snet-agents | Consentire solo il traffico proveniente dalla rete virtuale. | Consentire solo il traffico verso la rete virtuale. |
snet-training | Consentire solo il traffico proveniente dalla rete virtuale. | Consentire solo il traffico verso la rete virtuale. |
punteggio snet | Consentire solo il traffico proveniente dalla rete virtuale. | Consentire solo il traffico verso la rete virtuale. |
Tutto il traffico di altro tipo viene rifiutato esplicitamente.
Quando si implementano la segmentazione e la sicurezza della rete virtuale, tenere presente quanto segue.
Abilitare Protezione DDoS per la rete virtuale con una subnet che fa parte di un gateway applicazione con un indirizzo IP pubblico.
Aggiungere un NSG a ogni subnet laddove possibile. Usare le regole più rigide che abilitano la funzionalità completa della soluzione.
Usare gruppi di sicurezza applicazione per raggruppare gli NSG. Il raggruppamento degli NSG semplifica la creazione di regole per ambienti complessi.
Rotazione delle chiavi
In questa architettura è disponibile un servizio che usa l'autenticazione basata su chiave: l'endpoint online gestito di Machine Learning. Poiché si usa l'autenticazione basata su chiave per questo servizio, è importante:
Archiviare la chiave in un archivio sicuro, ad esempio Key Vault, per l'accesso su richiesta da client autorizzati, ad esempio l'app Web di Azure che ospita il contenitore del prompt flow.
Implementare una strategia di rotazione chiave. Se si ruotano manualmente le chiavi, creare un criterio di scadenza della chiave e usare Criteri di Azure per monitorare se la chiave è stata ruotata.
Ottimizzazione del modello OpenAI
Se si ottimizzano i modelli OpenAI nell'implementazione, prendere in considerazione le indicazioni seguenti:
Se si caricano dati di training per l'ottimizzazione, è consigliabile usare chiavi gestite dal cliente per crittografare tali dati.
Se si archiviano dati di training in un archivio come Archiviazione BLOB di Azure, è consigliabile usare una chiave gestita dal cliente per la crittografia dei dati, un'identità gestita per controllare l'accesso ai dati e un endpoint privato per connettersi ai dati.
Governance tramite criteri
Per garantire l'allineamento alla sicurezza, è consigliabile usare Criteri di Azure e criteri di rete in modo che le distribuzioni siano allineate ai requisiti del carico di lavoro. L'uso dell'automazione della piattaforma tramite criteri riduce il carico di lavoro dei passaggi di convalida manuali e garantisce la governance anche se le pipeline vengono ignorate. Considerare i criteri di sicurezza seguenti:
- Disabilitare l'accesso alla chiave o ad altre autenticazioni locali nei servizi come i servizi di Intelligenza artificiale di Azure e Key Vault.
- Richiedere una configurazione specifica delle regole di accesso alla rete o degli NSG.
- Richiedere la crittografia, ad esempio l'uso di chiavi gestite dal cliente.
Assegnazioni di ruolo di Azure AI Foundry per Azure Key Vault
L'identità gestita di Azure AI Foundry richiede sia le assegnazioni di ruolo del piano di controllo (Collaboratore) che del piano dati (amministratore dell'insieme di credenziali delle chiavi). Ciò significa che questa identità ha accesso in lettura e scrittura a tutti i segreti, le chiavi e i certificati archiviati nell'insieme di credenziali delle chiavi di Azure. Se il carico di lavoro dispone di servizi diversi da Azure AI Foundry che richiedono l'accesso a segreti, chiavi o certificati in Key Vault, il carico di lavoro o il team di sicurezza potrebbe non avere familiarità con l'identità gestita dell'hub di Azure AI Foundry che ha accesso a tali artefatti. In questo caso, è consigliabile distribuire un'istanza di Key Vault specificamente per l'hub di Azure AI Foundry e altre istanze di Azure Key Vault in base alle esigenze di altre parti del carico di lavoro.
Ottimizzazione dei costi
L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per l'ottimizzazione dei costi.
Per un esempio di prezzi per questo scenario, usare il calcolatore prezzi di Azure. È necessario personalizzare l'esempio in modo che corrisponda all'utilizzo perché questo esempio include solo i componenti inclusi nell'architettura. I componenti più costosi nello scenario sono Protezione DDoS e il firewall distribuito come parte dell'endpoint online gestito. Altri costi rilevanti sono l'interfaccia utente della chat e il calcolo del flusso di richiesta e la ricerca di intelligenza artificiale. Ottimizzare queste risorse per risparmiare il maggior costo.
Calcolo
Il flusso del prompt supporta più opzioni per ospitare i flussi eseguibili. Le opzioni includono endpoint online gestiti in Machine Learning, AKS, servizio app e servizio Azure Kubernetes. Ognuna di queste opzioni ha un proprio modello di fatturazione. La scelta del calcolo influisce sul costo complessivo della soluzione.
OpenAI di Azure
Azure OpenAI è un servizio basato sul consumo e, come per qualsiasi servizio basato sul consumo, il controllo della domanda rispetto all'offerta è il controllo dei costi primario. A tale scopo, in Azure OpenAI è necessario usare una combinazione di approcci:
Controllare i client. Le richieste client sono l'origine principale dei costi in un modello di consumo, quindi il controllo del comportamento del client è fondamentale. Tutti i client devono:
Essere approvati. Evitare di esporre il servizio in modo tale che supporti l'accesso gratuito a tutti. Limitare l'accesso sia tramite controlli di rete che di identità, ad esempio chiavi o controllo degli accessi in base al ruolo.
Essere auto-controllati. Richiedere ai client di usare i vincoli di limitazione dei token offerti dalle chiamate API, ad esempio max_tokens e max_completions.
Usare l'invio in batch, dove pratico. Esaminare i client per assicurarsi che inviino in batch le richieste in modo appropriato.
Ottimizzare l'input della richiesta e la lunghezza della risposta. Le richieste più lunghe utilizzano più token, aumentando il costo, ma le richieste che mancano di contesto sufficiente non aiutano i modelli a produrre buoni risultati. Creare richieste concise che forniscono contesto sufficiente per consentire al modello di generare una risposta utile. Analogamente, assicurarsi di ottimizzare il limite della lunghezza della risposta.
L'utilizzo del playground di Azure OpenAI deve essere necessario e nelle istanze di preproduzione, in modo che tali attività non incorra in costi di produzione.
Selezionare il modello AI corretto. La selezione dei modelli svolge anche un ruolo importante nel costo complessivo di Azure OpenAI. Tutti i modelli hanno punti di forza e debolezza e sono a prezzo individuale. Usare il modello corretto per il caso d'uso per assicurarsi di non essere in sospeso su un modello più costoso quando un modello meno costoso restituisce risultati accettabili. In questa implementazione di riferimento di chat, GPT 3.5-turbo è stato scelto su GPT-4 per risparmiare circa un ordine di grandezza dei costi di distribuzione del modello, ottenendo risultati sufficienti.
Informazioni sui punti di interruzione della fatturazione. L'ottimizzazione viene addebitata ogni ora. Per essere il più efficiente, si vuole usare la maggior parte di tale tempo disponibile all'ora per migliorare i risultati di ottimizzazione evitando di passare semplicemente al periodo di fatturazione successivo. Analogamente, il costo per 100 immagini dalla generazione di immagini è uguale al costo per un'immagine. Massimizzare i punti di interruzione del prezzo al vostro vantaggio.
Comprendere i modello di fatturazione. Azure OpenAI è disponibile anche in un modello di fatturazione basato sull'impegno tramite l'offerta di velocità effettiva con provisioning. Dopo avere modelli di utilizzo prevedibili, è consigliabile passare a questo modello di fatturazione preacquisto se è più conveniente nel volume di utilizzo.
Impostare i limiti di provisioning. Assicurarsi che tutte le quote di provisioning vengano allocate solo ai modelli che devono far parte del carico di lavoro, in base al modello. La velocità effettiva dei modelli già distribuiti non è limitata a questa quota con provisioning mentre è abilitata la quota dinamica. La quota non viene mappata direttamente ai costi e questo costo può variare.
Monitorare l'utilizzo del pagamento in base al consumo Se si usano prezzi con pagamento in base al consumo, monitorare l'utilizzo di TPM e RPM. Usare queste informazioni per informare le decisioni di progettazione dell'architettura, ad esempio i modelli da usare e ottimizzare le dimensioni delle richieste.
Monitorare l'utilizzo della velocità effettiva con provisioning. Se si usa la velocità effettiva con provisioning, monitorare l'utilizzo gestito dal provisioning per assicurarsi di non usare la velocità effettiva con provisioning acquistata.
Gestione dei costi. Seguire le indicazioni sull'uso delle funzionalità di gestione dei costi con OpenAI per monitorare i costi, impostare budget per gestire i costi e creare avvisi per notificare agli stakeholder rischi o anomalie.
Eccellenza operativa
L'eccellenza operativa copre i processi operativi che distribuiscono un'applicazione e la mantengono in esecuzione nell'ambiente di produzione. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per l'eccellenza operativa.
Runtime predefiniti del flusso di prompt
Come nell'architettura di base, questa architettura usa il runtime automatico per ridurre al minimo il carico operativo. Il runtime automatico è un'opzione di calcolo serverless all'interno di Machine Learning che semplifica la gestione delle risorse di calcolo e delega la maggior parte della configurazione del prompt flow al file requirements.txt
e flow.dag.yaml
alla configurazione dell'applicazione in esecuzione. Ciò rende questa scelta a bassa manutenzione, temporanea e guidata dall'applicazione. L'uso del runtime dell'istanza di calcolo o del calcolo esternalizzato, ad esempio in questa architettura, richiede un ciclo di vita più gestito dal team del carico di lavoro del calcolo e deve essere selezionato quando i requisiti del carico di lavoro superano le funzionalità di configurazione dell'opzione di runtime automatico.
Monitoraggio
Come nell'architettura di base, la diagnostica è configurata per tutti i servizi. Tutti i servizi, ma servizio app sono configurati per acquisire tutti i log. servizio app è configurato per acquisire AppServiceHTTPLogs, AppServiceConsoleLogs, AppServiceAppLogs e AppServicePlatformLogs. Nell'ambiente di produzione, è probabile che tutti i log siano eccessivi. Ottimizzare i flussi di log in base alle esigenze operative. Per questa architettura, i log di Azure Machine Learning usati dal progetto Azure AI Foundry di interesse includono: AmlComputeClusterEvent, AmlDataSetEvent, AmlEnvironmentEvent e AmlModelsEvent.
Valutare la creazione di avvisi personalizzati per le risorse in questa architettura, ad esempio quelle presenti negli avvisi di base di Monitoraggio di Azure. Ad esempio:
Assicurarsi di tenere traccia dell'utilizzo dei token rispetto alle distribuzioni del modello OpenAI di Azure. In questa architettura il flusso prompt tiene traccia dell'utilizzo dei token tramite l'integrazione con app Azure lication Insights.
Operazioni del modello linguistico
La distribuzione per soluzioni di chat basate su OpenAI di Azure, come questa architettura, deve seguire le indicazioni in GenAIOps con prompt flow con Azure DevOps e GitHub. Inoltre, deve prendere in considerazione le procedure consigliate per l'integrazione continua e il recapito continuo (CI/CD) e architetture protette dalla rete. Le indicazioni seguenti illustrano l'implementazione dei flussi e l'infrastruttura associata in base alle raccomandazioni GenAIOps. Queste linee guida per la distribuzione non includono gli elementi dell'applicazione front-end, che non sono stati modificati nell'architettura dell'applicazione Web con ridondanza della zona a disponibilità elevata baseline.
Sviluppo
Il flusso di richiesta offre sia un'esperienza di creazione basata su browser nel portale di Azure AI Foundry che tramite un'estensione di Visual Studio Code . Entrambe le opzioni archiviano il codice del flusso come file. Quando si usa il portale di Azure AI Foundry, i file vengono archiviati in un account di archiviazione. Quando si lavora in Microsoft Visual Studio Code, i file vengono archiviati nel file system locale.
Per seguire le procedure consigliate per lo sviluppo collaborativo, i file di origine devono essere mantenuti in un repository di codice sorgente online, ad esempio GitHub. Questo approccio facilita il rilevamento di tutte le modifiche al codice, la collaborazione tra autori di flussi e l'integrazione con i flussi di distribuzione che testano e convalidano tutte le modifiche al codice.
Per lo sviluppo aziendale, usare l'estensione Microsoft Visual Studio Code e l'SDK/CLI del prompt flow per lo sviluppo. Gli autori del prompt flow possono compilare e testare i flussi da Microsoft Visual Studio Code e integrare i file archiviati in locale con il sistema di controllo del codice sorgente online e le pipeline. Anche se l'esperienza basata su browser è ideale per lo sviluppo esplorativo, con alcune operazioni, può essere integrata con il sistema di controllo del codice sorgente. La cartella del flusso può essere scaricata dalla pagina del flusso nel pannello Files
, decompressa e inserita nel sistema di controllo del codice sorgente.
Valutazione
Testare i flussi usati in un'applicazione di chat proprio come si testano altri artefatti software. È difficile specificare e asserire una singola risposta "corretta" per gli output del modello linguistico, ma è possibile usare un modello linguistico stesso per valutare le risposte. Valutare la possibilità di implementare le valutazioni automatizzate seguenti dei flussi del modello linguistico:
Accuratezza della classificazione: valuta se il modello linguistico fornisce un punteggio "corretto" o "errato" e aggrega i risultati per produrre un grado di accuratezza.
Coerenza: valuta la qualità delle frasi nella risposta stimata di un modello e il modo in cui si connettono tra loro in modo coerente.
Fluidità: valuta la risposta stimata del modello per la sua accuratezza grammaticale e linguistica.
Base rispetto al contesto: valuta l'utilità delle risposte stimate del modello in base al contesto preconfigurato. Anche se le risposte del modello linguistico sono corrette, se non possono essere convalidate rispetto al contesto specificato, tali risposte non vengono rilevate.
Pertinenza: valuta il grado di allineamento delle risposte stimate del modello con la domanda posta.
Quando si implementano valutazioni automatizzate, prendere in considerazione le indicazioni seguenti:
Produrre punteggi dalle valutazioni e misurarli rispetto a una soglia di successo predefinita. Usare questi punteggi per segnalare il superamento/esito negativo dei test nelle pipeline.
Alcuni di questi test richiedono input di dati preconfigurati di domande, contesto e verità di base.
Includere coppie di domande-risposta sufficienti per garantire che i risultati dei test siano affidabili, con almeno 100-150 coppie consigliate. Queste coppie di domande-risposta vengono definite "set di dati d'oro". Un popolamento più ampio potrebbe essere necessario a seconda delle dimensioni e del dominio del set di dati.
Evitare di usare i modelli linguistici per generare uno dei dati nel set di dati golden.
Flusso di distribuzione
Il tecnico del prompt/Lo scienziato dei dati apre un ramo di funzionalità in cui lavora per l'attività o la funzionalità specifica. Il tecnico del prompt/Lo scienziato dei dati esegue l'iterazione del flusso usando il prompt flow per Microsoft Visual Studio Code, eseguendo periodicamente il commit delle modifiche ed eseguendo il push di tali modifiche nel ramo di funzionalità.
Al termine dello sviluppo e della sperimentazione locale, il tecnico del prompt/lo scienziato dei dati apre una richiesta pull dal ramo funzionalità al ramo principale. La richiesta pull attiva una pipeline di richiesta pull. Questa pipeline esegue controlli di qualità rapidi che devono includere:
- Esecuzione di flussi di sperimentazione
- Esecuzione di unit test configurati
- Compilazione della codebase
- Analisi codice statico
La pipeline può contenere un passaggio che richiede almeno un membro del team di approvare manualmente la richiesta pull prima dell'unione. Il responsabile approvazione non può essere il commiter e ha prompt flow richieste e familiarità con i requisiti del progetto. Se la richiesta pull non è approvata, l'unione viene bloccata. Se la richiesta pull viene approvata o non è presente alcun passaggio di approvazione, il ramo funzionalità viene unito al ramo principale.
L'unione al ramo principale attiva il processo di compilazione e rilascio per l'ambiente di sviluppo. In particolare:
- La pipeline CI viene attivata dall'unione al ramo principale. La pipeline CI esegue tutti i passaggi eseguiti nella pipeline di richiesta pull e i passaggi seguenti:
- Flusso di sperimentazione
- Flusso di valutazione.
- Registra i flussi nel Registro di sistema di Machine Learning quando vengono rilevate modifiche
- La pipeline CD viene attivata dopo il completamento della pipeline CI. Questo flusso esegue i passaggi seguenti:
- Distribuisce il flusso dal Registro di sistema di Machine Learning a un endpoint online di Machine Learning
- Esegue test di integrazione destinati all'endpoint online
- Esegue test di fumo destinati all'endpoint online
Un processo di approvazione viene integrato nel processo di promozione della versione: una volta approvati, vengono avviati i processi CI e CD descritti nei passaggi 4.a. & 4.b. vengono ripetuti, destinati all'ambiente di testing. I passaggi a. e b. sono gli stessi, ad eccezione del fatto che i test di accettazione dell'utente vengono eseguiti dopo smoke test nell’ambiente di testing.
I processi CI & CD descritti nei passaggi 4.a. & 4.b. vengono eseguiti per promuovere la versione rilasciata nell'ambiente di produzione dopo che l'ambiente di testing è stato verificato e approvato.
Dopo il rilascio in un ambiente live, vengono eseguite le attività operative di monitoraggio delle metriche delle prestazioni e la valutazione dei modelli linguistici distribuiti. Ciò include, ma non è limitato a:
- Rilevamento delle deviazioni dei dati
- Osservazione dell'infrastruttura
- Gestione dei costi
- Comunicazione delle prestazioni del modello agli stakeholder
Indicazioni per la distribuzione
È possibile usare gli endpoint di Machine Learning per distribuire i modelli in modo da consentire flessibilità durante il rilascio nell'ambiente di produzione. Prendere in considerazione le strategie seguenti per garantire prestazioni e qualità ottimali del modello:
Distribuzioni blu/verde: con questa strategia, è possibile distribuire in modo sicuro la nuova versione del servizio Web in un gruppo limitato di utenti o richieste prima di indirizzare tutto il traffico alla nuova distribuzione.
Test A/B: non solo le distribuzioni blu/verde sono efficaci per l'implementazione sicura delle modifiche, ma possono essere usate anche per distribuire un nuovo comportamento che consente a un subset di utenti di valutare l'impatto della modifica.
Includere l'linting dei file Python che fanno parte del prompt flow nelle pipeline. Linting verifica la conformità con gli standard di stile, gli errori, la complessità del codice, le importazioni inutilizzate e la denominazione delle variabili.
Quando si distribuisce il flusso nell'area di lavoro di Machine Learning isolata dalla rete, usare un agente self-hosted per distribuire gli artefatti nelle risorse di Azure.
Il Registro modelli di Machine Learning deve essere aggiornato solo quando sono presenti modifiche al modello.
I modelli linguistici, i flussi e l'interfaccia utente client devono essere accoppiati in modo libero. Gli aggiornamenti ai flussi e all'interfaccia utente client possono e devono essere eseguiti senza influire sul modello e viceversa.
Quando si sviluppano e si distribuiscono più flussi, ogni flusso deve avere un proprio ciclo di vita, che consente un'esperienza ad accoppiamento debole quando si promuove il flusso dalla sperimentazione alla produzione.
Infrastruttura
Quando si distribuiscono i componenti di chat end-to-end di Azure OpenAI di base, alcuni dei servizi di cui è stato effettuato il provisioning sono fondamentali e permanenti all'interno dell'architettura, mentre altri componenti sono più temporanei per natura, la loro esistenza associata a una distribuzione. Inoltre, mentre la rete virtuale gestita è fondamentale, viene eseguito automaticamente il provisioning quando si crea un'istanza di calcolo che porta ad alcune considerazioni.
Componenti fondamentali
Alcuni componenti di questa architettura esistono con un ciclo di vita che si estende oltre qualsiasi singolo prompt flow o qualsiasi distribuzione del modello. Queste risorse vengono in genere distribuite una volta come parte della distribuzione di base dal team del carico di lavoro e gestite oltre a nuove, rimosse o aggiornate ai prompt flow o alle distribuzioni del modello.
- Area di lavoro di Machine Learning
- Account di archiviazione per l'area di lavoro di Machine Learning
- Registro Container
- AI Search
- OpenAI di Azure
- Azure Application Insights
- Azure Bastion
- Macchina virtuale di Azure per il jump box
Componenti temporanei
Alcune risorse di Azure sono più strettamente associate alla progettazione di prompt flow specifici. Questo approccio consente di associare queste risorse al ciclo di vita del componente e diventare temporanee in questa architettura. Le risorse di Azure sono interessate quando il carico di lavoro si evolve, ad esempio quando i flussi vengono aggiunti o rimossi o quando vengono introdotti nuovi modelli. Queste risorse vengono ricreate e rimosse le istanze precedenti. Alcune di queste risorse sono risorse dirette di Azure e alcune sono manifestazioni del piano dati all'interno del servizio contenitore.
Il modello nel Registro modelli di Machine Learning deve essere aggiornato, se modificato, come parte della pipeline cd.
L'immagine del contenitore deve essere aggiornata nel registro contenitori come parte della pipeline cd.
Un endpoint di Machine Learning viene creato quando viene distribuito un prompt flow se la distribuzione fa riferimento a un endpoint che non esiste. L'endpoint deve essere aggiornato per disattivare l'accesso pubblico.
Le distribuzioni dell'endpoint di Machine Learning vengono aggiornate quando un flusso viene distribuito o eliminato.
L'insieme di credenziali delle chiavi per l'interfaccia utente client deve essere aggiornato con la chiave all'endpoint quando viene creato un nuovo endpoint.
Rete virtuale gestita su richiesta
Il provisioning della rete virtuale gestita viene eseguito automaticamente quando si crea per la prima volta un'istanza di calcolo. Se si usa l'infrastruttura come codice per distribuire l'hub e non si hanno risorse di calcolo di Azure AI Foundry in Bicep, la rete virtuale gestita non viene distribuita e si riceverà un errore durante la connessione al portale di Azure AI Foundry. È necessario eseguire un'azione una tantum per effettuare manualmente il provisioning della rete virtuale gestita dopo la distribuzione IaC.
Organizzazione delle risorse
Se si ha uno scenario in cui l'hub è di proprietà centrale di un team diverso dal team del carico di lavoro, è possibile scegliere di distribuire progetti in gruppi di risorse separati. Se si usa l'infrastruttura come codice, è possibile farlo impostando un gruppo di risorse diverso in Bicep. Se si usa il portale, è possibile impostare la defaultWorkspaceResourceGroup
proprietà nel workspaceHubConfig
gruppo di risorse che si vuole creare i progetti.
Efficienza prestazionale
L'efficienza delle prestazioni è la capacità di dimensionare il carico di lavoro per soddisfare in modo efficiente le richieste poste dagli utenti. Per maggiori informazioni, consultare la sezione Elenco di controllo per la revisione della progettazione per l'efficienza delle prestazioni.
Questa sezione descrive l'efficienza delle prestazioni dal punto di vista di Ricerca di Azure, Azure OpenAI e Machine Learning.
Ricerca di Azure - Efficienza delle prestazioni
Seguire le indicazioni per analizzare le prestazioni in AI Search.
Azure OpenAI - Efficienza delle prestazioni
Determinare se l'applicazione richiede la velocità effettiva con provisioning o l'hosting condiviso o il modello a consumo. La velocità effettiva con provisioning garantisce capacità di elaborazione riservata per le distribuzioni del modello OpenAI, che offre prestazioni prevedibili e velocità effettiva per i modelli. Questo modello di fatturazione è diverso dall'hosting condiviso o dal modello a consumo. Il modello di consumo è il miglior sforzo e potrebbe essere soggetto a rumorosi vicini o altri stressor sulla piattaforma.
Monitorare l'utilizzo gestito da provisioning per la velocità effettiva con provisioning.
Machine Learning - efficienza delle prestazioni
Se si distribuisce in endpoint online di Machine Learning:
Seguire le indicazioni su come ridimensionare automaticamente un endpoint online. Eseguire questa operazione per rimanere strettamente allineati alla domanda senza un overprovisioning eccessivo, soprattutto nei periodi di basso utilizzo.
Scegliere lo SKU della macchina virtuale appropriato per l'endpoint online per soddisfare gli obiettivi di prestazioni. Testare le prestazioni del numero di istanze inferiore e degli SKU più grandi rispetto al numero di istanze più grandi e agli SKU più piccoli per trovare una configurazione ottimale.
Distribuire lo scenario
Per distribuire ed eseguire l'implementazione di riferimento, seguire la procedura descritta nell'implementazione della baseline end-to-end OpenAI.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
- Rob Bagby | Modelli & procedure - Microsoft
- Freddy Ayala | Cloud Solution Architect - Microsoft
- Prabal Deb | Senior Software Engineer - Microsoft
- Raouf Aliouat | Software Engineer II - Microsoft
- Ritesh Modi | Principal Software Engineer - Microsoft
- Ryan Pfalz | Senior Solution Architect - Microsoft
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.