Condividi tramite


Catalogo e raccolte di modelli nel portale di Azure AI Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Il catalogo dei modelli nel portale di Azure AI Foundry è l'hub per individuare e usare un'ampia gamma di modelli per la creazione di applicazioni di intelligenza artificiale generative. Il catalogo modelli include centinaia di modelli di diversi provider, ad esempio il Servizio OpenAI di Azure, Mistral, Meta, Cohere, NVIDIA e Hugging Face, inclusi i modelli sottoposti a training da Microsoft. I modelli dei provider diversi da Microsoft sono prodotti non Microsoft, come definito nelle Condizioni per i prodotti Microsoft e sono soggetti alle condizioni fornite con il modello.

Raccolte di modelli

Il catalogo dei modelli organizza i modelli in raccolte diverse:

  • Curati da Azure per intelligenza artificiale: i più diffusi modelli non Microsoft e open-weight disponibili in pacchetto e ottimizzati per un perfetto funzionamento sulla piattaforma di Azure per intelligenza artificiale. L'utilizzo di questi modelli è soggetto alle condizioni di licenza dei provider di modelli. Quando si distribuiscono questi modelli nel portale di Azure AI Foundry, la disponibilità è soggetta al contratto di servizio di Azure applicabile e Microsoft fornisce supporto per i problemi di distribuzione.

    I modelli di partner quali Meta, NVIDIA e Mistral AI sono esempi di modelli disponibili in questa raccolta del catalogo. È possibile identificare questi modelli cercando un segno di spunta verde nei riquadri del modello nel catalogo. In alternativa, è possibile filtrare in base alla raccolta Curati da Azure per intelligenza artificiale.

  • Modelli Azure OpenAI disponibili esclusivamente in Azure: modelli Azure OpenAI di punta disponibili tramite un'integrazione con il Servizio OpenAI di Azure. Microsoft supporta questi modelli e il relativo utilizzo in base alle condizioni del prodotto e al contratto di servizio per il Servizio OpenAI di Azure.

  • Modelli aperti dell'hub Hugging Face: centinaia di modelli dell'hub Hugging Face per l'inferenza in tempo reale con l'ambiente di calcolo gestito. Hugging Face crea e gestisce i modelli elencati in questa raccolta. Per assistenza, usare il forum Hugging Face o il supporto di Hugging Face. Per altre informazioni, vedere Distribuire modelli aperti con Azure AI Foundry.

È possibile inviare una richiesta per aggiungere un modello al catalogo modelli usando questo modulo.

Panoramica delle funzionalità del catalogo modelli

È possibile cercare e individuare modelli che soddisfano le esigenze tramite keyword search e filters. Il catalogo dei modelli offre anche le metriche del benchmark delle prestazioni del modello per i modelli selezionati. È possibile accedere al benchmark facendo clic Compare Models o dalla scheda Benchmark della scheda modello.

Nella scheda del modello sono disponibili:

  • Fatti rapidi: verranno visualizzate informazioni chiave sul modello a colpo d'occhio.
  • Dettagli: questa pagina contiene le informazioni dettagliate sul modello, tra cui descrizione, informazioni sulla versione, tipo di dati supportato e così via.
  • Benchmark: sono disponibili metriche di benchmark delle prestazioni per i modelli selezionati.
  • Distribuzioni esistenti: se il modello è già stato distribuito, è possibile trovarlo nella scheda Distribuzioni esistenti.
  • Esempi di codice: sono disponibili gli esempi di codice di base per iniziare a sviluppare applicazioni di intelligenza artificiale.
  • Licenza: sono disponibili informazioni legali relative alle licenze dei modelli.
  • Artefatti: questa scheda verrà visualizzata solo per i modelli aperti. È possibile visualizzare gli asset del modello e scaricarli tramite l'interfaccia utente.

Distribuzione del modello: Azure OpenAI

Per altre informazioni sui modelli Azure OpenAI, vedere Che cos'è il servizio OpenAI di Azure?.

Distribuzione del modello: API di calcolo gestite e serverless

Oltre ai modelli di servizio OpenAI di Azure, il catalogo dei modelli offre due modi distinti per distribuire i modelli per l'uso: calcolo gestito e API serverless.

Le opzioni di distribuzione e le funzionalità disponibili per ciascun modello variano, come descritto nelle tabelle seguenti. Altre informazioni sull'elaborazione dati con le opzioni di distribuzione.

Funzionalità delle opzioni di distribuzione del modello

Funzionalità Calcolo gestito API serverless (con pagamento in base al token)
Esperienza di distribuzione e fatturazione I pesi del modello vengono distribuiti in macchine virtuali dedicate con ambienti di calcolo gestiti. Un ambiente di calcolo gestito, in cui possono essere presenti una o più distribuzioni, rende disponibile un'API REST per l'inferenza. Vengono addebitate le ore core della macchina virtuale usate dalle distribuzioni. L'accesso ai modelli avviene tramite una distribuzione che effettua il provisioning di un'API per accedere al modello. L'API fornisce l'accesso al modello che Microsoft ospita e gestisce per l'inferenza. Vengono addebitati input e output alle API, in genere nei token. Le informazioni sui prezzi vengono fornite prima della distribuzione.
Autenticazione delle API Chiavi e autenticazione di Microsoft Entra. Solo chiavi.
Sicurezza dei contenuti Usare le API del servizio Sicurezza dei contenuti di Azure AI. I filtri di Sicurezza dei contenuti di Azure AI sono integrati nelle API di inferenza. I filtri di Sicurezza dei contenuti di Azure AI sono fatturati separatamente.
Isolamento della rete Configurare le reti gestite per gli hub di Azure AI Foundry. Gli ambienti di calcolo seguono l'impostazione del flag di accesso alla rete pubblica (PNA) dell'hub. Per altre informazioni, vedere la sezione Isolamento rete per i modelli distribuiti tramite API serverless, riportata più avanti in questo articolo.

Modelli disponibili per le opzioni di distribuzione supportate

L'elenco seguente contiene modelli api serverless. Per i modelli OpenAI di Azure, vedere Modelli di servizio OpenAI di Azure.

Modello Calcolo gestito API serverless (con pagamento in base al token)
Modelli della famiglia Llama Llama-3.2-3B-Instruct
Llama-3.2-1B-Instruct
Llama-3.2-1B
Llama-3.2-90B-Vision-Instruct
Llama-3.2-11B-Vision-Instruct
Llama-3.1-8B-Instruct
Llama-3.1-8B
Llama-3.1-70B-Instruct
Llama-3.1-70B
Llama-3-8B-Instruct
Llama-3-70B
Llama-3-8B
Llama-Guard-3-1B
Llama-Guard-3-8B
Llama-Guard-3-11B-Vision
Llama-2-7b
Llama-2-70b
Llama-2-7b-chat
Llama-2-13b-chat
CodeLlama-7b-hf
CodeLlama-7b-Instruct-hf
CodeLlama-34b-hf
CodeLlama-34b-Python-hf
CodeLlama-34b-Instruct-hf
CodeLlama-13b-Instruct-hf
CodeLlama-13b-Python-hf
Prompt-Guard-86M
CodeLlama-70b-hf
Llama-3.2-90B-Vision-Instruct
Llama-3.2-11B-Vision-Instruct
Llama-3.1-8B-Instruct
Llama-3.1-70B-Instruct
Llama-3.1-405B-Instruct
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-2-13b
Llama-2-13b-chat
Modelli della famiglia Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-large (2402)
Mistral-large (2407)
Mistral-small
Ministral-3B
Mistral-NeMo
Modelli della famiglia Cohere Non disponibile Cohere-command-r-plus-08-2024
Cohere-command-r-08-2024
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Cohere-rerank-v3-english
Cohere-rerank-v3-multilingual
JAIS Non disponibile jais-30b-chat
Modelli di famiglia AI21 Non disponibile Jamba-1.5-Mini
Jamba-1.5-Large
Modelli di famiglia di intelligenza artificiale per il settore sanitario MedImageParse
MedImageInsight
CxrReportGen
Virchow
Virchow2
Prism
BiomedCLIP-PubMedBERT
microsoft-llava-med-v1.5
m42-health-llama3-med4
biomistrale-biomistrale-7b
microsoft-biogpt-large-pub
microsoft-biomednlp-pub
stanford-crfm-biomedlm
medicalai-clinicalbert
microsoft-biogpt
microsoft-biogpt-large
microsoft-biomednlp-pub
Non disponibile
Modelli della famiglia Phi-3 Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-small-128k-Instruct
Phi-3-medium-4k-Instruct
Phi-3-medium-128k-instruct
Phi-3-vision-128k-Instruct
Phi-3.5-mini-Instruct
Phi-3.5-vision-Instruct
Phi-3.5-MoE-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-small-128k-Instruct
Phi-3-medium-4k-Instruct
Phi-3-medium-128k-instruct

Phi-3.5-mini-Instruct
Phi-3.5-vision-Instruct
Phi-3.5-MoE-Instruct
Nixtla Non disponibile TimeGEN-1

Diagramma che mostra i modelli come servizio e il ciclo di servizio degli ambienti di calcolo.

Calcolo gestito

La possibilità di distribuire modelli nell'ambiente di calcolo gestito si basa sulle funzionalità della piattaforma Azure Machine Learning per consentire una perfetta integrazione dell'ampia raccolta di modelli nel catalogo modelli nell'intero ciclo di vita delle operazioni LLM.

Diagramma che mostra il ciclo di vita delle operazioni del modello linguistico di grandi dimensioni.

Disponibilità di modelli per la distribuzione come calcolo gestito

I modelli vengono resi disponibili tramite i registri di Azure Machine Learning. Questi registri consentono un approccio machine-learning-first per l'hosting e la distribuzione di asset di Azure Machine Learning. Questi asset includono pesi del modello, runtime di contenitori per l'esecuzione dei modelli, pipeline per la valutazione e l'ottimizzazione dei modelli e set di dati per benchmark, nonché esempi.

Questi registri si basano su un'infrastruttura di livello aziendale altamente scalabile che:

  • Offre artefatti del modello con accesso a bassa latenza a tutte le aree di Azure con replica geografica predefinita.

  • Supporta i requisiti di sicurezza aziendali, come la limitazione dell'accesso ai modelli usando Criteri di Azure e la distribuzione sicura mediante reti virtuali gestite.

Distribuzione di modelli per l'inferenza con un ambiente di calcolo gestito

I modelli disponibili per la distribuzione in un ambiente di calcolo gestito possono essere distribuiti in ambienti di calcolo gestiti di Azure Machine Learning per l'inferenza in tempo reale. Per la distribuzione in un ambiente di calcolo gestito è necessario avere una quota di macchine virtuali nella sottoscrizione di Azure per i prodotti specifici necessari per eseguire il modello in modo ottimale. Alcuni modelli consentono la distribuzione in una quota condivisa temporaneamente per il test del modello.

Altre informazioni sulla distribuzione di modelli:

Creare app di IA generativa con l'ambiente di calcolo gestito

La funzionalità prompt flow in Azure Machine Learning offre un'esperienza ottimale per la creazione di prototipi. È possibile usare i modelli distribuiti con gli ambienti di calcolo gestiti in prompt flow con lo strumento Open Model LLM. È inoltre possibile usare l'API REST esposta dall’ambiente di calcolo gestito nei più diffusi strumenti LLM, come LangChain, usando l'estensione di Azure Machine Learning.

Sicurezza dei contenuti per i modelli distribuiti come ambiente di calcolo gestito

Il servizio Sicurezza dei contenuti di Azure AI è disponibile per l'uso con il calcolo gestito per visualizzare varie categorie di contenuto dannoso, ad esempio contenuto sessuale, violenza, odio e autolesionismo. È anche possibile usare il servizio per visualizzare le minacce avanzate, ad esempio il rilevamento del rischio di jailbreak e il rilevamento del testo del materiale protetto.

È possibile fare riferimento a questo notebook per l'integrazione di riferimento con Sicurezza dei contenuti di Azure AI per Llama 2. In alternativa, è possibile usare lo strumento Sicurezza dei contenuti (testo) nel prompt flow per passare le risposte dal modello a Sicurezza dei contenuti di Azure AI per lo screening. L'addebito viene eseguito separatamente per tale uso, come descritto in Prezzi di Sicurezza dei contenuti di Azure AI.

Fatturazione dell'API serverless (con pagamento in base al token)

È possibile distribuire determinati modelli nel catalogo dei modelli con fatturazione con pagamento in base al token. Questo metodo di distribuzione, detto anche API serverless, consente di usare i modelli come API senza ospitarli nella sottoscrizione. I modelli sono ospitati in un'infrastruttura gestita da Microsoft, che consente l'accesso basato su API al modello del provider di modelli. L'accesso basato su API può ridurre sensibilmente i costi di accesso a un modello e semplificare l'esperienza di provisioning.

I modelli disponibili per la distribuzione come API serverless con fatturazione con pagamento in base al consumo vengono offerti dal provider di modelli, ma sono ospitati in un'infrastruttura di Azure gestita da Microsoft e sono accessibili tramite API. I provider di modelli definiscono le condizioni di licenza e impostano il prezzo per l'utilizzo dei modelli. Il servizio Machine Learning:

  • Gestisce l'infrastruttura di hosting.
  • Rende disponibili le API di inferenza.
  • Funge da responsabile del trattamento dei dati per le richieste inviate e per l'output del contenuto dai modelli distribuiti tramite MaaS.

Altre informazioni sull'elaborazione dei dati per MaaS sono disponibili nell'articolo sulla privacy dei dati.

Diagramma che mostra il ciclo del servizio di pubblicazione del modello.

Fatturazione

L'esperienza di individuazione, sottoscrizione e consumo per i modelli distribuiti tramite MaaS si trova nel portale di Azure AI Foundry e studio di Azure Machine Learning. Gli utenti accettano le condizioni di licenza per l'utilizzo dei modelli. Le informazioni sui prezzi per l'utilizzo vengono fornite durante la distribuzione.

I modelli dei provider non Microsoft vengono fatturati tramite Azure Marketplace, in base alle Condizioni per l'utilizzo del Marketplace commerciale di Microsoft.

I modelli di Microsoft vengono fatturati tramite contatori di Azure come servizi di consumo di prima parte. Come descritto nelle Condizioni per i prodotti, si acquistano i servizi a consumo di prima parte usando i contatori di Azure, ma non sono soggetti alle condizioni del servizio di Azure. L'utilizzo di questi modelli è soggetto alle condizioni di licenza fornite.

Ottimizzazione dei modelli

Alcuni modelli supportano anche l'ottimizzazione serverless. Per questi modelli, è possibile sfruttare i vantaggi di hosted fine-tuning con la fatturazione con pagamento in base al consumo per personalizzare i modelli usando i dati forniti dall'utente. Per altre informazioni, vedi la panoramica sull'ottimizzazione.

RAG con modelli distribuiti come API serverless

Nel portale di Azure AI Foundry è possibile usare indici vettoriali e generazione aumentata (RAG). È possibile usare modelli che possono essere distribuiti tramite API serverless per generare incorporamenti e inferenze basati su dati personalizzati. Questi incorporamenti e inferenze possono quindi generare risposte specifiche per il caso d'uso. Per altre informazioni, vedere Creare e usare indici vettoriali nel portale di Azure AI Foundry.

Disponibilità di offerte e modelli a livello di area

La fatturazione con pagamento in base al token è disponibile solo per gli utenti la cui sottoscrizione di Azure appartiene a un account di fatturazione in un paese in cui il provider di modelli ha reso disponibile l'offerta. Se l'offerta è disponibile nell'area pertinente, l'utente deve disporre di una risorsa di progetto nell'area di Azure in cui il modello è disponibile per la distribuzione o l'ottimizzazione, a seconda delle esigenze. Vedere Disponibilità dell'area per i modelli negli endpoint DELL'API serverless | Azure AI Foundry per informazioni dettagliate.

Sicurezza dei contenuti per i modelli distribuiti tramite API serverless

Per i modelli linguistici distribuiti tramite API serverless, Azure Machine Learning implementa una configurazione predefinita dei filtri di moderazione del testo di Sicurezza dei contenuti di Azure AI che rileva i contenuti dannosi (ad esempio contenuti che incitano all’odio, all’autolesionismo, contenuti sessualmente espliciti e violenti). Per altre informazioni sul filtro dei contenuti (anteprima), vedere Categorie di danni in Sicurezza dei contenuti di Azure AI.

Suggerimento

Il filtro del contenuto (anteprima) non è disponibile per determinati tipi di modello distribuiti tramite API serverless. Questi tipi di modello includono modelli di incorporamento e modelli di serie temporali.

Il filtro del contenuto (anteprima) avviene in modo sincrono quando il servizio richiede di generare contenuto. È possibile che vengano fatturati separatamente in base ai prezzi di Sicurezza dei contenuti di Azure AI per tale uso. È possibile disabilitare il filtro del contenuto (anteprima) per i singoli endpoint serverless:

  • Al momento della prima distribuzione di un modello linguistico
  • In seguito, selezionando l'interruttore filtro contenuto nella pagina dei dettagli della distribuzione

Si supponga di decidere di usare un'API diversa dall'API di inferenza del modello di Azure per intelligenza artificiale allo scopo di usare un modello distribuito tramite un'API serverless. In una situazione di questo tipo, il filtro dei contenuti (anteprima) non è abilitato a meno che non venga implementato separatamente tramite Sicurezza dei contenuti di Azure AI.

Per iniziare a usare Sicurezza dei contenuti di Azure AI, vedere Istruzioni di avvio rapido: analizzare il contenuto di testo. Se non si usa il filtro dei contenuti (anteprima) per i modelli distribuiti tramite API serverless, si corre un rischio maggiore di esporre gli utenti a contenuti dannosi.

Isolamento rete per i modelli distribuiti tramite API serverless

I calcoli gestiti per i modelli distribuiti come API serverless seguono l'impostazione del flag di accesso alla rete pubblica dell'hub di AI Foundry con il progetto in cui è presente la distribuzione. Per proteggere il calcolo gestito, disabilitare il flag di accesso alla rete pubblica nell'hub di AI Foundry. È possibile aiutare a proteggere la comunicazione in ingresso da un client verso l’ambiente di calcolo gestito usando un endpoint privato per l'hub.

Per impostare il flag di accesso alla rete pubblica per l'hub di AI Foundry:

  • Vai al portale di Azure.
  • Cercare il gruppo di risorse a cui appartiene l'hub e selezionare l'hub di AI Foundry dalle risorse elencate per questo gruppo di risorse.
  • Nella pagina di panoramica dell'hub, nel riquadro sinistro, passare a Impostazioni>Rete.
  • Nella scheda Accesso pubblico è possibile configurare le impostazioni per il flag di accesso alla rete pubblica.
  • Salva le modifiche. La propagazione delle modifiche può richiedere fino a cinque minuti.

Limiti

  • Se si ha un hub di AI Foundry con un ambiente di calcolo gestito creato prima del 11 luglio 2024, i calcoli gestiti aggiunti ai progetti in questo hub non seguiranno la configurazione di rete dell'hub. In questo caso, è invece necessario creare un nuovo ambiente di calcolo gestito per l'hub e creare nuove distribuzioni di API serverless nel progetto in modo che le nuove distribuzioni possano seguire la configurazione di rete dell'hub.

  • Se si ha un hub di AI Foundry con distribuzioni MaaS create prima del 11 luglio 2024 e si abilita un calcolo gestito in questo hub, le distribuzioni MaaS esistenti non seguiranno la configurazione di rete dell'hub. È necessario creare di nuovo le distribuzioni per consentire alle distribuzioni di API serverless nell'hub di seguire la configurazione di rete dell'hub.

  • Attualmente, il supporto per Azure OpenAI On Your Data non è disponibile per le distribuzioni MaaS negli hub privati, poiché il flag di accesso alla rete pubblica è disabilitato per gli hub privati.

  • La propagazione di qualsiasi modifica della configurazione di rete (ad esempio, l'abilitazione o la disabilitazione del flag di accesso alla rete pubblica) può richiedere fino a cinque minuti.