Uso dei modelli linguistici

Completato

Le organizzazioni e gli sviluppatori possono eseguire il training dei propri modelli linguistici da zero, ma nella maggior parte dei casi risulta più pratico usare un modello di base esistente e, facoltativamente, ottimizzarlo con i propri dati di training. Sono disponibili molte origini di modello che è possibile usare.

In Microsoft Azure è possibile trovare modelli di base nel Servizio OpenAI di Azure e nel Catalogo modelli. Il Catalogo modelli è un'origine curata di modelli per data scientist e sviluppatori che usano Studio AI della piattaforma Azure e Azure Machine Learning. Ciò offre il vantaggio di modelli linguistici all'avanguardia, come la raccolta di modelli GPT (Generative Pre-trained Transformer), su cui sono basati i servizi di intelligenza artificiale generativa di ChatGPT e Microsoft, e il modello DALL-E per la generazione di immagini. L'uso di questi modelli dal Servizio OpenAI di Azure implica anche il vantaggio di una piattaforma cloud di Azure sicura e scalabile in cui sono ospitati i modelli.

Oltre ai modelli di OpenAI di Azure, il Catalogo modelli include i modelli open source più recenti di Microsoft e di più partner, tra cui:

  • OpenAI
  • HuggingFace
  • Mistral
  • Meta e altri.

Di seguito sono riportati alcuni modelli comuni di Azure OpenAI:

  • GPT-3.5-Turbo, GPT-4 e GPT-4o: Modelli linguistici conversation-in e message-out.
  • GPT-4 Turbo con Vision: Un modello linguistico sviluppato da OpenAI che può analizzare immagini e fornire risposte testuali domande su di esse. Incorpora sia l'elaborazione del linguaggio naturale che la comprensione visiva.
  • DALL-E: Un modello linguistico che genera immagini originali, varianti di immagini e può modificare immagini.

Modelli linguistici di grandi e piccole dimensioni

Sono disponibili molti modelli linguistici che è possibile usare per alimentare le applicazioni di intelligenza artificiale generativa. In generale, i modelli linguistici possono essere considerati in due categorie: Modelli linguistici di grandi dimensioni (LLM) e modelli linguistici di piccole dimensioni (SLM).

Modelli linguistici di grandi dimensioni (LLM) Modelli linguistici di piccole dimensioni (SLM)
I modelli linguistici di grandi dimensioni vengono sottoposti a training con grandi quantità di testo che rappresentano un'ampia gamma di argomenti generali, solitamente tramite origine di dati da Internet e altre pubblicazioni disponibili a livello generale. I modelli linguistici di piccole dimensioni vengono sottoposti a training con set di dati più piccoli e incentrati su un argomento specifico
Dopo il training, i modelli linguistici di grandi dimensioni hanno molti miliardi (anche trilioni) di parametri (pesi che possono essere applicati agli incorporamenti vettoriali per calcolare le sequenze di token stimate). In genere hanno meno parametri rispetto ai modelli linguistici di grandi dimensioni.
In grado di presentare funzionalità complete di generazione del linguaggio in un'ampia gamma di contesti di conversazione. Questo vocabolario focalizzato li rende molto efficaci in argomenti di conversazione specifici, ma meno efficaci a livello di generazione di linguaggio più generale.
Le dimensioni elevate possono influire sulle prestazioni e rendere difficile la distribuzione in locale su dispositivi e computer. Le dimensioni più piccole dei modelli linguistici di piccole dimensioni possono offrire più opzioni per la distribuzione, tra cui la distribuzione locale nei dispositivi e nei computer locali, e li rende più veloci e più facili da ottimizzare.
L'ottimizzazione del modello con dati aggiuntivi per personalizzarne la competenza può richiedere molto tempo e costi elevati in termini di potenza di calcolo necessaria per eseguire il training aggiuntivo. L'ottimizzazione può potenzialmente richiedere meno tempo ed essere meno costosa.