Informazioni sugli LLM

Completato

Un modello linguistico di grandi dimensioni (LLM) è un tipo di IA in grado di elaborare e produrre testo in linguaggio naturale. Apprende da una grande quantità di dati raccolti da fonti come libri, articoli, pagine Web e immagini per individuare modelli e regole del linguaggio.

Quanto sono grandi?

Un LLM viene compilato usando un'architettura di rete neurale. Richiede un input, ha diversi livelli nascosti che scompongono diversi aspetti del linguaggio e produce a livello di output.

Le persone spesso segnalano che il modello di base più recente è più grande dell'ultimo, ma cosa significa? In breve, quanti più parametri ha un modello, tanti più dati possono essere elaborati, appresi e generati dallo stesso.

Esiste una funzione per ogni connessione tra due neuroni dell'architettura della rete neurale: peso * input + distorsione. Questa rete produce valori numerici che determinano il modo in cui il modello elabora il linguaggio.

I modelli linguistici di grandi dimensioni sono davvero grandi e crescono rapidamente. Nel 2018 alcuni modelli erano in grado di milioni di parametri. Oggi GPT-4 può calcolare trilioni di parametri.

Diagramma che mostra le diverse generazioni di LLM associate al numero di parametri di ogni modello.

Dove si inseriscono i modelli di base nei LLM?

Un modello di base fa riferimento a un'istanza o a una versione specifica di un LLM. Ad esempio, GPT-3, GPT-4 o Codex.

I modelli di base vengono sottoposti a training e ottimizzati in un ampio corpus di testo o di codice, se si tratta di un'istanza del modello Codex.

Un modello di base accetta i dati di training in tutti i formati diversi e usa un'architettura di trasformazione per creare un modello generale. È possibile creare adattamenti e specializzazioni per ottenere determinate attività tramite le richieste o l'ottimizzazione.

In che modo un LLM differisce dall'elaborazione del linguaggio naturale (NLP) più tradizionale?

Esistono alcuni elementi che distinguono le NLP dai LLM.

Traditional NLP Modelli linguistici di grandi dimensioni
È necessario un modello per capacità. Un singolo modello viene usato per molti casi d'uso del linguaggio naturale.
Fornisce un set di dati con etichetta per eseguire il training del modello ML. Usa molti terabyte di dati senza etichetta nel modello di base.
Descrive in linguaggio naturale le operazioni che il modello deve eseguire. Altamente ottimizzato per casi d'uso specifici.

Cosa non fa un LLM?

Per quanto sia importante comprendere cosa può fare un LLM, è altrettanto importante capire cosa non può fare, così da poter scegliere lo strumento giusto per il processo.

  • Comprendere il linguaggio: un LLM è un motore predittivo che esegue il pull dei modelli in base al testo preesistente per produrre più testo. Non comprende una lingua o la matematica.

  • Informazioni sui fatti: un LLM non dispone di modalità separate per il recupero delle informazioni e la scrittura creativa; prevede semplicemente il token più probabile successivo.

  • Comprendere le maniere, le emozioni o l'etica: un LLM non può manifestare antropomorfismo o comprendere l'etica. L'output di un modello di base è una combinazione di dati di training e richieste.