Informazioni sugli LLM
Un modello linguistico di grandi dimensioni (LLM) è un tipo di IA in grado di elaborare e produrre testo in linguaggio naturale. Apprende da una grande quantità di dati raccolti da fonti come libri, articoli, pagine Web e immagini per individuare modelli e regole del linguaggio.
Quanto sono grandi?
Un LLM viene compilato usando un'architettura di rete neurale. Richiede un input, ha diversi livelli nascosti che scompongono diversi aspetti del linguaggio e produce a livello di output.
Le persone spesso segnalano che il modello di base più recente è più grande dell'ultimo, ma cosa significa? In breve, quanti più parametri ha un modello, tanti più dati possono essere elaborati, appresi e generati dallo stesso.
Esiste una funzione per ogni connessione tra due neuroni dell'architettura della rete neurale: peso * input + distorsione. Questa rete produce valori numerici che determinano il modo in cui il modello elabora il linguaggio.
I modelli linguistici di grandi dimensioni sono davvero grandi e crescono rapidamente. Nel 2018 alcuni modelli erano in grado di milioni di parametri. Oggi GPT-4 può calcolare trilioni di parametri.
Dove si inseriscono i modelli di base nei LLM?
Un modello di base fa riferimento a un'istanza o a una versione specifica di un LLM. Ad esempio, GPT-3, GPT-4 o Codex.
I modelli di base vengono sottoposti a training e ottimizzati in un ampio corpus di testo o di codice, se si tratta di un'istanza del modello Codex.
Un modello di base accetta i dati di training in tutti i formati diversi e usa un'architettura di trasformazione per creare un modello generale. È possibile creare adattamenti e specializzazioni per ottenere determinate attività tramite le richieste o l'ottimizzazione.
In che modo un LLM differisce dall'elaborazione del linguaggio naturale (NLP) più tradizionale?
Esistono alcuni elementi che distinguono le NLP dai LLM.
Traditional NLP | Modelli linguistici di grandi dimensioni |
---|---|
È necessario un modello per capacità. | Un singolo modello viene usato per molti casi d'uso del linguaggio naturale. |
Fornisce un set di dati con etichetta per eseguire il training del modello ML. | Usa molti terabyte di dati senza etichetta nel modello di base. |
Descrive in linguaggio naturale le operazioni che il modello deve eseguire. | Altamente ottimizzato per casi d'uso specifici. |
Cosa non fa un LLM?
Per quanto sia importante comprendere cosa può fare un LLM, è altrettanto importante capire cosa non può fare, così da poter scegliere lo strumento giusto per il processo.
Comprendere il linguaggio: un LLM è un motore predittivo che esegue il pull dei modelli in base al testo preesistente per produrre più testo. Non comprende una lingua o la matematica.
Informazioni sui fatti: un LLM non dispone di modalità separate per il recupero delle informazioni e la scrittura creativa; prevede semplicemente il token più probabile successivo.
Comprendere le maniere, le emozioni o l'etica: un LLM non può manifestare antropomorfismo o comprendere l'etica. L'output di un modello di base è una combinazione di dati di training e richieste.