Descripción de los LLM

Completado

Un modelo de lenguaje grande (LLM) es un tipo de inteligencia artificial que puede procesar y producir texto de lenguaje natural. Aprende de una gran cantidad de datos recopilados de orígenes como libros, artículos, páginas web e imágenes para detectar patrones y reglas de lenguaje.

¿Qué tamaño tienen?

Un LLM se crea mediante una arquitectura de red neuronal. Toma una entrada, tiene varias capas ocultas que desglosan distintos aspectos del lenguaje y genera el resultado en la capa de salida.

A menudo los usuarios afirman que el modelo fundamental más reciente es mayor que el anterior, pero ¿qué significa esto? En resumen, cuantos más parámetros tenga un modelo, más datos puede procesar, aprender de ellos y generar un resultado.

Para cada conexión entre dos neuronas de la arquitectura de red neuronal, hay una función: peso * entrada + sesgo. Esta red genera valores numéricos que determinan cómo el modelo procesa el lenguaje.

Los LLM son realmente grandes y crecen rápidamente. Algunos modelos podrían calcular millones de parámetros en 2018. Pero en la actualidad, GPT-4 puede calcular billones de parámetros.

Diagrama que muestra las distintas generaciones de LLM asociadas al número de parámetros que tiene cada modelo.

¿Dónde encajan los modelos fundamentales en los LLM?

Un modelo fundamental es una instancia o versión específica de un LLM. Por ejemplo, GPT-3, GPT-4 o Codex.

Los modelos fundamentales se entrenan y ajustan sobre un gran corpus de texto, o de código si se trata de una instancia de modelo Codex.

Un modelo fundamental toma datos de entrenamiento en todos los formatos y usa una arquitectura de transformador para crear un modelo general. Se pueden crear adaptaciones y especializaciones para lograr determinadas tareas mediante avisos o ajuste preciso.

¿Cómo difiere un LLM del procesamiento del lenguaje natural (NLP) más tradicional?

Hay algunas diferencias entre los NLP tradicionales y los LLM.

NLP tradicional Modelos de lenguaje grandes
Se necesita un modelo por cada funcionalidad. Se usa un único modelo para muchos casos de uso de lenguaje natural.
Proporciona un conjunto de datos etiquetados para entrenar el modelo de ML. Usa muchos terabytes de datos sin etiquetar en el modelo de base.
Describe en lenguaje natural lo que quiere que haga el modelo. Altamente optimizado para casos de uso específicos.

¿Qué no hace un LLM?

Tan importante como comprender lo que puede hacer un LLM, es comprender lo que no puede hacer, a fin de elegir la herramienta adecuada para el trabajo.

  • Comprensión del lenguaje: Un LLM es un motor predictivo que extrae patrones basados en texto preexistente para generar más texto. No entiende el lenguaje ni las matemáticas.

  • Comprensión de los hechos: Un LLM no tiene modos independientes para la recuperación de información y la escritura creativa; simplemente predice el siguiente token más probable.

  • Comprensión de modales, emociones o aspectos éticos: Un LLM no puede mostrar antropomorfismo ni comprender la ética. La salida de un modelo fundamental es una combinación de datos de entrenamiento y avisos.