Descripción de las técnicas estadísticas usadas para el procesamiento del lenguaje natural (PLN)

7 minutos

En las últimas décadas, varios desarrollos en el campo del procesamiento del lenguaje natural (PLN) han dado lugar a la obtención de modelos de lenguaje de gran tamaño (LLM).

Para comprender los LLM, vamos a explorar primero las técnicas estadísticas del PLN que, con el tiempo, han contribuido a las técnicas actuales.

Comienzos del procesamiento del lenguaje natural (NLP)

Como el NLP se centra en comprender y generar texto, la mayoría de los primeros intentos de lograr el NLP se basaban en el uso de las reglas y la estructura inherentes a los lenguajes. En especial, antes de que las técnicas de aprendizaje automático fueran frecuentes, los modelos estructurales y la gramática formal eran los principales métodos empleados.

Estos enfoques se basaban en la programación explícita de reglas lingüísticas y patrones gramaticales para procesar y generar texto. Aunque estos modelos podían controlar algunas tareas específicas del lenguaje razonablemente bien, se enfrentaban a desafíos muy complicados cuando lidiaban con la gran complejidad y variabilidad de los lenguajes naturales.

En lugar de reglas de codificado de forma rígida, los investigadores de la década de los 90 comenzaron a utilizar modelos estadísticos y probabilísticos para aprender patrones y representaciones directamente de los datos.

Descripción de la tokenización

Como cabía esperar, para las máquinas, era difícil descifrar el texto, ya que dependen principalmente de números. Para leer texto, es necesario convertir el texto presentado en números.

En este sentido, la tokenización ha significado un desarrollo importante para permitir que las máquinas trabajen de manera más sencilla con el texto. Los tokens son cadenas con un significado conocido, que, por lo general, representan una palabra. La tokenización está convirtiendo palabras en tokens, que luego se convierten en números. Un enfoque estadístico para la tokenización se consigue mediante el uso de una canalización:

Animation showing the pipeline of tokenization of a sentence.

Comience con el texto que desea tokenizar.
Divida las palabras del texto en función de una regla. Por ejemplo, divida las palabras donde hay un espacio en blanco.
Lematización. Combine palabras similares al quitar el final de una palabra.
Eliminación de palabras vacías. Quite palabras ruidosas que tengan poco significado como the y a. Se proporciona un diccionario de estas palabras para quitarlas estructuralmente del texto.
Asigne un número a cada token único.

Tokenización permitida para que el texto se etiquete. Como resultado, se podían usar técnicas estadísticas para permitir que los equipos encuentren patrones en los datos en lugar de aplicar modelos basados en reglas.

Técnicas estadísticas para el PLN

Dos avances importantes para lograr el PLN usaron técnicas estadísticas: Naïve Bayes y Frecuencia del término por frecuencia inversa de documento (TF-IDF).

¿Qué es Naïve Bayes?

Naïve Bayes es una técnica estadística que se usó por primera vez para el filtrado de correo electrónico. Para conocer la diferencia entre correo no deseado y correo deseado, se comparan dos documentos. Los clasificadores Naïve Bayes identifican qué tokens están correlacionados con los correos electrónicos etiquetados como correo no deseado. En otras palabras, la técnica busca qué grupo de palabras solo se produce en un tipo de documento y no en el otro. El grupo de palabras se conoce a menudo como características de la bolsa de palabras.

Por ejemplo, las palabras miracle cure, lose weight fasty anti-aging pueden aparecer con más frecuencia en correos electrónicos de correo no deseado sobre productos de salud sospechosos que en los correos electrónicos normales.

Aunque Naïve Bayes resultó ser más eficaz que los modelos simples basados en reglas para la clasificación de texto, todavía era relativamente rudimentario, ya que solo se consideraba la presencia (y no la posición) de una palabra o token.

¿Qué es TF-IDF?

La técnica Frecuencia del término por frecuencia inversa de documento (TF-IDF) tenía un enfoque similar, ya que comparaba la frecuencia de una palabra en un documento con la frecuencia de la palabra en un corpus completo de documentos. Al entender en qué contexto se utilizaba una palabra, los documentos se podían clasificar en función de determinados temas. Por lo general, TF-IDF se usa para la recuperación de información, para ayudar a comprender qué palabras o tokens relativos se van a buscar.

Nota:

En el contexto del PLN, un corpus hace referencia a una colección grande y estructurada de documentos de texto que se usa para las tareas de aprendizaje automático. Así, los corpus sirven como recursos esenciales para el entrenamiento, las pruebas y la evaluación de varios modelos de PLN.

Por ejemplo, la palabra flour puede aparecer a menudo en documentos que incluyen recetas para hornear. Si se buscan documentos con flour, los documentos que incluyen baking también se pueden recuperar en la medida que las palabras se usen juntas con frecuencia en un texto.

TF-IDF resultó ser útil para los motores de búsqueda en la comprensión de la relevancia de un documento para la consulta de búsqueda de un usuario. Sin embargo, la técnica TF-IDF no tiene en cuenta la relación semántica entre palabras. No se detectan sinónimos o palabras con significados similares.