¿Qué son los tokens?
Los tokens son pequeños fragmentos de texto que se generan al dividir el texto de entrada en segmentos más pequeños. Estos segmentos pueden ser palabras o grupos de caracteres, que varían en longitud de un solo carácter a una palabra completa. Por ejemplo, la palabra hamburguesa se dividiría en tokens como ham, bur, gue y sa, mientras que una palabra corta y común como pera se consideraría un único token. Los modelos de lenguaje grande (LLM) como GPT-3.5 o GPT-4 dividen palabras en tokens para su procesamiento.
Contenido relacionado
- ¿Qué es una base de datos vectorial?
- Generación aumentada de recuperación (RAG)
- Base de datos vectorial en Azure Cosmos DB NoSQL
- Base de datos vectorial en Azure Cosmos DB for MongoDB
- ¿Qué es la búsqueda vectorial?
- Inserciones vectoriales
- Funciones de distancia
- Algoritmos de vector de búsqueda de kNN frente a ANN