Qué modelo se va a usar
Hay muchos factores, como el costo, la disponibilidad, el rendimiento y la capacidad, que se deben tener en cuenta al elegir qué LLM usar. Por lo general, se recomiendan las siguientes guías:
gpt-35-turbo: Este modelo es económico, funciona bien y, a pesar del nombre ChatGPT, se puede usar para una amplia gama de tareas más allá del chat y la conversación.
gpt-35-turbo-16k, gpt-4 o gpt-4-32k: Estos modelos son una buena opción si necesita generar más de 4096 tokens o necesita admitir solicitudes más grandes. Sin embargo, estos modelos son más caros, pueden ser más lentos y pueden tener una disponibilidad limitada.
Inserción de modelos: Si las tareas incluyen búsqueda, agrupación en clústeres, recomendaciones y detección de anomalías, debe usar un modelo de inserción. Los equipos pueden utilizar fácilmente un vector de números que forman la inserción. La inserción es una representación densa de información del significado semántico de un fragmento de texto. La distancia entre dos incrustaciones en el espacio vectorial se correlaciona con la similitud semántica. Por ejemplo, si dos textos son similares, sus representaciones vectoriales también son similares.
DALL-E: Este modelo genera imágenes a partir de solicitudes de texto. DALL-E difiere de otros modelos de lenguaje porque su salida es una imagen, no texto.
Whisper: Este modelo se entrena en un gran conjunto de datos de audio y texto en inglés. Whisper está optimizado para funcionalidades de conversión de voz a texto, como transcribir archivos de audio. Se puede usar para transcribir archivos de audio que contienen voz en idiomas distintos del inglés, pero la salida del modelo es texto en inglés. Use Whisper para transcribir rápidamente archivos de audio de uno en uno, traducir audio de otros idiomas al inglés o proporcionar su solicitud al modelo para guiar la salida.