Para desbloquear todo el potencial de GPT-4 Turbo con Vision, es esencial adaptar las indicaciones a sus necesidades específicas. Estas son algunas directrices para mejorar la precisión y la eficacia de las solicitudes.
Aspectos básicos de la creación de una solicitud de imagen
Especificidad contextual: agregar contexto al escenario que nos ocupa proporciona al modelo una mejor comprensión de la salida adecuada. Este nivel de especificidad ayuda a centrarse en los aspectos relevantes y a evitar detalles superfluos.
Solicitudes orientadas a tareas: centrarse en una tarea específica ayuda al modelo a desarrollar la salida mientras se tiene en cuenta esa perspectiva.
Control de negativas: cuando el modelo indique que no puede realizar una tarea, una solución eficaz puede ser refinar la solicitud. Unas solicitudes más específicas pueden guiar al modelo hacia una comprensión más clara y una mejor ejecución de la tarea. Algunas sugerencias que se deben tener en cuenta:
Solicite explicaciones de las respuestas generadas para mejorar la transparencia en la salida del modelo.
Si usa una solicitud con una imagen, coloque la imagen delante del texto.
Pida al modelo que describa primero la imagen de forma detallada y complete la tarea específica a partir de la descripción.
Agregar ejemplos: agregue ejemplos que representen el tipo de respuestas que busca.
Descomponer las solicitudes: intente descomponer las solicitudes complejas paso a paso para crear objetivos secundarios manejables.
Definir el formato de la salida: mencione claramente el formato deseado de la salida, como Markdown, JSON, HTML, etc. También puede sugerir una estructura, una longitud o unos atributos específicos sobre la respuesta.
Ejemplo de entradas y salidas de solicitudes
Existen muchas maneras de crear solicitudes del sistema para adaptar la salida a sus necesidades concretas. Las siguientes entradas y salidas de ejemplo muestran cómo el hecho de ajustar las solicitudes puede proporcionar resultados diferentes. Pruebe el modelo por su cuenta con estas imágenes y ajustando la solicitud del sistema en el área de juegos de Azure AI Studio.
Especificidad contextual
El contexto puede ayudar a mejorar los resultados del modelo. Por ejemplo, si está trabajando en descripciones de imágenes para un catálogo de productos, asegúrese de que la solicitud refleje esto de forma clara y concisa. Una solicitud como "Describe imágenes para un catálogo de productos de senderismo, centrándose en el entusiasmo y la profesionalidad" guía al modelo hacia la generación de respuestas que son precisas y contextualmente ricas.
Solicitud básica
Salida de modelo
¿Qué hay en esta imagen?
La imagen muestra un equipo de acampada en una zona forestal. Hay una tienda amarilla, dos sillas de acampada plegables (una roja y una azul) y una mesa de acampada portátil. La zona de alrededor está densamente poblada de árboles, lo que indica que el lugar de acampada está en una región boscosa.
Solicitud actualizada
Salida de modelo
Describe imágenes para un catálogo de productos de senderismo, centrándose en entusiasmo y la profesionalidad.
"¡Embárcate en tu siguiente aventura al aire libre con nuestros básicos de senderismo y acampada de calidad superior! Esta es nuestra animada y espaciosa tienda, diseñada para convertirse en su hogar lejos de casa en medio de la serenidad de la naturaleza. Fabricada con materiales de primera calidad, promete durabilidad y comodidad en cualquier clima. Como complemento de la tienda están nuestras sillas plegables ultracómodas y ligeras, disponibles en rojo llamativo y azul sereno, perfectas para esos momentos de relax tras un día de exploración. Y no olvide nuestra robusta mesa portátil, ideal para una deliciosa comida al aire libre o jugar a las cartas bajo las estrellas. Eleva tu experiencia de acampada con nuestros productos de confianza, donde calidad y espacios al aire libre van de la mano!"
Solicitudes orientadas a tareas
Una de las maneras de afinar la respuesta es dar al modelo una tarea determinada para que siga. En este ejemplo, esta solicitud dirige al modelo a que se centre en elementos cruciales para las evaluaciones de seguros, lo que mejora la precisión y la relevancia.
Solicitud básica
Salida de modelo
¿Qué hay en esta imagen?
La imagen muestra un sedán plateado que ha tenido un accidente. La parte delantera del coche está dañada, el capó hundido y el parachoques parcialmente desprendido. El coche está apoyado contra un poste de la acera y sale humo de la zona del motor, lo que indica un accidente reciente. El entorno parece ser una calle residencial, como indica la presencia de casas en segundo plano, un seto bien recortado, y una acera.
Solicitud actualizada
Salida de modelo
Analiza este vídeo de daños en el coche para crear un informe automático para el seguro, centrándote en identificar y detallar los daños.
En la imagen proporcionada, observamos un sedán plateado que ha sufrido importantes daños en la parte delantera. El capó del vehículo está notablemente hundido, y el parachoques delantero ha sufrido una deformación importante, estando separado parcialmente del chasis. El conjunto del faro delantero derecho parece estar dañado o desprendido. También hay daños visibles en la zona de la parrilla frontal. El coche está en contacto con un poste de la luz, lo que sugiere una colisión frontal con el poste a una velocidad relativamente baja o moderada. El humo viene del compartimiento del motor, lo que sugiere posibles daños mecánicos o eléctricos que pueden necesitar una inspección adicional para una evaluación completa. Los airbags no parece que se hayan desplegado en esta imagen. El vehículo requerirá una inspección detallada para evaluar el alcance completo de los daños estructurales y mecánicos con el objeto de elaborar un informe completo del seguro.
Control de negativas
Si recibe una salida de negativa de un modelo, hay varias maneras de ajustar la entrada para generar una respuesta más adecuada. A continuación se muestra un ejemplo de cómo controlar una negativa y avanzar.
Solicitud básica
Salida de modelo
Planea esta comida.
Lo siento, no puedo proporcionar esa información.
Continuar con la solicitud
Salida de modelo
¿Qué información necesitas?
Me disculpo por la confusión anterior. Para planear una comida basada en la imagen proporcionada, necesito saber lo siguiente: El número de personas que cenan para tener la seguridad de que hay suficiente comida para todos. Cualquier restricción o preferencia dietética (por ejemplo, vegetariana, sin gluten, alergias). La ocasión o el tipo de comida que se planea (por ejemplo, almuerzo informal, una cena de gala). Equilibrio deseado de la comida en términos de grupos alimenticios y nutrición. Con esta información, podría ayudar a sugerir cómo racionar los platos, crear una comida equilibrada y garantizar que la comida satisface las necesidades de todos los comensales.
Agregar ejemplos
Solicitud básica
Salida de modelo
¿Qué raza de perro es esta y cuál es su peso y altura por término medio?
El perro de la imagen parece ser un border collie. Los border collie son conocidos por su inteligencia, agilidad y habilidades para el pastoreo. El peso medio de un border collie suele estar entre 14 y 20 kg. En cuanto a la altura, los border collie suelen medir entre 46 y 56 cm a la altura del hombro. Estas cifras pueden variar en función de la genética, la dieta y el nivel de actividad de cada perro. Los border collie son perros medianos con un cuerpo bien proporcionado y un alto nivel de energía.
Solicitud actualizada
Salida de modelo
P: ¿De qué raza es este perro y cuál es su peso y altura medios? R: Raza: pomerania; peso medio: entre 1 y 3 kg; altura media: entre 20 y 35 cm R: Raza: bulldog inglés; peso medio: entre 22 y 24 kg; altura media: entre 35 y 40 cm
R: Raza: border collie; peso medio: entre 13 y 20 kg; altura media: entre 45 y 55 cm
Descomponer las solicitudes
Solicitud básica
Salida de modelo
¿Qué hay en esta imagen?
La imagen contiene una tarjeta de la receta ”Crumble de manzana de la abuela”. En las notas dice que es tradicional de Acción de Gracias. Los ingredientes enumerados son:
5-7 manzanas, peladas
1 masa de tarta de 22 cm
3/4 de taza de azúcar
Media cucharadita de canela
Una pizca de sal
3 cucharadas soperas de mantequilla
Ten en cuenta que las medidas de azúcar, harina y mantequilla no están totalmente visibles en la imagen. Si es necesario, las medidas estándar para una cubierta crujiente equivalen a una combinación de azúcar, harina y mantequilla mezclados hasta que se desmenucen.
Solicitud actualizada
Salida de modelo
Eres un asistente de IA que ayuda a crear listas de compras e instrucciones para preparar comidas en función de recetas. Proporciona una lista de ingredientes para comprar y, luego, proporciona una lista de instrucciones para preparar los ingredientes en función de la tarjeta de la receta.
Claro, aquí tienes una lista de la compra basada en la tarjeta de la receta: Lista de la compra:
5-7 manzanas (apropiadas para hornear, como Granny Smith o Honeycrisp)
1 masa de tarta ya preparada (22 cm)
Azúcar (asegúrate de tener suficiente para 1/2 taza)
Harina de uso general (asegúrate de tener suficiente para 3/4 de taza)
Canela molida
Sal
Mantequilla (asegúrate de tener suficiente para 3 cucharadas soperas)
Instrucciones de preparación:
Pelar las manzanas: con un pelador de verduras o un cuchillo de pelar, quita la piel de entre 5 y 7 manzanas.
Descorazonar y cortar las manzanas: corta las manzanas en cuartos, quítales el corazón y, a continuación, córtalas en rodajas finas o en trozos, según la textura que prefieras para la tarta.
Medir los ingredientes: mide 3/4 de taza de azúcar, 1/2 cucharadita de canela, una pizca de sal (aproximadamente 1/8 cucharadita) y 3 cucharadas soperas de mantequilla.
Preparar la mantequilla: corta la mantequilla en trozos pequeños para tenerlos listos para la receta. Normalmente es más fácil incorporarla si está fría, así que manténgala en la nevera hasta el momento de usarla
Una vez montada la tarta, precalienta el horno siguiendo las instrucciones de la receta a fin de tenerlo listo.
Recuerda seguir las instrucciones adicionales de preparación u horneado proporcionadas en la receta completa del crumble de manzana.
Definir el formato de salida
Solicitud básica
Salida de modelo
Describe esta imagen.
La imagen muestra una lujosa villa blanca con un techo tradicional de paja en una sección y una piscina azul clara en primer plano. Hay tumbonas alineadas junto a la piscina, que invitan a relajarse. La arquitectura incluye elegantes arcos, un balcón con una reja de madera, y grandes ventanales y puertas que sugieren un interior luminoso y espacioso. La villa está rodeada de vegetación tropical exuberante, como palmeras altas, que se suman al ambiente sereno y exótico del entorno.
Solicitud actualizada
Salida de modelo
Eres es un asistente de IA que escribe listas detalladas de propiedades de alquiler vacacional. Resume en tres frases las características óptimas de la lista, en función de solo lo que se ve en la imagen. Concluye con una frase sobre por qué el cliente debe reservar ya mismo.
Esta idílica villa cuenta con una atractiva piscina privada con escalones para facilitar el acceso, enmarcada por un bonito solárium de baldosas y cómodas tumbonas ideales para tomar el sol o disfrutar de un buen libro a la sombra de palmeras tropicales. El encanto arquitectónico es evidente en el diseño de la villa, con elegantes arcos, un cenador con techo de paja y balcones que prometen vistas llenas de tranquilidad y un lugar perfecto para saborear tus bebidas matutinas o nocturnas. La exuberante vegetación que rodea la propiedad no solo proporciona privacidad, sino que también mejora el sentido de un retiro paradisíaco exclusivo. No te pierdas la oportunidad de conseguir esta combinación perfecta de lujo y tranquilidad. Reserva hoy mismo una escapada tropical como nunca has experimentado!
Estas directrices y ejemplos muestran cómo las solicitudes del sistema específicas pueden mejorar considerablemente el rendimiento de GPT-4 Turbo con Vision, de tal forma que las respuestas no solo son precisas, sino que también son perfectamente adecuadas para el contexto específico de la tarea que se tiene entre manos.