Compartir vía


Subtítulos de imágenes (versión 4.0)

Los subtítulos de imágenes en Image Analysis 4.0 están disponibles mediante las características de subtítulos y subtítulos densos.

La característica Caption genera una descripción de una frase de todo el contenido de la imagen. Los subtítulos densos proporcionan más detalles al generar descripciones de una sola frase de hasta 10 regiones diferentes de la imagen, además de describir la imagen completa. El subtitulado denso también devuelve las coordenadas del rectángulo delimitador de las regiones de imagen descritas. Ambas características usan los últimos modelos de IA basados en Florence.

Los subtítulos de las imágenes solo están disponibles en inglés.

Importante

La leyenda de imagen de Image Analysis 4.0 solo está disponible en determinadas regiones del centro de datos de Azure: consulte Disponibilidad de regiones. Debe usar un recurso de Visión de Azure AI situado en una de estas ubicaciones para obtener resultados de las características Subtítulos y Subtítulos densos.

Si tiene que usar un recurso de Visión fuera de estas regiones para generar subtítulos de imagen, use Análisis de imagen 3.2, que está disponible en todas las regiones de Visión de Azure AI.

Pruebe las características de generación de subtítulos para imágenes de forma rápida y sencilla en el explorador mediante Vision Studio.

Subtítulos de género neutro

Los subtítulos contienen términos de género ("hombre", "mujer", "chico" y "chica") de forma predeterminada. Tiene la opción de reemplazar estos términos por "persona" en los resultados y recibir subtítulos con sexo neutro. Puede hacerlo estableciendo el parámetro opcional de solicitud de API gender-neutral-caption en true en la dirección URL de solicitud.

Ejemplos de subtítulos y subtítulos densos

La siguiente respuesta JSON ilustra lo que devuelve la API de Análisis de imágenes 4.0 al describir la imagen de ejemplo basándose en sus características visuales.

Foto de un hombre que señala una pantalla

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

Uso de la API

La función de subtitulado de imágenes forma parte de la API de Analyze Image. Incluya Caption en el parámetro de consulta característica. Después, cuando obtenga la respuesta JSON completa, analice la cadena con el contenido de la sección "captionResult".

Pasos siguientes