Análisis de una imagen
Para analizar una imagen, puede usar el método REST de Analyze Image o el método equivalente en el SDK para su lenguaje de programación preferido, especificando las características visuales que quiere incluir en el análisis (y si selecciona categorías, si quiere incluir o no los detalles de celebridades o puntos de referencia). Este método devuelve un documento JSON que contiene la información solicitada.
Nota
La detección de celebridades requerirá obtener aprobación a través de una directiva de acceso limitado. Puede obtener más información sobre la agregación de esta directiva a nuestro Estándar de inteligencia artificial responsable. El reconocimiento de celebridades se ve en algunas capturas de pantalla, pero no se incluye en el laboratorio.
using Azure.AI.Vision.ImageAnalysis;
ImageAnalysisClient client = new ImageAnalysisClient(
Environment.GetEnvironmentVariable("ENDPOINT"),
new AzureKeyCredential(Environment.GetEnvironmentVariable("KEY")));
ImageAnalysisResult result = client.Analyze(
new Uri("<url>"),
VisualFeatures.Caption | VisualFeatures.Read,
new ImageAnalysisOptions { GenderNeutralCaption = true });
from azure.ai.vision.imageanalysis import ImageAnalysisClient
from azure.ai.vision.imageanalysis.models import VisualFeatures
from azure.core.credentials import AzureKeyCredential
client = ImageAnalysisClient(
endpoint=os.environ["ENDPOINT"],
credential=AzureKeyCredential(os.environ["KEY"])
)
result = client.analyze(
image_url="<url>",
visual_features=[VisualFeatures.CAPTION, VisualFeatures.READ],
gender_neutral_caption=True,
language="en",
)
Las características visuales disponibles se incluyen en la enumeración VisualFeatures
:
- VisualFeatures.Tags: Identifica etiquetas sobre la imagen, incluidos los objetos, los paisajes, la configuración y las acciones
- VisualFeatures.Objects: Devuelve el rectángulo de selección de cada objeto detectado
- VisualFeatures.Caption: Genera una leyenda de la imagen en lenguaje natural
- VisualFeatures.DenseCaptions: Genera leyendas más detalladas para los objetos detectados
- VisualFeatures.People: Devuelve el rectángulo de selección para las personas detectadas
- VisualFeatures.SmartCrops: Devuelve el rectángulo de selección de la relación de aspecto especificada para el área de interés
- VisualFeatures.Read: Extrae texto legible
- VisualFeatures.TAGS: Identifica etiquetas sobre la imagen, incluidos los objetos, los paisajes, la configuración y las acciones
- VisualFeatures.OBJECTS: Devuelve el rectángulo de selección de cada objeto detectado
- VisualFeatures.CAPTION: Genera una leyenda de la imagen en lenguaje natural
- VisualFeatures.DENSE_CAPTIONS: Genera leyendas más detalladas para los objetos detectados
- VisualFeatures.PEOPLE: Devuelve el rectángulo de selección para las personas detectadas
- VisualFeatures.SMART_CROPS: Devuelve el rectángulo de selección de la relación de aspecto especificada para el área de interés
- VisualFeatures.READ: Extrae texto legible
La especificación de las características visuales que desea analizar en la imagen determina qué información contendrá la respuesta. La mayoría de las respuestas contendrán un rectángulo de selección (si una ubicación de la imagen es razonable) o una puntuación de confianza (para características como etiquetas o subtítulos).
La respuesta JSON para el análisis de imágenes es similar a este ejemplo, en función de las características solicitadas:
{
"apim-request-id": "abcde-1234-5678-9012-f1g2h3i4j5k6",
"modelVersion": "<version>",
"denseCaptionsResult": {
"values": [
{
"text": "a house in the woods",
"confidence": 0.7055229544639587,
"boundingBox": {
"x": 0,
"y": 0,
"w": 640,
"h": 640
}
},
{
"text": "a trailer with a door and windows",
"confidence": 0.6675070524215698,
"boundingBox": {
"x": 214,
"y": 434,
"w": 154,
"h": 108
}
}
]
},
"metadata": {
"width": 640,
"height": 640
}
}