Analizzare un'immagine

Completato

Per analizzare un'immagine, è possibile usare il metodo REST Analizza immagine o il metodo equivalente nell'SDK per il linguaggio di programmazione preferito, specificando le caratteristiche visive da includere nell'analisi (e se si selezionano categorie, se includere o meno dettagli di celebrità o luoghi di interesse). Questo metodo restituisce un documento JSON contenente le informazioni richieste.

Nota

Il rilevamento delle celebrità richiederà l'approvazione tramite un criterio di accesso limitato. Altre informazioni sull'aggiunta di questo criterio allo standard di intelligenza artificiale responsabile. Il riconoscimento delle celebrità è rappresentato in alcuni screenshot, ma non è incluso nel lab.

using Azure.AI.Vision.ImageAnalysis;

ImageAnalysisClient client = new ImageAnalysisClient(
    Environment.GetEnvironmentVariable("ENDPOINT"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("KEY")));

ImageAnalysisResult result = client.Analyze(
    new Uri("<url>"),
    VisualFeatures.Caption | VisualFeatures.Read,
    new ImageAnalysisOptions { GenderNeutralCaption = true });
from azure.ai.vision.imageanalysis import ImageAnalysisClient
from azure.ai.vision.imageanalysis.models import VisualFeatures
from azure.core.credentials import AzureKeyCredential

client = ImageAnalysisClient(
    endpoint=os.environ["ENDPOINT"],
    credential=AzureKeyCredential(os.environ["KEY"])
)

result = client.analyze(
    image_url="<url>",
    visual_features=[VisualFeatures.CAPTION, VisualFeatures.READ],
    gender_neutral_caption=True,
    language="en",
)

Le funzionalità degli oggetti visivi disponibili sono contenute nell'enumerazione VisualFeatures:

  • VisualFeatures.Tags: Identifica i tag relativi all'immagine, inclusi oggetti, scenari, impostazione e azioni
  • VisualFeatures.Objects: Restituisce il rettangolo delimitatore per ogni oggetto rilevato
  • VisualFeatures.Caption: Genera una didascalia dell'immagine in linguaggio naturale
  • VisualFeatures.DenseCaptions: Genera didascalie più dettagliate per gli oggetti rilevati
  • VisualFeatures.People: Restituisce il rettangolo delimitatore per le persone rilevate
  • VisualFeatures.SmartCrops: Restituisce il rettangolo delimitatore delle proporzioni specificate per l'area di interesse
  • VisualFeatures.Read: Estrae testo leggibile
  • VisualFeatures.TAGS: Identifica i tag relativi all'immagine, inclusi oggetti, scenari, impostazione e azioni
  • VisualFeatures.OBJECTS: Restituisce il rettangolo delimitatore per ogni oggetto rilevato
  • VisualFeatures.CAPTION: Genera una didascalia dell'immagine in linguaggio naturale
  • VisualFeatures.DENSE_CAPTIONS: Genera didascalie più dettagliate per gli oggetti rilevati
  • VisualFeatures.PEOPLE: Restituisce il rettangolo delimitatore per le persone rilevate
  • VisualFeatures.SMART_CROPS: Restituisce il rettangolo delimitatore delle proporzioni specificate per l'area di interesse
  • VisualFeatures.READ: Estrae testo leggibile

Specificare le funzionalità visive da analizzare nell'immagine determina le informazioni che la risposta conterrà. La maggior parte delle risposte conterrà un rettangolo delimitatore (se una posizione nell'immagine è adeguata) o un punteggio di attendibilità (per caratteristiche come tag o sottotitoli).

La risposta JSON per l'analisi delle immagini è simile a questo esempio, a seconda delle funzionalità richieste:

{
  "apim-request-id": "abcde-1234-5678-9012-f1g2h3i4j5k6",
  "modelVersion": "<version>",
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a house in the woods",
        "confidence": 0.7055229544639587,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 640,
          "h": 640
        }
      },
      {
        "text": "a trailer with a door and windows",
        "confidence": 0.6675070524215698,
        "boundingBox": {
          "x": 214,
          "y": 434,
          "w": 154,
          "h": 108
        }
      }
    ]
  },
  "metadata": {
    "width": 640,
    "height": 640
  }
}