Image Analysis - Analyze Image

Referenz

Dienst:: Azure AI Services

API-Version:: 2023-04-01-preview

Analysieren Sie das Eingabebild. Die Anforderung enthält entweder bildstreams mit einem beliebigen Inhaltstyp ['image/*', 'application/octet-stream') oder einer JSON-Nutzlast, die eine URL-Eigenschaft enthält, die zum Abrufen des Bilddatenstroms verwendet werden soll.

POST /imageanalysis:analyze?api-version=2023-04-01-preview

Mit optionalen Parametern:

POST /imageanalysis:analyze?features={features}&model-name={model-name}&language={language}&smartcrops-aspect-ratios={smartcrops-aspect-ratios}&gender-neutral-caption={gender-neutral-caption}&api-version=2023-04-01-preview

URI-Parameter

Name	In	Erforderlich	Typ	Beschreibung
api-version	query	True	string	Angeforderte API-Version.
features	query		VisualFeature[]	Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.
gender-neutral-caption	query		boolean	Boolesche Kennzeichnung zum Aktivieren geschlechtsneutraler Beschriftungen für Beschriftungs- und dichteCaptions-Features. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "false".
language	query		string	Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Eine Liste der unterstützten Sprachen finden Sie unter https://aka.ms/cv-languages.
model-name	query		string	Der Name des benutzerdefinierten trainierten Modells. Dieser Parameter muss angegeben werden, wenn der Parameter "features" nicht angegeben ist.
smartcrops-aspect-ratios	query		string	Eine Liste der Seitenverhältnisse, die für die SmartCrops-Funktion verwendet werden sollen. Seitenverhältnisse werden berechnet, indem die Zielzuschnittbreite durch die Höhe dividiert wird. Unterstützte Werte liegen zwischen 0,75 und 1,8 (einschließlich). Mehrere Werte sollten durch Kommas getrennt werden. Wenn dieser Parameter nicht angegeben ist, gibt der Dienst einen Zuschneidevorschlag mit einem Seitenverhältnis zurück, das zwischen 0,5 und 2,0 (einschließlich) passt.

Anforderungstext

Name	Erforderlich	Typ	Beschreibung
url	True	string	Öffentlich erreichbare URL eines Bilds.

Antworten

Name	Typ	Beschreibung
200 OK	ImageAnalysisResult	Erfolg
Other Status Codes	ErrorResponse	Fehler Header x-ms-error-code: string

Name

Typ

Beschreibung

200 OK

ImageAnalysisResult

Erfolg

Other Status Codes

ErrorResponse

Fehler

Header

x-ms-error-code: string

Beispiele

AnalyzeImage_CustomModel

Beispielanforderung

HTTP

POST /imageanalysis:analyze?model-name=my_model_name&api-version=2023-04-01-preview

{
  "url": "https://example.com/image.jpg"
}

Beispiel für eine Antwort

Statuscode:: 200

{
  "customModelResult": {
    "objectsResult": {
      "values": [
        {
          "id": "1",
          "boundingBox": {
            "x": 197,
            "y": 68,
            "w": 356,
            "h": 394
          },
          "tags": [
            {
              "name": "class1",
              "confidence": 0.92431640625
            }
          ]
        },
        {
          "id": "2",
          "boundingBox": {
            "x": 0,
            "y": 77,
            "w": 241,
            "h": 359
          },
          "tags": [
            {
              "name": "class1",
              "confidence": 0.87890625
            }
          ]
        }
      ]
    }
  },
  "modelVersion": "2023-04-01-preview",
  "metadata": {
    "width": 660,
    "height": 495
  }
}

Definitionen

Name	Beschreibung
AdultMatch	Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.
AdultResult	Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.
BoundingBox	Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.
CaptionResult	Eine kurze Beschreibung der Darstellung des Bilds.
CropRegion	Eine Region, die für intelligentes Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.
DenseCaption	Eine kurze Beschreibung der Darstellung des Bilds.
DenseCaptionsResult	Eine Liste der Beschriftungen.
DetectedObject	Beschreibt ein erkanntes Objekt in einem Bild.
DetectedPerson	Eine Person, die in einem Bild erkannt wurde.
DocumentLine	Ein Inhaltszeilenobjekt, das aus einer angrenzenden Abfolge von Inhaltselementen besteht, z. B. Wörter und Auswahlzeichen.
DocumentPage	Die Inhalte und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.
DocumentSpan	Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.
DocumentStyle	Ein Objekt, das beobachtete Textformatvorlagen darstellt.
DocumentWord	Ein Wortobjekt, das aus einer zusammenhängenden Abfolge von Zeichen besteht. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.
ErrorResponse	Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.
ErrorResponseDetails	Fehlerinformationen.
ErrorResponseInnerError	Detaillierter Fehler.
ImageAnalysisResult	Beschreiben Sie die kombinierten Ergebnisse verschiedener Bildanalysetypen.
ImageMetadataApiModel	Die Bildmetadateninformationen wie Höhe und Breite.
ImagePredictionResult	Beschreibt das Vorhersageergebnis eines Bilds.
ImageUrl	Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.
ObjectsResult	Beschreibt erkannte Objekte in einem Bild.
PeopleResult	Ein Objekt, das beschreibt, ob das Bild Personen enthält.
ReadResult	Die Ergebnisse eines Lesevorgangs.
SmartCropsResult	Intelligentes Zuschneideergebnis.
Tag	Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.
TagsResult	Eine Liste von Tags mit Konfidenzniveau.
VisualFeature	Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.

AdultMatch

Objekt

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

Name	Typ	Beschreibung
confidence	number (double) minimum: 0 maximum: 1	Ein Wert, der die Konfidenzstufe der übereinstimmenden Inhalte für Erwachsene angibt.
isMatch	boolean	Ein Wert, der angibt, ob das Bild mit erwachsenen Inhalten übereinstimmt.

AdultResult

Objekt

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.

Name	Typ	Beschreibung
adult	AdultMatch	Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.
gore	AdultMatch	Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.
racy	AdultMatch	Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

BoundingBox

Objekt

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

Name	Typ	Beschreibung
h	integer (int32) minimum: 1	Höhe gemessen vom linken oberen Punkt des Bereichs in Pixel.
w	integer (int32) minimum: 1	Breite gemessen vom oberen linken Punkt des Bereichs in Pixel.
x	integer (int32) minimum: 0	Linke Koordinate des linken oberen Punkts des Bereichs, in Pixeln.
y	integer (int32) minimum: 0	Oberste Koordinate des linken oberen Punkts des Bereichs, in Pixeln.

CaptionResult

Objekt

Eine kurze Beschreibung der Darstellung des Bilds.

Name	Typ	Beschreibung
confidence	number (double) minimum: 0 maximum: 1	Die Vertrauensstufe, die der Dienst in der Beschriftung hat.
text	string minLength: 1	Der Text der Beschriftung.

CropRegion

Objekt

Eine Region, die für intelligentes Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.

Name	Typ	Beschreibung
aspectRatio	number (double)	Das Seitenverhältnis des Zuschneidebereichs.
boundingBox	BoundingBox	Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

DenseCaption

Objekt

Eine kurze Beschreibung der Darstellung des Bilds.

Name	Typ	Beschreibung
boundingBox	BoundingBox	Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.
confidence	number (double) minimum: 0 maximum: 1	Die Vertrauensstufe, die der Dienst in der Beschriftung hat.
text	string minLength: 1	Der Text der Beschriftung.

DenseCaptionsResult

Objekt

Eine Liste der Beschriftungen.

Name	Typ	Beschreibung
values	DenseCaption[]	Eine Liste der Beschriftungen.

DetectedObject

Objekt

Beschreibt ein erkanntes Objekt in einem Bild.

Name	Typ	Beschreibung
boundingBox	BoundingBox	Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.
id	string minLength: 1	ID des erkannten Objekts.
tags	Tag[]	Klassifizierungskonfidenzen des erkannten Objekts.

DetectedPerson

Objekt

Eine Person, die in einem Bild erkannt wurde.

Name	Typ	Beschreibung
boundingBox	BoundingBox	Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.
confidence	number (double) minimum: 0 maximum: 1	Konfidenzbewertung, die die Person im Bild beobachtet hat, als Wert zwischen 0 und 1.

DocumentLine

Objekt

Ein Inhaltszeilenobjekt, das aus einer angrenzenden Abfolge von Inhaltselementen besteht, z. B. Wörter und Auswahlzeichen.

Name	Typ	Beschreibung
boundingBox	number[] (double)	Umgebendes Feld der Zeile.
content	string minLength: 1	Verketteter Inhalt der enthaltenen Elemente in lesereihenfolge.
spans	DocumentSpan[]	Position der Zeile in der Lesereihenfolge verketteter Inhalte.

DocumentPage

Objekt

Die Inhalte und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.

Name	Typ	Beschreibung
angle	number (double)	Die allgemeine Ausrichtung des Inhalts im Uhrzeigersinn, gemessen in Grad zwischen (-180, 180].
height	number (double)	Die Höhe des Bilds bzw. der PDF-Datei in Pixel/Zoll.
lines	DocumentLine[]	Extrahierte Zeilen von der Seite, die potenziell textbezogene und visuelle Elemente enthalten.
pageNumber	integer (int32)	1-basierte Seitenzahl im Eingabedokument.
spans	DocumentSpan[]	Speicherort der Seite in der Lesereihenfolge verketteter Inhalte.
width	number (double)	Die Breite des Bilds bzw. der PDF-Datei in Pixel/Zoll.
words	DocumentWord[]	Extrahierte Wörter aus der Seite.

DocumentSpan

Objekt

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.

Name	Typ	Beschreibung
length	integer (int32)	Die Anzahl der Zeichen im Inhalt, der durch den Bereich dargestellt wird.
offset	integer (int32)	Nullbasierter Index des Inhalts, der durch die Spanne dargestellt wird.

DocumentStyle

Objekt

Ein Objekt, das beobachtete Textformatvorlagen darstellt.

Name	Typ	Beschreibung
confidence	number (double)	Vertrauen der korrekten Identifizierung des Stils.
isHandwritten	boolean	Ist Inhalt handschriftlich oder nicht.
spans	DocumentSpan[]	Die Position der Textelemente im verketteten Inhalt, auf den die Formatvorlage angewendet wird.

DocumentWord

Objekt

Ein Wortobjekt, das aus einer zusammenhängenden Abfolge von Zeichen besteht. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.

Name	Typ	Beschreibung
boundingBox	number[] (double)	Umgebendes Feld des Worts.
confidence	number (double)	Konfidenz, dass das Wort richtig extrahiert wird.
content	string minLength: 1	Textinhalt des Worts.
span	DocumentSpan	Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.

ErrorResponse

Objekt

Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.

Name	Typ	Beschreibung
error	ErrorResponseDetails	Fehlerinformationen.

ErrorResponseDetails

Objekt

Fehlerinformationen.

Name	Typ	Beschreibung
code	string	Fehlercode.
details	ErrorResponseDetails[]	Liste der detaillierten Fehler.
innererror	ErrorResponseInnerError	Detaillierter Fehler.
message	string	Fehlermeldung.
target	string	Ziel des Fehlers.

ErrorResponseInnerError

Objekt

Detaillierter Fehler.

Name	Typ	Beschreibung
code	string	Fehlercode.
innererror	ErrorResponseInnerError	Detaillierter Fehler.
message	string	Fehlermeldung.

ImageAnalysisResult

Objekt

Beschreiben Sie die kombinierten Ergebnisse verschiedener Bildanalysetypen.

Name	Typ	Beschreibung
adultResult	AdultResult	Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.
captionResult	CaptionResult	Eine kurze Beschreibung der Darstellung des Bilds.
customModelResult	ImagePredictionResult	Beschreibt das Vorhersageergebnis eines Bilds.
denseCaptionsResult	DenseCaptionsResult	Eine Liste der Beschriftungen.
metadata	ImageMetadataApiModel	Die Bildmetadateninformationen wie Höhe und Breite.
modelVersion	string minLength: 1	Modellversion.
objectsResult	ObjectsResult	Beschreibt erkannte Objekte in einem Bild.
peopleResult	PeopleResult	Ein Objekt, das beschreibt, ob das Bild Personen enthält.
readResult	ReadResult	Die Ergebnisse eines Lesevorgangs.
smartCropsResult	SmartCropsResult	Intelligentes Zuschneideergebnis.
tagsResult	TagsResult	Eine Liste von Tags mit Konfidenzniveau.

ImageMetadataApiModel

Objekt

Die Bildmetadateninformationen wie Höhe und Breite.

Name	Typ	Beschreibung
height	integer (int32) minimum: 1	Die Höhe des Bilds in Pixel.
width	integer (int32) minimum: 1	Die Breite des Bilds in Pixeln.

ImagePredictionResult

Objekt

Beschreibt das Vorhersageergebnis eines Bilds.

Name	Typ	Beschreibung
objectsResult	ObjectsResult	Beschreibt erkannte Objekte in einem Bild.
tagsResult	TagsResult	Eine Liste von Tags mit Konfidenzniveau.

ImageUrl

Objekt

Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.

Name	Typ	Beschreibung
url	string	Öffentlich erreichbare URL eines Bilds.

ObjectsResult

Objekt

Beschreibt erkannte Objekte in einem Bild.

Name	Typ	Beschreibung
values	DetectedObject[]	Ein Array erkannter Objekte.

PeopleResult

Objekt

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

Name	Typ	Beschreibung
values	DetectedPerson[]	Ein Array erkannter Personen.

ReadResult

Objekt

Die Ergebnisse eines Lesevorgangs.

Name	Typ	Beschreibung
content	string minLength: 1	Verketten Sie die Zeichenfolgendarstellung aller Text- und visuellen Elemente in lesereihenfolge.
pages	DocumentPage[]	Eine Liste der analysierten Seiten.
stringIndexType	string minLength: 1	Die Methode zum Berechnen des Zeichenfolgenoffsets und der Länge, mögliche Werte sind: "textElements", "unicodeCodePoint", "utf16CodeUnit" usw.
styles	DocumentStyle[]	Extrahierte Schriftformate.

SmartCropsResult

Objekt

Intelligentes Zuschneideergebnis.

Name	Typ	Beschreibung
values	CropRegion[]	Empfohlene Bereiche zum Zuschneiden des Bilds.

Tag

Objekt

Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.

Name	Typ	Beschreibung
confidence	number (double) minimum: 0 maximum: 1	Die Vertrauensstufe, die die Entität beobachtet hat.
name	string minLength: 1	Name der Entität.

TagsResult

Objekt

Eine Liste von Tags mit Konfidenzniveau.

Name	Typ	Beschreibung
values	Tag[]	Eine Liste von Tags mit Konfidenzniveau.

VisualFeature

Enumeration

Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.

Wert	Beschreibung
caption
denseCaptions
objects
people
read
smartCrops
tags

Freigeben über

Image Analysis - Analyze Image

URI-Parameter

Anforderungstext

Antworten

Beispiele

AnalyzeImage_CustomModel

Beispielanforderung

Beispiel für eine Antwort

Definitionen

AdultMatch

AdultResult

BoundingBox

CaptionResult

CropRegion

DenseCaption

DenseCaptionsResult

DetectedObject

DetectedPerson

DocumentLine

DocumentPage

DocumentSpan

DocumentStyle

DocumentWord

ErrorResponse

ErrorResponseDetails

ErrorResponseInnerError

ImageAnalysisResult

ImageMetadataApiModel

ImagePredictionResult

ImageUrl

ObjectsResult

PeopleResult

ReadResult

SmartCropsResult

Tag

TagsResult

VisualFeature

Zusätzliche Ressourcen