Freigeben über


Image Analysis - Analyze Image

Analysieren Sie das Eingabebild. Die Anforderung enthält entweder bildstreams mit einem beliebigen Inhaltstyp ['image/*', 'application/octet-stream') oder einer JSON-Nutzlast, die eine URL-Eigenschaft enthält, die zum Abrufen des Bilddatenstroms verwendet werden soll.

POST /imageanalysis:analyze?api-version=2023-04-01-preview
POST /imageanalysis:analyze?features={features}&model-name={model-name}&language={language}&smartcrops-aspect-ratios={smartcrops-aspect-ratios}&gender-neutral-caption={gender-neutral-caption}&api-version=2023-04-01-preview

URI-Parameter

Name In Erforderlich Typ Beschreibung
api-version
query True

string

Angeforderte API-Version.

features
query

VisualFeature[]

Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.

gender-neutral-caption
query

boolean

Boolesche Kennzeichnung zum Aktivieren geschlechtsneutraler Beschriftungen für Beschriftungs- und dichteCaptions-Features. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "false".

language
query

string

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Eine Liste der unterstützten Sprachen finden Sie unter https://aka.ms/cv-languages.

model-name
query

string

Der Name des benutzerdefinierten trainierten Modells. Dieser Parameter muss angegeben werden, wenn der Parameter "features" nicht angegeben ist.

smartcrops-aspect-ratios
query

string

Eine Liste der Seitenverhältnisse, die für die SmartCrops-Funktion verwendet werden sollen. Seitenverhältnisse werden berechnet, indem die Zielzuschnittbreite durch die Höhe dividiert wird. Unterstützte Werte liegen zwischen 0,75 und 1,8 (einschließlich). Mehrere Werte sollten durch Kommas getrennt werden. Wenn dieser Parameter nicht angegeben ist, gibt der Dienst einen Zuschneidevorschlag mit einem Seitenverhältnis zurück, das zwischen 0,5 und 2,0 (einschließlich) passt.

Anforderungstext

Name Erforderlich Typ Beschreibung
url True

string

Öffentlich erreichbare URL eines Bilds.

Antworten

Name Typ Beschreibung
200 OK

ImageAnalysisResult

Erfolg

Other Status Codes

ErrorResponse

Fehler

Header

x-ms-error-code: string

Beispiele

AnalyzeImage_CustomModel

Beispielanforderung

POST /imageanalysis:analyze?model-name=my_model_name&api-version=2023-04-01-preview

{
  "url": "https://example.com/image.jpg"
}

Beispiel für eine Antwort

{
  "customModelResult": {
    "objectsResult": {
      "values": [
        {
          "id": "1",
          "boundingBox": {
            "x": 197,
            "y": 68,
            "w": 356,
            "h": 394
          },
          "tags": [
            {
              "name": "class1",
              "confidence": 0.92431640625
            }
          ]
        },
        {
          "id": "2",
          "boundingBox": {
            "x": 0,
            "y": 77,
            "w": 241,
            "h": 359
          },
          "tags": [
            {
              "name": "class1",
              "confidence": 0.87890625
            }
          ]
        }
      ]
    }
  },
  "modelVersion": "2023-04-01-preview",
  "metadata": {
    "width": 660,
    "height": 495
  }
}

Definitionen

Name Beschreibung
AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

AdultResult

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.

BoundingBox

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

CaptionResult

Eine kurze Beschreibung der Darstellung des Bilds.

CropRegion

Eine Region, die für intelligentes Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.

DenseCaption

Eine kurze Beschreibung der Darstellung des Bilds.

DenseCaptionsResult

Eine Liste der Beschriftungen.

DetectedObject

Beschreibt ein erkanntes Objekt in einem Bild.

DetectedPerson

Eine Person, die in einem Bild erkannt wurde.

DocumentLine

Ein Inhaltszeilenobjekt, das aus einer angrenzenden Abfolge von Inhaltselementen besteht, z. B. Wörter und Auswahlzeichen.

DocumentPage

Die Inhalte und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.

DocumentSpan

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.

DocumentStyle

Ein Objekt, das beobachtete Textformatvorlagen darstellt.

DocumentWord

Ein Wortobjekt, das aus einer zusammenhängenden Abfolge von Zeichen besteht. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.

ErrorResponse

Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.

ErrorResponseDetails

Fehlerinformationen.

ErrorResponseInnerError

Detaillierter Fehler.

ImageAnalysisResult

Beschreiben Sie die kombinierten Ergebnisse verschiedener Bildanalysetypen.

ImageMetadataApiModel

Die Bildmetadateninformationen wie Höhe und Breite.

ImagePredictionResult

Beschreibt das Vorhersageergebnis eines Bilds.

ImageUrl

Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

PeopleResult

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

ReadResult

Die Ergebnisse eines Lesevorgangs.

SmartCropsResult

Intelligentes Zuschneideergebnis.

Tag

Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

VisualFeature

Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

Name Typ Beschreibung
confidence

number (double)

minimum: 0
maximum: 1

Ein Wert, der die Konfidenzstufe der übereinstimmenden Inhalte für Erwachsene angibt.

isMatch

boolean

Ein Wert, der angibt, ob das Bild mit erwachsenen Inhalten übereinstimmt.

AdultResult

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.

Name Typ Beschreibung
adult

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

gore

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

racy

AdultMatch

Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.

BoundingBox

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

Name Typ Beschreibung
h

integer (int32)

minimum: 1

Höhe gemessen vom linken oberen Punkt des Bereichs in Pixel.

w

integer (int32)

minimum: 1

Breite gemessen vom oberen linken Punkt des Bereichs in Pixel.

x

integer (int32)

minimum: 0

Linke Koordinate des linken oberen Punkts des Bereichs, in Pixeln.

y

integer (int32)

minimum: 0

Oberste Koordinate des linken oberen Punkts des Bereichs, in Pixeln.

CaptionResult

Eine kurze Beschreibung der Darstellung des Bilds.

Name Typ Beschreibung
confidence

number (double)

minimum: 0
maximum: 1

Die Vertrauensstufe, die der Dienst in der Beschriftung hat.

text

string

minLength: 1

Der Text der Beschriftung.

CropRegion

Eine Region, die für intelligentes Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.

Name Typ Beschreibung
aspectRatio

number (double)

Das Seitenverhältnis des Zuschneidebereichs.

boundingBox

BoundingBox

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

DenseCaption

Eine kurze Beschreibung der Darstellung des Bilds.

Name Typ Beschreibung
boundingBox

BoundingBox

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

confidence

number (double)

minimum: 0
maximum: 1

Die Vertrauensstufe, die der Dienst in der Beschriftung hat.

text

string

minLength: 1

Der Text der Beschriftung.

DenseCaptionsResult

Eine Liste der Beschriftungen.

Name Typ Beschreibung
values

DenseCaption[]

Eine Liste der Beschriftungen.

DetectedObject

Beschreibt ein erkanntes Objekt in einem Bild.

Name Typ Beschreibung
boundingBox

BoundingBox

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

id

string

minLength: 1

ID des erkannten Objekts.

tags

Tag[]

Klassifizierungskonfidenzen des erkannten Objekts.

DetectedPerson

Eine Person, die in einem Bild erkannt wurde.

Name Typ Beschreibung
boundingBox

BoundingBox

Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.

confidence

number (double)

minimum: 0
maximum: 1

Konfidenzbewertung, die die Person im Bild beobachtet hat, als Wert zwischen 0 und 1.

DocumentLine

Ein Inhaltszeilenobjekt, das aus einer angrenzenden Abfolge von Inhaltselementen besteht, z. B. Wörter und Auswahlzeichen.

Name Typ Beschreibung
boundingBox

number[] (double)

Umgebendes Feld der Zeile.

content

string

minLength: 1

Verketteter Inhalt der enthaltenen Elemente in lesereihenfolge.

spans

DocumentSpan[]

Position der Zeile in der Lesereihenfolge verketteter Inhalte.

DocumentPage

Die Inhalte und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.

Name Typ Beschreibung
angle

number (double)

Die allgemeine Ausrichtung des Inhalts im Uhrzeigersinn, gemessen in Grad zwischen (-180, 180].

height

number (double)

Die Höhe des Bilds bzw. der PDF-Datei in Pixel/Zoll.

lines

DocumentLine[]

Extrahierte Zeilen von der Seite, die potenziell textbezogene und visuelle Elemente enthalten.

pageNumber

integer (int32)

1-basierte Seitenzahl im Eingabedokument.

spans

DocumentSpan[]

Speicherort der Seite in der Lesereihenfolge verketteter Inhalte.

width

number (double)

Die Breite des Bilds bzw. der PDF-Datei in Pixel/Zoll.

words

DocumentWord[]

Extrahierte Wörter aus der Seite.

DocumentSpan

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.

Name Typ Beschreibung
length

integer (int32)

Die Anzahl der Zeichen im Inhalt, der durch den Bereich dargestellt wird.

offset

integer (int32)

Nullbasierter Index des Inhalts, der durch die Spanne dargestellt wird.

DocumentStyle

Ein Objekt, das beobachtete Textformatvorlagen darstellt.

Name Typ Beschreibung
confidence

number (double)

Vertrauen der korrekten Identifizierung des Stils.

isHandwritten

boolean

Ist Inhalt handschriftlich oder nicht.

spans

DocumentSpan[]

Die Position der Textelemente im verketteten Inhalt, auf den die Formatvorlage angewendet wird.

DocumentWord

Ein Wortobjekt, das aus einer zusammenhängenden Abfolge von Zeichen besteht. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.

Name Typ Beschreibung
boundingBox

number[] (double)

Umgebendes Feld des Worts.

confidence

number (double)

Konfidenz, dass das Wort richtig extrahiert wird.

content

string

minLength: 1

Textinhalt des Worts.

span

DocumentSpan

Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.

ErrorResponse

Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.

Name Typ Beschreibung
error

ErrorResponseDetails

Fehlerinformationen.

ErrorResponseDetails

Fehlerinformationen.

Name Typ Beschreibung
code

string

Fehlercode.

details

ErrorResponseDetails[]

Liste der detaillierten Fehler.

innererror

ErrorResponseInnerError

Detaillierter Fehler.

message

string

Fehlermeldung.

target

string

Ziel des Fehlers.

ErrorResponseInnerError

Detaillierter Fehler.

Name Typ Beschreibung
code

string

Fehlercode.

innererror

ErrorResponseInnerError

Detaillierter Fehler.

message

string

Fehlermeldung.

ImageAnalysisResult

Beschreiben Sie die kombinierten Ergebnisse verschiedener Bildanalysetypen.

Name Typ Beschreibung
adultResult

AdultResult

Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.

captionResult

CaptionResult

Eine kurze Beschreibung der Darstellung des Bilds.

customModelResult

ImagePredictionResult

Beschreibt das Vorhersageergebnis eines Bilds.

denseCaptionsResult

DenseCaptionsResult

Eine Liste der Beschriftungen.

metadata

ImageMetadataApiModel

Die Bildmetadateninformationen wie Höhe und Breite.

modelVersion

string

minLength: 1

Modellversion.

objectsResult

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

peopleResult

PeopleResult

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

readResult

ReadResult

Die Ergebnisse eines Lesevorgangs.

smartCropsResult

SmartCropsResult

Intelligentes Zuschneideergebnis.

tagsResult

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

ImageMetadataApiModel

Die Bildmetadateninformationen wie Höhe und Breite.

Name Typ Beschreibung
height

integer (int32)

minimum: 1

Die Höhe des Bilds in Pixel.

width

integer (int32)

minimum: 1

Die Breite des Bilds in Pixeln.

ImagePredictionResult

Beschreibt das Vorhersageergebnis eines Bilds.

Name Typ Beschreibung
objectsResult

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

tagsResult

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

ImageUrl

Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.

Name Typ Beschreibung
url

string

Öffentlich erreichbare URL eines Bilds.

ObjectsResult

Beschreibt erkannte Objekte in einem Bild.

Name Typ Beschreibung
values

DetectedObject[]

Ein Array erkannter Objekte.

PeopleResult

Ein Objekt, das beschreibt, ob das Bild Personen enthält.

Name Typ Beschreibung
values

DetectedPerson[]

Ein Array erkannter Personen.

ReadResult

Die Ergebnisse eines Lesevorgangs.

Name Typ Beschreibung
content

string

minLength: 1

Verketten Sie die Zeichenfolgendarstellung aller Text- und visuellen Elemente in lesereihenfolge.

pages

DocumentPage[]

Eine Liste der analysierten Seiten.

stringIndexType

string

minLength: 1

Die Methode zum Berechnen des Zeichenfolgenoffsets und der Länge, mögliche Werte sind: "textElements", "unicodeCodePoint", "utf16CodeUnit" usw.

styles

DocumentStyle[]

Extrahierte Schriftformate.

SmartCropsResult

Intelligentes Zuschneideergebnis.

Name Typ Beschreibung
values

CropRegion[]

Empfohlene Bereiche zum Zuschneiden des Bilds.

Tag

Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.

Name Typ Beschreibung
confidence

number (double)

minimum: 0
maximum: 1

Die Vertrauensstufe, die die Entität beobachtet hat.

name

string

minLength: 1

Name der Entität.

TagsResult

Eine Liste von Tags mit Konfidenzniveau.

Name Typ Beschreibung
values

Tag[]

Eine Liste von Tags mit Konfidenzniveau.

VisualFeature

Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.

Wert Beschreibung
caption
denseCaptions
objects
people
read
smartCrops
tags