Image Analysis - Analyze Image
Analysieren Sie das Eingabebild. Die Anforderung enthält entweder bildstreams mit einem beliebigen Inhaltstyp ['image/*', 'application/octet-stream') oder einer JSON-Nutzlast, die eine URL-Eigenschaft enthält, die zum Abrufen des Bilddatenstroms verwendet werden soll.
POST /imageanalysis:analyze?api-version=2023-04-01-preview
POST /imageanalysis:analyze?features={features}&model-name={model-name}&language={language}&smartcrops-aspect-ratios={smartcrops-aspect-ratios}&gender-neutral-caption={gender-neutral-caption}&api-version=2023-04-01-preview
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
api-version
|
query | True |
string |
Angeforderte API-Version. |
features
|
query |
Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist. |
||
gender-neutral-caption
|
query |
boolean |
Boolesche Kennzeichnung zum Aktivieren geschlechtsneutraler Beschriftungen für Beschriftungs- und dichteCaptions-Features. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "false". |
|
language
|
query |
string |
Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Eine Liste der unterstützten Sprachen finden Sie unter https://aka.ms/cv-languages. |
|
model-name
|
query |
string |
Der Name des benutzerdefinierten trainierten Modells. Dieser Parameter muss angegeben werden, wenn der Parameter "features" nicht angegeben ist. |
|
smartcrops-aspect-ratios
|
query |
string |
Eine Liste der Seitenverhältnisse, die für die SmartCrops-Funktion verwendet werden sollen. Seitenverhältnisse werden berechnet, indem die Zielzuschnittbreite durch die Höhe dividiert wird. Unterstützte Werte liegen zwischen 0,75 und 1,8 (einschließlich). Mehrere Werte sollten durch Kommas getrennt werden. Wenn dieser Parameter nicht angegeben ist, gibt der Dienst einen Zuschneidevorschlag mit einem Seitenverhältnis zurück, das zwischen 0,5 und 2,0 (einschließlich) passt. |
Anforderungstext
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
url | True |
string |
Öffentlich erreichbare URL eines Bilds. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK |
Erfolg |
|
Other Status Codes |
Fehler Header x-ms-error-code: string |
Beispiele
AnalyzeImage_CustomModel
Beispielanforderung
POST /imageanalysis:analyze?model-name=my_model_name&api-version=2023-04-01-preview
{
"url": "https://example.com/image.jpg"
}
Beispiel für eine Antwort
{
"customModelResult": {
"objectsResult": {
"values": [
{
"id": "1",
"boundingBox": {
"x": 197,
"y": 68,
"w": 356,
"h": 394
},
"tags": [
{
"name": "class1",
"confidence": 0.92431640625
}
]
},
{
"id": "2",
"boundingBox": {
"x": 0,
"y": 77,
"w": 241,
"h": 359
},
"tags": [
{
"name": "class1",
"confidence": 0.87890625
}
]
}
]
}
},
"modelVersion": "2023-04-01-preview",
"metadata": {
"width": 660,
"height": 495
}
}
Definitionen
Name | Beschreibung |
---|---|
Adult |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
Adult |
Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist. |
Bounding |
Ein umgebendes Feld für einen Bereich innerhalb eines Bilds. |
Caption |
Eine kurze Beschreibung der Darstellung des Bilds. |
Crop |
Eine Region, die für intelligentes Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben. |
Dense |
Eine kurze Beschreibung der Darstellung des Bilds. |
Dense |
Eine Liste der Beschriftungen. |
Detected |
Beschreibt ein erkanntes Objekt in einem Bild. |
Detected |
Eine Person, die in einem Bild erkannt wurde. |
Document |
Ein Inhaltszeilenobjekt, das aus einer angrenzenden Abfolge von Inhaltselementen besteht, z. B. Wörter und Auswahlzeichen. |
Document |
Die Inhalte und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden. |
Document |
Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge. |
Document |
Ein Objekt, das beobachtete Textformatvorlagen darstellt. |
Document |
Ein Wortobjekt, das aus einer zusammenhängenden Abfolge von Zeichen besteht. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt. |
Error |
Antwort, die zurückgegeben wird, wenn ein Fehler auftritt. |
Error |
Fehlerinformationen. |
Error |
Detaillierter Fehler. |
Image |
Beschreiben Sie die kombinierten Ergebnisse verschiedener Bildanalysetypen. |
Image |
Die Bildmetadateninformationen wie Höhe und Breite. |
Image |
Beschreibt das Vorhersageergebnis eines Bilds. |
Image |
Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist. |
Objects |
Beschreibt erkannte Objekte in einem Bild. |
People |
Ein Objekt, das beschreibt, ob das Bild Personen enthält. |
Read |
Die Ergebnisse eines Lesevorgangs. |
Smart |
Intelligentes Zuschneideergebnis. |
Tag |
Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung. |
Tags |
Eine Liste von Tags mit Konfidenzniveau. |
Visual |
Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist. |
AdultMatch
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number (double) minimum: 0maximum: 1 |
Ein Wert, der die Konfidenzstufe der übereinstimmenden Inhalte für Erwachsene angibt. |
isMatch |
boolean |
Ein Wert, der angibt, ob das Bild mit erwachsenen Inhalten übereinstimmt. |
AdultResult
Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist.
Name | Typ | Beschreibung |
---|---|---|
adult |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
|
gore |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
|
racy |
Ein Objekt, das die Übereinstimmung mit erwachsenen Inhalten beschreibt. |
BoundingBox
Ein umgebendes Feld für einen Bereich innerhalb eines Bilds.
Name | Typ | Beschreibung |
---|---|---|
h |
integer (int32) minimum: 1 |
Höhe gemessen vom linken oberen Punkt des Bereichs in Pixel. |
w |
integer (int32) minimum: 1 |
Breite gemessen vom oberen linken Punkt des Bereichs in Pixel. |
x |
integer (int32) minimum: 0 |
Linke Koordinate des linken oberen Punkts des Bereichs, in Pixeln. |
y |
integer (int32) minimum: 0 |
Oberste Koordinate des linken oberen Punkts des Bereichs, in Pixeln. |
CaptionResult
Eine kurze Beschreibung der Darstellung des Bilds.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number (double) minimum: 0maximum: 1 |
Die Vertrauensstufe, die der Dienst in der Beschriftung hat. |
text |
string minLength: 1 |
Der Text der Beschriftung. |
CropRegion
Eine Region, die für intelligentes Zuschneiden identifiziert wurde. Für jedes angeforderte Seitenverhältnis wird eine Region zurückgegeben.
Name | Typ | Beschreibung |
---|---|---|
aspectRatio |
number (double) |
Das Seitenverhältnis des Zuschneidebereichs. |
boundingBox |
Ein umgebendes Feld für einen Bereich innerhalb eines Bilds. |
DenseCaption
Eine kurze Beschreibung der Darstellung des Bilds.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
Ein umgebendes Feld für einen Bereich innerhalb eines Bilds. |
|
confidence |
number (double) minimum: 0maximum: 1 |
Die Vertrauensstufe, die der Dienst in der Beschriftung hat. |
text |
string minLength: 1 |
Der Text der Beschriftung. |
DenseCaptionsResult
Eine Liste der Beschriftungen.
Name | Typ | Beschreibung |
---|---|---|
values |
Eine Liste der Beschriftungen. |
DetectedObject
Beschreibt ein erkanntes Objekt in einem Bild.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
Ein umgebendes Feld für einen Bereich innerhalb eines Bilds. |
|
id |
string minLength: 1 |
ID des erkannten Objekts. |
tags |
Tag[] |
Klassifizierungskonfidenzen des erkannten Objekts. |
DetectedPerson
Eine Person, die in einem Bild erkannt wurde.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
Ein umgebendes Feld für einen Bereich innerhalb eines Bilds. |
|
confidence |
number (double) minimum: 0maximum: 1 |
Konfidenzbewertung, die die Person im Bild beobachtet hat, als Wert zwischen 0 und 1. |
DocumentLine
Ein Inhaltszeilenobjekt, das aus einer angrenzenden Abfolge von Inhaltselementen besteht, z. B. Wörter und Auswahlzeichen.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
number[] (double) |
Umgebendes Feld der Zeile. |
content |
string minLength: 1 |
Verketteter Inhalt der enthaltenen Elemente in lesereihenfolge. |
spans |
Position der Zeile in der Lesereihenfolge verketteter Inhalte. |
DocumentPage
Die Inhalte und Layoutelemente, die aus einer Seite aus der Eingabe extrahiert wurden.
Name | Typ | Beschreibung |
---|---|---|
angle |
number (double) |
Die allgemeine Ausrichtung des Inhalts im Uhrzeigersinn, gemessen in Grad zwischen (-180, 180]. |
height |
number (double) |
Die Höhe des Bilds bzw. der PDF-Datei in Pixel/Zoll. |
lines |
Extrahierte Zeilen von der Seite, die potenziell textbezogene und visuelle Elemente enthalten. |
|
pageNumber |
integer (int32) |
1-basierte Seitenzahl im Eingabedokument. |
spans |
Speicherort der Seite in der Lesereihenfolge verketteter Inhalte. |
|
width |
number (double) |
Die Breite des Bilds bzw. der PDF-Datei in Pixel/Zoll. |
words |
Extrahierte Wörter aus der Seite. |
DocumentSpan
Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge.
Name | Typ | Beschreibung |
---|---|---|
length |
integer (int32) |
Die Anzahl der Zeichen im Inhalt, der durch den Bereich dargestellt wird. |
offset |
integer (int32) |
Nullbasierter Index des Inhalts, der durch die Spanne dargestellt wird. |
DocumentStyle
Ein Objekt, das beobachtete Textformatvorlagen darstellt.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number (double) |
Vertrauen der korrekten Identifizierung des Stils. |
isHandwritten |
boolean |
Ist Inhalt handschriftlich oder nicht. |
spans |
Die Position der Textelemente im verketteten Inhalt, auf den die Formatvorlage angewendet wird. |
DocumentWord
Ein Wortobjekt, das aus einer zusammenhängenden Abfolge von Zeichen besteht. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
number[] (double) |
Umgebendes Feld des Worts. |
confidence |
number (double) |
Konfidenz, dass das Wort richtig extrahiert wird. |
content |
string minLength: 1 |
Textinhalt des Worts. |
span |
Zusammenhängender Bereich der verketteten Inhaltseigenschaft, angegeben als Offset und Länge. |
ErrorResponse
Antwort, die zurückgegeben wird, wenn ein Fehler auftritt.
Name | Typ | Beschreibung |
---|---|---|
error |
Fehlerinformationen. |
ErrorResponseDetails
Fehlerinformationen.
Name | Typ | Beschreibung |
---|---|---|
code |
string |
Fehlercode. |
details |
Liste der detaillierten Fehler. |
|
innererror |
Detaillierter Fehler. |
|
message |
string |
Fehlermeldung. |
target |
string |
Ziel des Fehlers. |
ErrorResponseInnerError
Detaillierter Fehler.
Name | Typ | Beschreibung |
---|---|---|
code |
string |
Fehlercode. |
innererror |
Detaillierter Fehler. |
|
message |
string |
Fehlermeldung. |
ImageAnalysisResult
Beschreiben Sie die kombinierten Ergebnisse verschiedener Bildanalysetypen.
Name | Typ | Beschreibung |
---|---|---|
adultResult |
Ein Objekt, das beschreibt, ob das Bild erwachsene Inhalte enthält und/oder rassig ist. |
|
captionResult |
Eine kurze Beschreibung der Darstellung des Bilds. |
|
customModelResult |
Beschreibt das Vorhersageergebnis eines Bilds. |
|
denseCaptionsResult |
Eine Liste der Beschriftungen. |
|
metadata |
Die Bildmetadateninformationen wie Höhe und Breite. |
|
modelVersion |
string minLength: 1 |
Modellversion. |
objectsResult |
Beschreibt erkannte Objekte in einem Bild. |
|
peopleResult |
Ein Objekt, das beschreibt, ob das Bild Personen enthält. |
|
readResult |
Die Ergebnisse eines Lesevorgangs. |
|
smartCropsResult |
Intelligentes Zuschneideergebnis. |
|
tagsResult |
Eine Liste von Tags mit Konfidenzniveau. |
ImageMetadataApiModel
Die Bildmetadateninformationen wie Höhe und Breite.
Name | Typ | Beschreibung |
---|---|---|
height |
integer (int32) minimum: 1 |
Die Höhe des Bilds in Pixel. |
width |
integer (int32) minimum: 1 |
Die Breite des Bilds in Pixeln. |
ImagePredictionResult
Beschreibt das Vorhersageergebnis eines Bilds.
Name | Typ | Beschreibung |
---|---|---|
objectsResult |
Beschreibt erkannte Objekte in einem Bild. |
|
tagsResult |
Eine Liste von Tags mit Konfidenzniveau. |
ImageUrl
Ein JSON-Dokument mit einer URL, die auf das zu analysierende Bild verweist.
Name | Typ | Beschreibung |
---|---|---|
url |
string |
Öffentlich erreichbare URL eines Bilds. |
ObjectsResult
Beschreibt erkannte Objekte in einem Bild.
Name | Typ | Beschreibung |
---|---|---|
values |
Ein Array erkannter Objekte. |
PeopleResult
Ein Objekt, das beschreibt, ob das Bild Personen enthält.
Name | Typ | Beschreibung |
---|---|---|
values |
Ein Array erkannter Personen. |
ReadResult
Die Ergebnisse eines Lesevorgangs.
Name | Typ | Beschreibung |
---|---|---|
content |
string minLength: 1 |
Verketten Sie die Zeichenfolgendarstellung aller Text- und visuellen Elemente in lesereihenfolge. |
pages |
Eine Liste der analysierten Seiten. |
|
stringIndexType |
string minLength: 1 |
Die Methode zum Berechnen des Zeichenfolgenoffsets und der Länge, mögliche Werte sind: "textElements", "unicodeCodePoint", "utf16CodeUnit" usw. |
styles |
Extrahierte Schriftformate. |
SmartCropsResult
Intelligentes Zuschneideergebnis.
Name | Typ | Beschreibung |
---|---|---|
values |
Empfohlene Bereiche zum Zuschneiden des Bilds. |
Tag
Eine Entitätsbeobachtung im Bild zusammen mit der Konfidenzbewertung.
Name | Typ | Beschreibung |
---|---|---|
confidence |
number (double) minimum: 0maximum: 1 |
Die Vertrauensstufe, die die Entität beobachtet hat. |
name |
string minLength: 1 |
Name der Entität. |
TagsResult
Eine Liste von Tags mit Konfidenzniveau.
Name | Typ | Beschreibung |
---|---|---|
values |
Tag[] |
Eine Liste von Tags mit Konfidenzniveau. |
VisualFeature
Die angeforderten visuellen Features: Tags, Objekte, Beschriftung, dichteCaptions, Lesen, SmartCrops, Personen. Dieser Parameter muss angegeben werden, wenn der Parameter "model-name" nicht angegeben ist.
Wert | Beschreibung |
---|---|
caption | |
denseCaptions | |
objects | |
people | |
read | |
smartCrops | |
tags |