Snabbstart: Analysera multimodalt innehåll (förhandsversion)
Multimodal-API:et analyserar material som innehåller både bildinnehåll och textinnehåll för att göra program och tjänster säkrare från skadligt användargenererat eller AI-genererat innehåll. Att analysera en bild och dess tillhörande textinnehåll tillsammans kan bevara kontexten och ge en mer omfattande förståelse av innehållet.
Mer information om hur innehållet filtreras finns på konceptsidan Skadekategorier. För API-indatabegränsningar, se avsnittet Indatakrav i översikten.
Viktigt!
Den här funktionen är endast tillgänglig i vissa Azure-regioner. Se Regiontillgänglighet.
Förutsättningar
- En Azure-prenumeration – Skapa en kostnadsfritt
- När du har din Azure-prenumeration skapar du en Content Safety-resurs i Azure Portal för att hämta din nyckel och slutpunkt. Ange ett unikt namn för resursen, välj din prenumeration och välj en resursgrupp, region som stöds och prisnivån som stöds. Välj sedan Skapa.
- Det tar några minuter att distribuera resursen. När den är klar väljer du Gå till resurs. I den vänstra rutan under Resurshantering väljer du Prenumerationsnyckel och Slutpunkt. Kopiera slutpunkten och något av nyckelvärdena till en tillfällig plats för senare användning.
- Något av följande installerat:
- cURL för REST API-anrop.
- Python 3.x installerat
Analysera bild med text
I följande avsnitt går vi igenom en exempelbegäran om multimodal moderering med cURL.
Förbereda en exempelbild
Välj en exempelbild att analysera och ladda ned den till enheten.
Se Indatakrav för bildbegränsningarna. Om formatet är animerat extraherar tjänsten den första ramen för analysen.
Du kan ange din bild med någon av två metoder: lokal filströms - eller bloblagrings-URL.
- Lokal filström (rekommenderas): Koda avbildningen till base64. Du kan använda en webbplats som codebeautify för att göra kodningen. Spara sedan den kodade strängen på en tillfällig plats.
- URL för bloblagring: Ladda upp avbildningen till ett Azure Blob Storage-konto. Följ snabbstarten för bloblagring för att lära dig hur du gör detta. Öppna sedan Azure Storage Explorer och hämta URL:en till avbildningen. Spara den på en tillfällig plats.
Analysera bild med text
Klistra in kommandot nedan i en textredigerare och gör följande ändringar.
- Ersätt
<endpoint>
med resursslutpunkts-URL:en. - Ersätt
<your_subscription_key>
med din nyckel. - Fyll i fältet
"image"
i brödtexten med antingen ett"content"
fält eller ett"blobUrl"
fält. Till exempel:{"image": {"content": "<base_64_string>"}
eller{"image": {"blobUrl": "<your_storage_url>"}
. - Du kan också ersätta värdet för
"text"
fältet med din egen text som du vill analysera.
curl --location '<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15-preview ' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data '{
"image": {
"content": "<base_64_string>"
},
"categories": ["Hate","Sexual","Violence","SelfHarm"],
"enableOcr": true,
"text": "I want to kill you"
}'
Kommentar
Om du använder en bloblagrings-URL bör begärandetexten se ut så här:
{
"image": {
"blobUrl": "<your_storage_url>"
}
}
Fälten nedan måste inkluderas i URL:en:
Name | Obligatoriskt? | beskrivning | Typ |
---|---|---|---|
API-version | Obligatoriskt | Det här är DEN API-version som ska kontrolleras. Den aktuella versionen är: api-version=2024-09-15 . Exempel: <endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15 |
String |
Parametrarna i begärandetexten definieras i den här tabellen:
Name | beskrivning | Typ |
---|---|---|
innehåll eller blobUrl | (Krävs) Bildens innehålls- eller blob-URL. Jag kan vara antingen base64-kodade byte eller en blob-URL. Om båda anges avvisas begäran. Den maximala tillåtna storleken på bilden är 7 200 x 7 200 bildpunkter och den maximala filstorleken är 4 MB. Den minsta storleken på bilden är 50 bildpunkter x 50 bildpunkter. | String |
text | (Valfritt) Texten som är kopplad till bilden. Vi stöder högst 1 000 tecken (unicode-kodpunkter) i en textbegäran. | String |
enableOcr | (Krävs) När värdet är true utför vår tjänst OCR och analyserar den identifierade texten med indatabild samtidigt. Vi känner igen högst 1 000 tecken (unicode-kodpunkter) från indatabilden. De andra kommer att trunkeras. | Booleskt |
Kategorier | (Valfritt) Detta antas vara en matris med kategorinamn. Se guiden Skadekategorier för en lista över tillgängliga kategorinamn. Om inga kategorier anges används alla fyra kategorierna. Vi använder flera kategorier för att få poäng i en enda begäran. | Enum |
Öppna ett kommandotolksfönster och kör kommandot cURL.
Output
Du bör se resultatet av bild- och textmoderering som visas som JSON-data i konsolen. Till exempel:
{
"categoriesAnalysis": [
{
"category": "Hate",
"severity": 2
},
{
"category": "SelfHarm",
"severity": 0
},
{
"category": "Sexual",
"severity": 0
},
{
"category": "Violence",
"severity": 0
}
]
}
JSON-fälten i utdata definieras här:
Name | beskrivning | Typ |
---|---|---|
categoriesAnalysis | Varje utdataklass som API:et förutsäger. Klassificering kan vara flera etiketter. När en bild till exempel laddas upp till bildmodereringsmodellen kan den klassificeras som både sexuellt innehåll och våld. Skadekategorier | String |
Allvarlighetsgrad | Allvarlighetsgraden för flaggan i varje skadekategori. Skadekategorier | Integer |