Snabbstart: Analysera multimodalt innehåll (förhandsversion)

Artikel
09/25/2024

Multimodal-API:et analyserar material som innehåller både bildinnehåll och textinnehåll för att göra program och tjänster säkrare från skadligt användargenererat eller AI-genererat innehåll. Att analysera en bild och dess tillhörande textinnehåll tillsammans kan bevara kontexten och ge en mer omfattande förståelse av innehållet.

Mer information om hur innehållet filtreras finns på konceptsidan Skadekategorier. För API-indatabegränsningar, se avsnittet Indatakrav i översikten.

Viktigt!

Den här funktionen är endast tillgänglig i vissa Azure-regioner. Se Regiontillgänglighet.

Förutsättningar

En Azure-prenumeration – Skapa en kostnadsfritt
När du har din Azure-prenumeration skapar du en Content Safety-resurs i Azure Portal för att hämta din nyckel och slutpunkt. Ange ett unikt namn för resursen, välj din prenumeration och välj en resursgrupp, region som stöds och prisnivån som stöds. Välj sedan Skapa.
- Det tar några minuter att distribuera resursen. När den är klar väljer du Gå till resurs. I den vänstra rutan under Resurshantering väljer du Prenumerationsnyckel och Slutpunkt. Kopiera slutpunkten och något av nyckelvärdena till en tillfällig plats för senare användning.
Något av följande installerat:
- cURL för REST API-anrop.
- Python 3.x installerat

Analysera bild med text

I följande avsnitt går vi igenom en exempelbegäran om multimodal moderering med cURL.

Förbereda en exempelbild

Välj en exempelbild att analysera och ladda ned den till enheten.

Se Indatakrav för bildbegränsningarna. Om formatet är animerat extraherar tjänsten den första ramen för analysen.

Du kan ange din bild med någon av två metoder: lokal filströms - eller bloblagrings-URL.

Lokal filström (rekommenderas): Koda avbildningen till base64. Du kan använda en webbplats som codebeautify för att göra kodningen. Spara sedan den kodade strängen på en tillfällig plats.
URL för bloblagring: Ladda upp avbildningen till ett Azure Blob Storage-konto. Följ snabbstarten för bloblagring för att lära dig hur du gör detta. Öppna sedan Azure Storage Explorer och hämta URL:en till avbildningen. Spara den på en tillfällig plats.

Analysera bild med text

Klistra in kommandot nedan i en textredigerare och gör följande ändringar.

Ersätt <endpoint> med resursslutpunkts-URL:en.
Ersätt <your_subscription_key> med din nyckel.
Fyll i fältet "image" i brödtexten med antingen ett "content" fält eller ett "blobUrl" fält. Till exempel: {"image": {"content": "<base_64_string>"} eller {"image": {"blobUrl": "<your_storage_url>"}.
Du kan också ersätta värdet för "text" fältet med din egen text som du vill analysera.

curl --location '<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15-preview ' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data '{
  "image": {
      "content": "<base_64_string>"
 },
  "categories": ["Hate","Sexual","Violence","SelfHarm"],
  "enableOcr": true,
  "text": "I want to kill you"
}'

Kommentar

Om du använder en bloblagrings-URL bör begärandetexten se ut så här:

{
  "image": {
    "blobUrl": "<your_storage_url>"
  }
}

Fälten nedan måste inkluderas i URL:en:

Name	Obligatoriskt?	beskrivning	Typ
API-version	Obligatoriskt	Det här är DEN API-version som ska kontrolleras. Den aktuella versionen är: `api-version=2024-09-15`. Exempel: `<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15`	String

Parametrarna i begärandetexten definieras i den här tabellen:

Name	beskrivning	Typ
innehåll eller blobUrl	(Krävs) Bildens innehålls- eller blob-URL. Jag kan vara antingen base64-kodade byte eller en blob-URL. Om båda anges avvisas begäran. Den maximala tillåtna storleken på bilden är 7 200 x 7 200 bildpunkter och den maximala filstorleken är 4 MB. Den minsta storleken på bilden är 50 bildpunkter x 50 bildpunkter.	String
text	(Valfritt) Texten som är kopplad till bilden. Vi stöder högst 1 000 tecken (unicode-kodpunkter) i en textbegäran.	String
enableOcr	(Krävs) När värdet är true utför vår tjänst OCR och analyserar den identifierade texten med indatabild samtidigt. Vi känner igen högst 1 000 tecken (unicode-kodpunkter) från indatabilden. De andra kommer att trunkeras.	Booleskt
Kategorier	(Valfritt) Detta antas vara en matris med kategorinamn. Se guiden Skadekategorier för en lista över tillgängliga kategorinamn. Om inga kategorier anges används alla fyra kategorierna. Vi använder flera kategorier för att få poäng i en enda begäran.	Enum

Öppna ett kommandotolksfönster och kör kommandot cURL.

Output

Du bör se resultatet av bild- och textmoderering som visas som JSON-data i konsolen. Till exempel:

{
  "categoriesAnalysis": [
    {
      "category": "Hate",
      "severity": 2
    },
    {
      "category": "SelfHarm",
      "severity": 0
    },
    {
      "category": "Sexual",
      "severity": 0
    },
    {
      "category": "Violence",
      "severity": 0
    }
  ]
}

JSON-fälten i utdata definieras här:

Name	beskrivning	Typ
categoriesAnalysis	Varje utdataklass som API:et förutsäger. Klassificering kan vara flera etiketter. När en bild till exempel laddas upp till bildmodereringsmodellen kan den klassificeras som både sexuellt innehåll och våld. Skadekategorier	String
Allvarlighetsgrad	Allvarlighetsgraden för flaggan i varje skadekategori. Skadekategorier	Integer

Dela via

Snabbstart: Analysera multimodalt innehåll (förhandsversion)

Förutsättningar

Analysera bild med text

Förbereda en exempelbild

Analysera bild med text

Output

Feedback

Ytterligare resurser