Dela via


Snabbstart: Analysera multimodalt innehåll (förhandsversion)

Multimodal-API:et analyserar material som innehåller både bildinnehåll och textinnehåll för att göra program och tjänster säkrare från skadligt användargenererat eller AI-genererat innehåll. Att analysera en bild och dess tillhörande textinnehåll tillsammans kan bevara kontexten och ge en mer omfattande förståelse av innehållet.

Mer information om hur innehållet filtreras finns på konceptsidan Skadekategorier. För API-indatabegränsningar, se avsnittet Indatakrav i översikten.

Viktigt!

Den här funktionen är endast tillgänglig i vissa Azure-regioner. Se Regiontillgänglighet.

Förutsättningar

  • En Azure-prenumeration – Skapa en kostnadsfritt
  • När du har din Azure-prenumeration skapar du en Content Safety-resurs i Azure Portal för att hämta din nyckel och slutpunkt. Ange ett unikt namn för resursen, välj din prenumeration och välj en resursgrupp, region som stöds och prisnivån som stöds. Välj sedan Skapa.
    • Det tar några minuter att distribuera resursen. När den är klar väljer du Gå till resurs. I den vänstra rutan under Resurshantering väljer du Prenumerationsnyckel och Slutpunkt. Kopiera slutpunkten och något av nyckelvärdena till en tillfällig plats för senare användning.
  • Något av följande installerat:

Analysera bild med text

I följande avsnitt går vi igenom en exempelbegäran om multimodal moderering med cURL.

Förbereda en exempelbild

Välj en exempelbild att analysera och ladda ned den till enheten.

Se Indatakrav för bildbegränsningarna. Om formatet är animerat extraherar tjänsten den första ramen för analysen.

Du kan ange din bild med någon av två metoder: lokal filströms - eller bloblagrings-URL.

  • Lokal filström (rekommenderas): Koda avbildningen till base64. Du kan använda en webbplats som codebeautify för att göra kodningen. Spara sedan den kodade strängen på en tillfällig plats.
  • URL för bloblagring: Ladda upp avbildningen till ett Azure Blob Storage-konto. Följ snabbstarten för bloblagring för att lära dig hur du gör detta. Öppna sedan Azure Storage Explorer och hämta URL:en till avbildningen. Spara den på en tillfällig plats.

Analysera bild med text

Klistra in kommandot nedan i en textredigerare och gör följande ändringar.

  1. Ersätt <endpoint> med resursslutpunkts-URL:en.
  2. Ersätt <your_subscription_key> med din nyckel.
  3. Fyll i fältet "image" i brödtexten med antingen ett "content" fält eller ett "blobUrl" fält. Till exempel: {"image": {"content": "<base_64_string>"} eller {"image": {"blobUrl": "<your_storage_url>"}.
  4. Du kan också ersätta värdet för "text" fältet med din egen text som du vill analysera.
curl --location '<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15-preview ' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data '{
  "image": {
      "content": "<base_64_string>"
 },
  "categories": ["Hate","Sexual","Violence","SelfHarm"],
  "enableOcr": true,
  "text": "I want to kill you"
}'

Kommentar

Om du använder en bloblagrings-URL bör begärandetexten se ut så här:

{
  "image": {
    "blobUrl": "<your_storage_url>"
  }
}

Fälten nedan måste inkluderas i URL:en:

Name Obligatoriskt? beskrivning Typ
API-version Obligatoriskt Det här är DEN API-version som ska kontrolleras. Den aktuella versionen är: api-version=2024-09-15. Exempel: <endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15 String

Parametrarna i begärandetexten definieras i den här tabellen:

Name beskrivning Typ
innehåll eller blobUrl (Krävs) Bildens innehålls- eller blob-URL. Jag kan vara antingen base64-kodade byte eller en blob-URL. Om båda anges avvisas begäran. Den maximala tillåtna storleken på bilden är 7 200 x 7 200 bildpunkter och den maximala filstorleken är 4 MB. Den minsta storleken på bilden är 50 bildpunkter x 50 bildpunkter. String
text (Valfritt) Texten som är kopplad till bilden. Vi stöder högst 1 000 tecken (unicode-kodpunkter) i en textbegäran. String
enableOcr (Krävs) När värdet är true utför vår tjänst OCR och analyserar den identifierade texten med indatabild samtidigt. Vi känner igen högst 1 000 tecken (unicode-kodpunkter) från indatabilden. De andra kommer att trunkeras. Booleskt
Kategorier (Valfritt) Detta antas vara en matris med kategorinamn. Se guiden Skadekategorier för en lista över tillgängliga kategorinamn. Om inga kategorier anges används alla fyra kategorierna. Vi använder flera kategorier för att få poäng i en enda begäran. Enum

Öppna ett kommandotolksfönster och kör kommandot cURL.

Output

Du bör se resultatet av bild- och textmoderering som visas som JSON-data i konsolen. Till exempel:

{
  "categoriesAnalysis": [
    {
      "category": "Hate",
      "severity": 2
    },
    {
      "category": "SelfHarm",
      "severity": 0
    },
    {
      "category": "Sexual",
      "severity": 0
    },
    {
      "category": "Violence",
      "severity": 0
    }
  ]
}

JSON-fälten i utdata definieras här:

Name beskrivning Typ
categoriesAnalysis Varje utdataklass som API:et förutsäger. Klassificering kan vara flera etiketter. När en bild till exempel laddas upp till bildmodereringsmodellen kan den klassificeras som både sexuellt innehåll och våld. Skadekategorier String
Allvarlighetsgrad Allvarlighetsgraden för flaggan i varje skadekategori. Skadekategorier Integer