Rychlý start: Analýza multimodálního obsahu (Preview)

Článek
09/25/2024

Multimodální rozhraní API analyzuje materiály obsahující obsah obrázků i textový obsah, aby aplikace a služby byly bezpečnější před škodlivým uživatelem generovaným nebo vygenerovaným obsahem AI. Analýza obrázku a souvisejícího textového obsahu společně může zachovat kontext a poskytnout komplexnější porozumění obsahu.

Další informace o způsobu filtrování obsahu najdete na stránce konceptů kategorií škod. Informace o limitech vstupu rozhraní API najdete v části Požadavky na vstup v části Přehled.

Důležité

Tato funkce je dostupná jenom v určitých oblastech Azure. Viz Dostupnost oblastí.

Požadavky

Předplatné Azure – Vytvoření předplatného zdarma
Jakmile budete mít předplatné Azure, vytvořte na webu Azure Portal prostředek zabezpečení obsahu, abyste získali svůj klíč a koncový bod. Zadejte jedinečný název vašeho prostředku, vyberte předplatné a vyberte skupinu prostředků, podporovanou oblast a podporovanou cenovou úroveň. Pak vyberte Vytvořit.
- Nasazení prostředku trvá několik minut. Po dokončení vyberte přejít k prostředku. V levém podokně v části Správa prostředků vyberte Klíč předplatného a koncový bod. Zkopírujte koncový bod a jednu z hodnot klíčů do dočasného umístění pro pozdější použití.
Nainstalujte jednu z následujících instalací:
- cURL pro volání rozhraní REST API.
- Nainstalovaný Python 3.x

Analýza obrázku s textem

Následující část vás provede ukázkovým požadavkem na moderování s vícemodálními režimy s cURL.

Příprava ukázkového obrázku

Vyberte ukázkový obrázek, který chcete analyzovat, a stáhněte si ho do zařízení.

Viz Požadavky na vstup pro omezení image. Pokud je váš formát animovaný, služba extrahuje první snímek, který provede analýzu.

Obrázek můžete zadat jednou ze dvou metod: místní souborový stream nebo adresu URL úložiště objektů blob.

Místní souborový stream (doporučeno): Zakódujte image na base64. K kódování můžete použít web, jako je kódování kódu . Potom zakódovaný řetězec uložte do dočasného umístění.
Adresa URL úložiště objektů blob: Nahrajte obrázek do účtu služby Azure Blob Storage. V rychlém startu pro úložiště objektů blob se dozvíte, jak to udělat. Pak otevřete Průzkumník služby Azure Storage a získejte adresu URL k obrázku. Uložte ho do dočasného umístění.

Analýza obrázku s textem

Vložte následující příkaz do textového editoru a proveďte následující změny.

Nahraďte <endpoint> adresou URL koncového bodu prostředku.
<your_subscription_key> nahraďte tímto klíčem.
Naplňte "image" pole v těle pole polem "content" nebo polem "blobUrl" . Například: {"image": {"content": "<base_64_string>"} nebo {"image": {"blobUrl": "<your_storage_url>"}.
Volitelně nahraďte hodnotu "text" pole vlastním textem, který chcete analyzovat.

curl --location '<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15-preview ' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data '{
  "image": {
      "content": "<base_64_string>"
 },
  "categories": ["Hate","Sexual","Violence","SelfHarm"],
  "enableOcr": true,
  "text": "I want to kill you"
}'

Poznámka:

Pokud používáte adresu URL úložiště objektů blob, text požadavku by měl vypadat takto:

{
  "image": {
    "blobUrl": "<your_storage_url>"
  }
}

Následující pole musí být zahrnuta v adrese URL:

Název	Povinný?	Popis	Typ
Verze rozhraní API	Požaduje se	Toto je verze rozhraní API, která se má zkontrolovat. Aktuální verze je: `api-version=2024-09-15`. Příklad: `<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15`	String

Parametry v textu požadavku jsou definovány v této tabulce:

Název	Popis	Typ
content or blobUrl	(Povinné) Adresa URL obsahu nebo objektu blob obrázku. Můžu mít buď bajty kódování base64, nebo adresu URL objektu blob. Pokud jsou oba uvedeny, žádost se odmítne. Maximální povolená velikost obrázku je 7 200 × 7 200 pixelů a maximální velikost souboru je 4 MB. Minimální velikost obrázku je 50 pixelů x 50 pixelů.	String
text	(Volitelné) Text připojený k obrázku V jednom textovém požadavku podporujeme maximálně 1000 znaků (body kódu Unicode).	String
enableOcr	(Povinné) Když je nastavená hodnota true, naše služba provede OCR a analyzuje rozpoznaný text se vstupním obrázkem najednou. Ze vstupního obrázku rozpoznáme maximálně 1000 znaků (body kódu Unicode). Ostatní budou zkráceni.	Logická hodnota
Kategorie	(Volitelné) Předpokládá se, že se jedná o pole názvů kategorií. Seznam dostupných názvů kategorií najdete v průvodci kategoriemi škod. Pokud nejsou zadány žádné kategorie, použijí se všechny čtyři kategorie. K získání skóre v jednom požadavku používáme více kategorií.	Výčet

Otevřete okno příkazového řádku a spusťte příkaz cURL.

Výstup

V konzole by se měly zobrazit výsledky moderování obrázků a textu jako data JSON. Příklad:

{
  "categoriesAnalysis": [
    {
      "category": "Hate",
      "severity": 2
    },
    {
      "category": "SelfHarm",
      "severity": 0
    },
    {
      "category": "Sexual",
      "severity": 0
    },
    {
      "category": "Violence",
      "severity": 0
    }
  ]
}

Pole JSON ve výstupu jsou definována tady:

Název	Popis	Typ
categoriesAnalysis	Každá výstupní třída, kterou rozhraní API predikuje. Klasifikaci lze označit více popisky. Když se například obrázek nahraje do modelu moderování obrázků, může se klasifikovat jako sexuální obsah i násilí. Kategorie škod	String
Závažnost	Úroveň závažnosti příznaku v každé kategorii škod. Kategorie škod	Celé číslo

Sdílet prostřednictvím

Rychlý start: Analýza multimodálního obsahu (Preview)

Požadavky

Analýza obrázku s textem

Příprava ukázkového obrázku

Analýza obrázku s textem

Výstup

Váš názor

Další materiály