Guia de início rápido: analisar conteúdo multimodal (visualização)

Artigo
09/25/2024

A API Multimodal analisa materiais que contêm conteúdo de imagem e conteúdo de texto para ajudar a tornar os aplicativos e serviços mais seguros contra conteúdo prejudicial gerado pelo usuário ou gerado por IA. Analisar uma imagem e seu conteúdo de texto associado juntos pode preservar o contexto e fornecer uma compreensão mais abrangente do conteúdo.

Para obter mais informações sobre a forma como o conteúdo é filtrado, consulte a página de conceito de categorias de danos. Para limites de entrada da API, consulte a seção Requisitos de entrada da Visão geral.

Importante

Esse recurso só está disponível em determinadas regiões do Azure. Consulte Disponibilidade da região.

Pré-requisitos

Uma assinatura do Azure - Crie uma gratuitamente
Depois de ter sua assinatura do Azure, crie um recurso de Segurança de Conteúdo no portal do Azure para obter sua chave e ponto de extremidade. Introduza um nome exclusivo para o seu recurso, selecione a sua subscrição e selecione um grupo de recursos, uma região suportada e um escalão de preços suportado. Depois, selecione Criar.
- O recurso leva alguns minutos para ser implantado. Depois que terminar, selecione ir para recurso. No painel esquerdo, em Gerenciamento de Recursos, selecione Chave de Assinatura e Ponto de Extremidade. Copie o ponto de extremidade e qualquer um dos valores-chave para um local temporário para uso posterior.
Um dos seguintes instalados:
- cURL para chamadas de API REST.
- Python 3.x instalado

Analise a imagem com texto

A seção a seguir percorre um exemplo de solicitação de moderação multimodal com cURL.

Preparar uma imagem de exemplo

Escolha uma imagem de exemplo para analisar e transfira-a para o seu dispositivo.

Consulte Requisitos de entrada para as limitações de imagem. Se o seu formato for animado, o serviço extrairá o primeiro quadro para fazer a análise.

Você pode inserir sua imagem por um dos dois métodos: fluxo de arquivos local ou URL de armazenamento de blob.

Fluxo de arquivos local (recomendado): Codifique sua imagem para base64. Você pode usar um site como codebeautify para fazer a codificação. Em seguida, salve a cadeia de caracteres codificada em um local temporário.
URL de armazenamento de Blob: carregue sua imagem em uma conta de Armazenamento de Blob do Azure. Siga o início rápido do armazenamento de blob para saber como fazer isso. Em seguida, abra o Gerenciador de Armazenamento do Azure e obtenha a URL para sua imagem. Salve-o em um local temporário.

Analise a imagem com texto

Cole o comando abaixo em um editor de texto e faça as seguintes alterações.

Substitua <endpoint> pelo URL do ponto de extremidade do recurso.
Substitua <your_subscription_key> pela sua chave.
Preencha o "image" campo no corpo com um "content" campo ou um "blobUrl" campo. Por exemplo: {"image": {"content": "<base_64_string>"} ou {"image": {"blobUrl": "<your_storage_url>"}.
Opcionalmente, substitua o "text" valor do campo pelo seu próprio texto que você gostaria de analisar.

curl --location '<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15-preview ' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data '{
  "image": {
      "content": "<base_64_string>"
 },
  "categories": ["Hate","Sexual","Violence","SelfHarm"],
  "enableOcr": true,
  "text": "I want to kill you"
}'

Nota

Se você estiver usando uma URL de armazenamento de blob, o corpo da solicitação deverá ter esta aparência:

{
  "image": {
    "blobUrl": "<your_storage_url>"
  }
}

Os campos abaixo devem ser incluídos no URL:

Nome	Necessário?	Description	Type
Versão da API	Necessário	Esta é a versão da API a ser verificada. A versão atual é: `api-version=2024-09-15`. Exemplo: `<endpoint>/contentsafety/imageWithText:analyze?api-version=2024-09-15`	String

Os parâmetros no corpo da solicitação são definidos nesta tabela:

Nome	Descrição	Type
conteúdo ou blobUrl	(Obrigatório) O conteúdo ou URL de blob da imagem. Posso ser bytes codificados em base64 ou um URL de blob. Se ambos forem apresentados, o pedido é recusado. O tamanho máximo permitido da imagem é de 7.200 x 7.200 pixels e o tamanho máximo do arquivo é de 4 MB. O tamanho mínimo da imagem é de 50 pixels x 50 pixels.	String
texto	(Opcional) O texto anexado à imagem. Suportamos no máximo 1000 caracteres (pontos de código unicode) em uma solicitação de texto.	String
enableOcr	(Obrigatório) Quando definido como true, nosso serviço irá executar OCR e analisar o texto detetado com imagem de entrada ao mesmo tempo. Vamos reconhecer no máximo 1000 caracteres (pontos de código unicode) da imagem de entrada. Os outros serão truncados.	Boolean
Categorias	(Opcional) Supõe-se que esta seja uma matriz de nomes de categoria. Consulte o Guia de categorias de danos para obter uma lista de nomes de categorias disponíveis. Se nenhuma categoria for especificada, todas as quatro categorias serão usadas. Usamos várias categorias para obter pontuações em uma única solicitação.	Enumeração

Abra uma janela de prompt de comando e execute o comando cURL.

Saída

Você deve ver os resultados da moderação de imagem e texto exibidos como dados JSON no console. Por exemplo:

{
  "categoriesAnalysis": [
    {
      "category": "Hate",
      "severity": 2
    },
    {
      "category": "SelfHarm",
      "severity": 0
    },
    {
      "category": "Sexual",
      "severity": 0
    },
    {
      "category": "Violence",
      "severity": 0
    }
  ]
}

Os campos JSON na saída são definidos aqui:

Nome	Descrição	Type
categoriasAnálise	Cada classe de saída que a API prevê. A classificação pode ser multi-labeled. Por exemplo, quando uma imagem é carregada para o modelo de moderação de imagem, ela pode ser classificada como conteúdo sexual e violência. Categorias de danos	String
Gravidade	O nível de gravidade da bandeira em cada categoria de dano. Categorias de danos	Número inteiro

Partilhar via

Guia de início rápido: analisar conteúdo multimodal (visualização)

Pré-requisitos

Analise a imagem com texto

Preparar uma imagem de exemplo

Analise a imagem com texto

Saída

Comentários

Recursos adicionais