Visão de IA do Azure

Concluído

Embora seja possível treinar seus próprios modelos de machine learning para pesquisa visual computacional, a arquitetura dos modelos de pesquisa visual computacional pode ser complexa e são necessários volumes significativos de imagens de treinamento e poder de computação para realizar o processo de treinamento.

O serviço Visão de IA do Azure da Microsoft oferece modelos de pesquisa visual computacional pré-construídos e personalizáveis que se baseiam no modelo de base Florence e fornecem vários recursos avançados. Com o Visão de IA do Azure, é possível criar soluções sofisticadas de pesquisa visual computacional de forma rápida e fácil, aproveitando a funcionalidade "pronta para uso" para muitos cenários comuns de pesquisa visual computacional e, ao mesmo tempo, mantendo a capacidade de criar modelos personalizados usando suas próprias imagens.

Recursos do Azure para o serviço de Visão de IA do Azure

Para usar a Visão de IA do Azure, você precisa criar um recurso para ele em sua assinatura do Azure. Você pode usar qualquer um dos seguintes tipos de recurso:

  • Visão de IA do Azure: Um recurso específico para o serviço Visão de IA do Azure. Use esse tipo de recurso se você não pretende usar nenhum outro serviço de IA do Azure ou se desejar rastrear a utilização e os custos do seu recurso do Visão de IA do Azure separadamente.
  • Serviços de IA do Azure: Um recurso geral que inclui o Visão de IA do Azure juntamente com muitos outros serviços de IA do Azure, como o Linguagem de IA do Azure, o Visão Personalizada de IA do Azure, o Tradutor de IA do Azure e outros. Use esse tipo de recurso se planejar usar vários serviços de IA e desejar simplificar a administração e o desenvolvimento.

Análise de imagens com o serviço Visão de IA do Azure

Depois de criar um recurso adequado na sua assinatura, você pode enviar imagens para que o serviço de Visão de IA do Azure execute uma ampla gama de tarefas analíticas.

O Visão de IA do Azure dá suporte a vários recursos de análise de imagem, incluindo:

  • Reconhecimento óptico de caracteres (OCR) - extração de texto de imagens.
  • Geração de legendas e descrições de imagens.
  • Detecção de milhares de objetos comuns em imagens.
  • Marcação de recursos visuais em imagens

Essas e outras tarefas podem ser realizadas no Estúdio do Visão de IA do Azure.

Screenshot of Vision Studio.

Reconhecimento óptico de caracteres

O serviço Visão de IA do Azure pode usar recursos de reconhecimento óptico de caracteres (OCR) para detectar texto em imagens. Por exemplo, considere a seguinte imagem de um rótulo nutricional em um produto em um supermercado:

Diagram of a nutrition label.

O serviço Visão de IA do Azure pode analisar essa imagem e extrair o texto a seguir:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Dica

É possível explorar mais os recursos de OCR do Visão de IA do Azure no módulo Leitura de texto com o Visão de IA do Azure no Microsoft Learn.

Descrição de uma imagem com legendas

A Visão de IA do Azure tem a capacidade de analisar uma imagem, avaliar os objetos detectados e gerar uma frase ou sentença legível por humanos que possa descrever o que foi detectado na imagem. Por exemplo, considere a seguinte imagem:

Diagram of a man on a skateboard.

O Visão de IA do Azure retorna a seguinte legenda para essa imagem:

Um homem pulando em um skate

Detecção de objetos comuns em uma imagem

O Visão de IA do Azure pode identificar milhares de objetos comuns em imagens. Por exemplo, quando usado para detectar objetos na imagem do skatista discutida anteriormente, o Visão de IA do Azure retorna as seguintes previsões:

  • Skate (90,40%)
  • Pessoa (95,5%)

As previsões incluem uma pontuação de confiança que indica a probabilidade que o modelo calculou para os objetos previstos.

Além dos rótulos de objetos detectados e suas probabilidades, o Visão de IA do Azure retorna as coordenadas da caixa delimitadora que indicam a parte superior, a esquerda, a largura e a altura do objeto detectado. É possível usar essas coordenadas para determinar o local em que cada objeto foi detectado na imagem, da seguinte forma:

Diagram of a skateboarder with bounding boxes around detected objects.

Marcação de recursos visuais

O Visão de IA do Azure pode sugerir marcas para uma imagem com base em seu conteúdo. Essas marcas podem ser associadas à imagem como metadados que resumem os atributos da imagem e podem ser úteis se você quiser indexar uma imagem junto com um conjunto de termos-chave que podem ser utilizados para pesquisar imagens com atributos ou conteúdos específicos.

Por exemplo, as marcas retornadas para a imagem do skatista (com as pontuações de confiança associadas) incluem:

  • esporte (99,60%)
  • pessoa (99,56%)
  • calçados (98,05%)
  • patinação (96,27%)
  • esportes com prancha (95,58%)
  • equipamento de skate (94,43%)
  • roupas (94,02%)
  • parede (93,81%)
  • skate (93,78%)
  • skatista (93,25%)
  • esportes individuais (92,80%)
  • acrobacias de rua (90,81%)
  • balanço (90,81%)
  • pular (89,87%)
  • equipamentos esportivos (88,61%)
  • esporte extremo (88,35%)
  • kickflip (88,18%)
  • manobra (87.27%)
  • skate (86,87%)
  • praticante de acrobacias (85,83%)
  • joelho (85,30%)
  • esportes (85,24%)
  • longboard (84,61%)
  • longboarding (84,45%)
  • andando (73.37%)
  • skate (67,27%)
  • ar (64,83%)
  • jovens (63,29%)
  • ao ar livre (61,39%)

Treinamento de modelos personalizados

Se os modelos internos fornecidos pelo Visão de IA do Azure não atenderem às suas necessidades, você poderá usar o serviço para treinar um modelo personalizado para classificação de imagens ou detecção de objetos. O Visão de IA do Azure cria modelos personalizados no modelo de fundação pré-treinado, o que significa que é possível treinar modelos sofisticados usando relativamente poucas imagens de treinamento.

Classificação de imagens

Um modelo de classificação de imagem é usado para prever a categoria, ou classe, de uma imagem. Por exemplo, você pode treinar um modelo para determinar qual tipo de fruta é mostrado em uma imagem, como esta:

Apple Banana Orange
Diagram of an apple. Diagram of a banana. Diagram of an orange.

Detecção de objetos

Os modelos de detecção de objetos detectam e classificam objetos em uma imagem, retornando as coordenadas da caixa delimitadora para localizar cada objeto. Além dos recursos internos de detecção de objetos no Visão de IA do Azure, é possível treinar um modelo personalizado de detecção de objetos com suas próprias imagens. Por exemplo, você pode usar fotografias de frutas para treinar um modelo que detecta várias frutas em uma imagem, como esta:

Diagram of multiple detected fruits in an image.

Observação

Os detalhes de como usar o Visão de IA do Azure para treinar um modelo personalizado estão além do escopo deste módulo. É possível encontrar informações sobre o treinamento de modelos personalizados na documentação do Visão de IA do Azure.