Escolha uma tecnologia de processamento de imagem e vídeo de IA do Azure

Artigo
10/07/2024

Os serviços de IA do Azure ajudam os desenvolvedores e as organizações a criar aplicativos inteligentes, de ponta, prontos para o mercado e responsáveis com APIs e modelos prontos para uso, predefinidos e personalizáveis.

Este artigo aborda os serviços de IA do Azure que oferecem recursos de processamento de vídeo e imagem, como análise visual e geração de imagens, detecção de objetos, classificação de imagens e reconhecimento facial.

Serviços

Os seguintes serviços fornecem recursos de processamento de vídeo e imagem para serviços de IA do Azure:

OpenAI do Azure
- Use o OpenAI do Azure para geração de imagens a partir de linguagem natural usando modelos de geração de imagens pré-treinados. Por exemplo, geração sob demanda de arte personalizada.
- Use o OpenAI do Azure quando você precisar realizar análises amplas e não específicas em imagens. Por exemplo, gerar descrições de acessibilidade.
- Não use o OpenAI do Azure se você quiser usar modelos de geração de imagens de código-fonte aberto disponíveis no Azure Machine Learning.
- Não use o OpenAI do Azure se precisar executar tipos específicos de processamento de imagem, como extração de formulários, reconhecimento facial ou detecção de características de imagem especializada em domínio. Para esses cenários, use ou crie soluções de IA projetadas especificamente treinadas para essas finalidades.
Visão de IA do Azure
- Use o serviço Vision quando precisar de reconhecimento óptico de caracteres (OCR) básico, análise de imagem ou análise básica de vídeo para detectar movimento e outros eventos.
- Não use o serviço Visão para análises que já são suportadas por modelos grandes, multimodais e de fundação.
- Não use o serviço Visão para moderar conteúdo. Em vez disso, use o serviço de Segurança de conteúdo.
Visão Personalizada de IA do Azure
- Use o serviço quando tiver requisitos específicos que a análise de imagem do serviço básico de Visão não pode fornecer. Por exemplo, é bom para reconhecer objetos incomuns, defeitos de fabricação ou fornecer classificações personalizadas detalhadas.
- Não use o serviço se precisar de detecção básica de objetos ou detecção facial. Em vez disso, use os serviços de Detecção Facial ou Visão.
- Não use o serviço para análise visual básica. Em vez disso, use modelos com capacidade de visão do OpenAI do Azure ou modelos de código aberto no Azure Machine Learning.
Detecção Facial da IA do Azure
- Use o serviço de Detecção Facial quando você precisa verificar se os rostos são reais ou falsificados/falsos, ou para identificar, agrupar ou encontrar rostos semelhantes.
- Não use o serviço de Detecção facial para detectar emoções em rostos ou realizar outro raciocínio de alto nível sobre rostos. Em vez disso, use modelos de linguagem multimodal para essas tarefas.
Azure AI Video Indexer
- Use o serviço Azure Video Indexer para tarefas relacionadas à análise de vídeo mais avançadas que a análise de vídeo básica do serviço de Visão não pode fornecer.
- Não use o serviço Azure Video Indexer para tarefas básicas de análise de vídeo, como contagem de pessoas e detecção de movimento e eventos. A análise básica de vídeo do serviço Visão é mais econômica para essas tarefas.

OpenAI do Azure

O OpenAI do Azure fornece acesso aos poderosos modelos de linguagem da OpenAI, incluindo a última geração de modelos GPT. Eles suportam análise visual e gerações de imagens, e o DALL-E suporta a geração de imagens.

Visão de IA do Azure

A Visão de IA do Azure fornece algoritmos avançados que processam imagens e retornam informações com base nos recursos visuais nos quais você está interessado. Ele oferece quatro serviços: OCR, serviço de Detecção Facial, análise espacial e de imagem.

Funcionalidades

A tabela a seguir fornece uma lista de recursos disponíveis no serviço de Visão de IA do Azure.

Capacidade	Descrição
OCR (reconhecimento óptico de caracteres)	O serviço de OCR (reconhecimento óptico de caracteres) extrai textos de imagens. Você pode usar a API de Leitura para extrair texto impresso e manuscrito de fotos e documentos. Ela usa os modelos baseados em aprendizado profundo e trabalha com textos em uma variedade de superfícies e em segundo plano. Eles incluem documentos comerciais, faturas, recibos, cartazes, cartões de visita, cartas e quadros de comunicação. As APIs de OCR dão suporte à extração de texto impresso em vários idiomas.
Análise de imagens	O serviço Image Analysis extrai muitos recursos visuais de imagens, como objetos, rostos e descrições de texto geradas automaticamente. Com o Image Analysis 4.0 baseado no modelo básico do Florence, você também pode criar modelos de identificador de imagem personalizados.
Análise de Vídeo	A Análise de Vídeo inclui recursos relacionados a vídeo, como Análise Espacial e Recuperação de Vídeo. A Análise Espacial analisa a presença e o movimento de pessoas em um feed de vídeo e produz eventos aos quais outros sistemas podem responder.

Visão Personalizada de IA do Azure

O serviço de Visão Personalizada de IA do Azure é um serviço de reconhecimento de imagens que permite criar, implantar e aprimorar seus próprios modelos de identificadores de imagens. Um identificador de imagem aplica rótulos a imagens de acordo com as características visuais. Cada rótulo representa uma classificação ou um objeto. A Visão Personalizada permite que você especifique seus próprios rótulos e treine modelos personalizados para detectá-los.

O serviço Custom Vision usa um algoritmo de aprendizado de máquina para analisar imagens em busca de recursos personalizados. Você envia conjuntos de imagens que possuem ou não as características visuais que você procura. Em seguida, você rotula as imagens com seus próprios rótulos (tags) no momento do envio. O algoritmo treina com esses dados e calcula a própria precisão se testando com as mesmas imagens. Depois que você treinou o modelo, pode testá-lo, retreiná-lo e, eventualmente, usá-lo em seu aplicativo de reconhecimento de imagem para classificar imagens ou detectar objetos. Você também pode exportar o modelo para uso offline.

Funcionalidades

A tabela a seguir fornece uma lista dos recursos disponíveis no serviço de Visão Personalizada de IA do Azure.

Capacidade	Descrição
Classificação de imagens	Prever uma categoria, ou classe, com base em um conjunto de entradas, que são chamadas de recursos. Calcular uma pontuação de probabilidade para cada classe possível e retornar um rótulo que indique a classe à qual o objeto provavelmente pertence. Para usar este modelo de classificação de imagem, você precisa de dados que consistem em recursos e seus rótulos.
Detecção de objetos	Obter as coordenadas de um objeto em uma imagem. Para usar este modelo de classificação de imagem, você precisa de dados que consistem em recursos e seus rótulos

Casos de uso

A tabela a seguir fornece uma lista de possíveis casos de uso para o serviço de Visão Personalizada de IA do Azure.

Caso de uso	Descrição
usar a Visão Personalizada com um dispositivo IoT para relatar estados visuais	Usar a Visão Personalizada para treinar um dispositivo com uma câmera para detectar estados visuais. Você pode executar esse cenário de detecção em um dispositivo IoT usando um modelo ONNX exportado. Um estado visual descreve o conteúdo de uma imagem: uma sala vazia ou uma sala com pessoas, uma garagem vazia ou uma garagem com um caminhão, e assim por diante.
Reconhecer logotipos em imagens de câmeras	Analise fotos, procurando logotipos específicos.

Detecção Facial da IA do Azure

O serviço de Detecção Facial do Azure fornece algoritmos de IA para detectar, reconhecer e analisar rostos humanos em imagens. O software de reconhecimento facial é importante em muitos cenários, como identificação, controle de acesso sem toque e desfoque automático de rosto para maior privacidade.

Funcionalidades

A tabela a seguir fornece uma lista de recursos disponíveis no serviço de Detecção Facial de IA do Azure.

Capacidade	Descrição
Detecção facial e análise	Identificar regiões de uma imagem que contêm um rosto humano, normalmente retornando as coordenadas da caixa delimitadora que formam um retângulo em volta do rosto.
Encontrar rostos semelhantes	A operação de Localização de Semelhantes faz a correspondência facial entre um rosto de destino e um conjunto de rostos candidatos, encontrando um conjunto menor de rostos que são mais semelhantes ao rosto de destino. Isso é útil para fazer uma pesquisa facial por imagem.
Agrupar rostos	A operação de agrupamento divide um conjunto de rostos desconhecidos em vários grupos menores baseados em semelhança. Cada grupo é um devido subconjunto separado do conjunto original de rostos. Ele também retorna uma única matriz "messyGroup" que contém as IDs de rosto para as quais nenhuma semelhança foi encontrada.
Identificação	A identificação facial pode lidar com uma correspondência "um para muitos" de um rosto em uma imagem com um conjunto de rostos em um repositório seguro. Os candidatos correspondentes são retornados com base em quão próximo os dados faciais deles correspondem ao rosto da consulta.
Operações de reconhecimento facial	Empresas e aplicativos modernos podem usar as tecnologias de Reconhecimento facial, incluindo a Verificação facial (correspondência “um para um”) e a Identificação facial (correspondência “um para muitos”) para confirmar se um usuário é quem ele diz ser.
Detecção de atividade	A detecção de vivacidade é um recurso antifalsificação que verifica se um usuário está fisicamente presente na frente da câmera. Ela é usada para evitar ataques de falsificação que usam uma foto impressa, um vídeo ou uma máscara 3D do rosto do usuário.

Casos de uso

A tabela a seguir fornece uma lista de possíveis casos de uso para o serviço de Detecção Facial da IA do Azure

Caso de uso	Descrição
Verifique a identidade do usuário.	Verificar uma pessoa em relação a uma imagem de rosto confiável. Essa verificação pode ser usada para conceder acesso a propriedades digitais ou físicas. Na maioria dos casos, a imagem de rosto confiável pode vir de um documento de identidade emitido pelo governo, como passaporte ou carteira de motorista, ou de uma foto de inscrição tirada pessoalmente. Durante a verificação, a detecção de atividade pode desempenhar um papel crítico na verificação de que a imagem vem de uma pessoa real, não de uma foto ou máscara impressa.
Redação de face	Edite ou desfoque rostos de pessoas detectados e gravados em um vídeo para proteger a privacidade delas.
Controle de acesso sem toque.	Em comparação com os métodos, como cartões ou tíquetes, a identificação facial de aceitação habilita uma experiência de controle de acesso aprimorada, reduzindo os riscos à higiene e segurança decorrentes do compartilhamento, da perda ou do roubo de mídia física. O reconhecimento facial auxilia o processo de check-in com um humano no loop para check-ins em aeroportos, estádios, parques temáticos ou edifícios, recepção em escritórios, hospitais, academias, clubes ou escolas.

Azure AI Video Indexer

O Azure AI Video Indexer é um aplicativo de nuvem, parte dos serviços de IA do Azure, criado com base nos serviços de IA do Azure (como Detecção Facial, Tradução, Visão de IA do Azure e Fala). Ele permite que você extraia insights dos seus vídeos usando os modelos de vídeo e áudio do Azure AI Video Indexer.

Funcionalidades

A tabela a seguir fornece uma lista de alguns dos recursos disponíveis no serviço Azure AI Video Indexer.

Capacidade	Descrição
Identificação e transcrição de fala em vários idiomas	Identifica o idioma falado em diferentes segmentos de áudio. Ele envia cada segmento do arquivo de mídia a ser transcrito e, em seguida, combina a transcrição em uma transcrição unificada.
Detecção facial	Detecta e agrupa rostos que aparecem no vídeo.
Identificação de celebridade	Identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores, líderes dos negócios e do setor de tecnologia em todo o mundo. Os dados sobre esses celebridades também podem ser encontrados em vários sites (IMDB, Wikipédia e assim por diante).
Identificação de rosto baseada em conta	Treina um modelo para uma conta específica. Em seguida, ele reconhece os rostos no vídeo com base no modelo treinado.
Acompanhamento observado de pessoas (versão prévia)	Detecta pessoas observadas em vídeos e fornece informações como a localização da pessoa no quadro do vídeo (usando caixas delimitadoras) e o registro de data e hora exato (início, fim) e a confiança quando uma pessoa aparece.
Transcrição de áudio	Converte fala em texto em mais 50 idiomas e permite extensões.
Detecção de idioma	Identifica automaticamente o idioma dominante falado.
Redução de ruído	Limpa gravações com ruídos ou áudio com telefonia (com base nos filtros do Skype).
Tradução	Cria traduções da transcrição de áudio para vários idiomas diferentes.

Para examinar mais recursos do serviço Azure AI Video Indexer, consulte a documentação do Azure AI Video Indexer.

Casos de uso

A tabela a seguir fornece uma lista de possíveis casos de uso para o serviço Azure AI Video Indexer.

Caso de uso	Descrição
Pesquisa avançada	Use os insights extraídos do vídeo para aprimorar a experiência de pesquisa em uma biblioteca de vídeos. Por exemplo, a indexação das palavras faladas e faces pode habilitar a experiência de pesquisa para localizar momentos em um vídeo em que pessoa falou certas palavras ou quando duas pessoas foram vistas junto. A pesquisa com base em tais informações de vídeos é aplicável a agências de notícias, instituições de ensino, emissoras, proprietários de conteúdo de entretenimento, aplicativos de linha de negócios e, em geral, a qualquer setor que tenha uma biblioteca de vídeos que os usuários precisam pesquisar.
Criação de conteúdo	Crie trailers, melhores momentos, conteúdo de redes sociais ou clipes de notícias com base nos insights que o Azure AI Video Indexer extrai do seu conteúdo. Quadros-chave, marcadores de cenas, carimbos de data/hora das pessoas e aparências de rótulo tornam o processo de criação mais tranquilo e fácil, permitindo facilmente obter as partes do vídeo que você precisa ao criar conteúdo.
Acessibilidade	Caso você queira disponibilizar o conteúdo para pessoas com deficiências ou se quiser que seu conteúdo seja distribuído em regiões diferentes com outros idiomas, você poderá usar a transcrição e a tradução fornecidas pelo Azure AI Video Indexer em vários idiomas.
Monetização	O Azure AI Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, setores que dependem da receita de anúncios (mídia de notícias, redes sociais e outros) podem fornecer anúncios relevantes usando os insights extraídos como sinais adicionais para o servidor de anúncios.
Moderação de conteúdo	Use modelos de moderação de conteúdo visual e textual para manter seus usuários protegidos contra conteúdo inadequado e validar que o conteúdo publicado por você corresponde aos valores da sua organização. Você pode bloquear automaticamente determinados vídeos ou alertar os usuários sobre o conteúdo.
Recomendações	Os insights do vídeo podem ser usados para melhorar a participação do usuário destacando os momentos do vídeo relevantes para os usuários. Ao marcar cada vídeo com metadados adicionais, você poderá recomendar os vídeos mais relevantes e realçar as partes do vídeo que corresponderão às necessidades dos seus usuários.

Compartilhar via

Escolha uma tecnologia de processamento de imagem e vídeo de IA do Azure

Serviços

OpenAI do Azure

Visão de IA do Azure

Funcionalidades

Visão Personalizada de IA do Azure

Funcionalidades

Casos de uso

Detecção Facial da IA do Azure

Funcionalidades

Casos de uso

Azure AI Video Indexer

Funcionalidades

Casos de uso

Próximas etapas

Comentários

Recursos adicionais

Compartilhar via

Escolha uma tecnologia de processamento de imagem e vídeo de IA do Azure

Serviços

OpenAI do Azure

Visão de IA do Azure

Funcionalidades

Visão Personalizada de IA do Azure

Funcionalidades

Casos de uso

Detecção Facial da IA do Azure

Funcionalidades

Casos de uso

Azure AI Video Indexer

Funcionalidades

Casos de uso

Próximas etapas

Recursos relacionados

Comentários

Recursos adicionais