Introdução à Análise de Vídeo Inteligente

Concluído

Todos os dias, as câmeras de vídeo produzem quantidades enormes de dados em áreas de negócios populares. Essas áreas incluem hospital, produção, varejo e ambientes de cidades inteligentes. Muitas dessas implantações podem ser aprimoradas com a adição do IA que opera nos dados produzidos pelos sensores das câmeras em tempo real.

Imagine ser capaz de monitorar o cumprimento de políticas de saúde ou a adesão a protocolos de segurança em locais de trabalho, adaptar-se à demografia dos clientes ou responder a eventos de tráfego de maneira automatizada. Você pode realizar tudo isso usando soluções baseadas em vídeo que aplicam a IA a dispositivos de Internet das Coisas implantados na borda.

Nós nos referimos a esses tipos de soluções como aplicativos de IVA (Análise de Vídeo Inteligente). Eles extraem insights úteis por meio da aplicação de algoritmos de pesquisa visual computacional que operam em quadros de vídeo ao vivo. Esta tabela descreve três tipos de algoritmos de pesquisa visual computacional:

Algoritmo de pesquisa visual computacional Funcionalidades
Detecção de objetos Captura de tela mostrando um exemplo de detecção de objetos com pesquisa visual computacional. Modelos de detecção de objetos são treinados para classificar objetos individuais em uma imagem e identificar sua localização com uma caixa delimitadora. Por exemplo, uma solução de monitoramento de tráfego pode usar a detecção de objetos para identificar a localização de várias classes de veículos.
Classificação de imagem Captura de tela mostrando um exemplo de classificação de imagem com pesquisa visual computacional. A classificação de imagem envolve treinar um modelo de machine learning para classificar imagens com base em seu conteúdo. Por exemplo, considere uma solução de monitoramento de tráfego. Você pode usar um modelo de classificação de imagem para classificar imagens com base no tipo de veículo que contêm, como táxis, ônibus, bicicletas e assim por diante.
Rastreamento de objetos Captura de tela mostrando um exemplo de rastreamento de objetos com pesquisa visual computacional. Você pode aplicar o rastreamento de objeto a um objeto detectado por meio da detecção de objetos. O objeto recebe uma identidade que você pode referenciar por meio de passagens de inferência sucessivas em um pipeline de IVA. Por exemplo, você pode usar o rastreamento de objetos para contar exemplos específicos de pessoas em uma área.

Você pode fazer avaliações poderosas usando esses algoritmos em combinação para obter uma funcionalidade conhecida como inferência em cascata. Veja um exemplo dessa técnica:

  1. Identifique um veículo e sua localização no quadro usando a detecção de objetos.
  2. Use um rastreador que atribua a cada veículo uma ID exclusiva para contar o número de veículos na área.
  3. Use um modelo de classificação de imagem para determinar a cor de cada veículo.

Depois que você estiver pronto para gerar insights dessa forma, empregue mais serviços para usar esses dados, descarregando-os nos serviços de nuvem do Microsoft Azure. No Azure, os dados podem ser processados dinamicamente, podem disparar tarefas de automação ou podem ser arquivados para análise histórica.

Habilitar o desenvolvimento de aplicativos de Análise de Vídeo Inteligente usando o NVIDIA DeepStream e o Azure

O NVIDIA DeepStream permite que você desenvolva aplicativos de Análise de Vídeo Inteligente que usem uma estrutura multiplataforma que você pode implantar na borda e se conectar aos serviços de nuvem. Essa estrutura permite definir visualmente pipelines de IVA usando uma ferramenta de desenvolvimento chamada NVIDIA Graph Composer. A ferramenta permite que você defina fontes de vídeo de arquivos, de uma câmera local ou de fluxos de vídeo RTSP em rede que podem alimentar diretamente operações de inferência única ou em cascata. Essas operações produzem insights que você pode encaminhar para os serviços de nuvem para processamento posterior. Ao fazer as tarefas locais pesadas de inferência computacional na borda, você pode reduzir a quantidade de dados necessários para transmitir insights e telemetria para a nuvem.

Diagrama mostrando a borda do DeepStream para a arquitetura de nuvem.

Requisitos de hardware e do sistema operacional

Para continuar com este módulo, você precisa ter acesso a um computador baseado em x86/AMD64 executando o Ubuntu 18.04. Você também precisa que sua máquina de desenvolvimento tenha uma das seguintes placas gráficas instaladas.

GPUs compatíveis com o DeepStream 6.0

  • RTX 2080

  • RTX 3080

  • Tesla T4

  • Ampere A100

    Observação

    Se você planeja usar uma máquina virtual para atender a esses requisitos, poderá encontrar problemas mais tarde neste roteiro de aprendizagem ao tentar iniciar o NVIDIA Graph Composer se estiver se conectando à sua VM por meio de uma sessão remota. Você ainda poderá continuar com o módulo, mas queremos garantir que você esteja ciente desse problema.

Experimente fazer isto

Considere cenários em que você poderia usar a pesquisa visual computacional para ajudar a automatizar uma tarefa ou simplificar um processo tradicionalmente complexo. O que os seus feeds de vídeo precisariam ver? Quais algoritmos da pesquisa visual computacional você precisaria usar para implementar a solução (detecção de objetos, classificação de imagem, rastreamento de objetos)?