Visão geral da percepção de detecção de cena, tomada e quadro-chave
Detecção de cena, tomada, quadro-chave
A detecção de cena detecta quando uma cena muda em um vídeo com base em dicas visuais.
Uma cena retrata um único evento e é composta por uma série de tomadas, que estão relacionadas.
As tomadas são uma série de quadros que se distinguem por dicas visuais, como transições abruptas e graduais no esquema de cores de quadros adjacentes. Os metadados da tomada incluem a hora de início e término, bem como uma lista de quadros-chave incluídos na tomada.
Um quadro-chave é um quadro de uma captura que melhor representa uma captura.
Casos de uso de detecção de cena, tomada e quadro-chave
- Navegue, gerencie e edite facilmente seu conteúdo de vídeo com base em granularidades variadas.
- Use a detecção de tipo de captura editorial para editar vídeos em clipes, trailers ou ao pesquisar um estilo específico de quadro-chave.
Detecção de cena
O Azure AI Video Indexer determina quando uma cena é alterada no vídeo com base em indicações visuais. Uma cena representa um único evento e é composta por uma série de tomadas consecutivas, que estão semanticamente relacionadas.
Uma miniatura de cena é o primeiro quadro-chave de sua captura subjacente.
O Azure AI Video Indexer segmenta um vídeo em cenas com base na coerência de cores em capturas consecutivas e recupera a hora de início e término de cada cena.
Os vídeos devem conter pelo menos três cenas.
Detecção de captura
O Azure AI Video Indexer determina quando uma captura é alterada no vídeo com base em indicações visuais, detectando transições abruptas e graduais no esquema de cores e outros recursos visuais de quadros adjacentes. Os metadados da captura incluem uma hora de início e de término, assim como a lista de quadros-chave incluídos nessa captura. As capturas são quadros consecutivos tirados da mesma câmera ao mesmo tempo.
Observação
Pode haver uma lacuna entre as fotos que inclui quadros que fazem parte da transição. Portanto, esses quadros não são considerados parte da foto.
Detecção de tipo de foto editorial de quadro-chave
O tipo de captura é determinado com base na análise do primeiro quadro-chave de cada captura. As capturas são identificadas pela escala, pelo tamanho e pelo local das faces que aparecem no primeiro quadro-chave.
O tamanho e a escala da captura são determinados com base na distância entre a câmera e as faces que aparecem no quadro. Usando essas propriedades, o Azure AI Video Indexer detecta os seguintes tipos de captura:
- Ampla: mostra o corpo inteiro de uma pessoa.
- Mediana: mostra o rosto e a parte superior do corpo de uma pessoa.
- Aproximada: mostra principalmente o rosto de uma pessoa.
- Bem aproximada: mostra o rosto de uma pessoa preenchendo toda a tela.
Os tipos de captura também podem ser determinados pelo posição dos caracteres de assunto em relação ao centro do quadro. Essa propriedade define os seguintes tipos de captura no Azure AI Video Indexer:
- Face esquerda: a pessoa aparece no lado esquerdo do quadro.
- Face central: a pessoa aparece na região central do quadro.
- Face direita: a pessoa aparece no lado direito do quadro.
- Externo: a pessoa aparece em um ambiente externo.
- Interno: a pessoa aparece em um ambiente interno.
Características adicionais:
- Duas capturas: mostra os rostos de duas pessoas em tamanho médio.
- Vários rostos: mais de duas pessoas.
Exibir o JSON do insight com o portal da Web
Depois de carregar e indexar um vídeo, os insights estarão disponíveis no formato JSON para download usando o portal da Web.
- Selecione a guia Biblioteca.
- Selecione a mídia com a qual deseja trabalhar.
- Selecione Baixar e o JSON (Insights). O arquivo JSON é aberto em uma nova guia do navegador.
- Procure o par de chaves descrito na resposta de exemplo.
Usar a API
- Use a solicitação Obter índice de vídeo. Recomendamos passar
&includeSummarizedInsights=false
. - Procure os pares de chaves descritos na resposta de exemplo.
Exemplo de resposta
"scenes": [
{
"id": 1,
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:09.1333333",
"start": "0:00:00",
"end": "0:00:09.1333333"
}
]
},
{
"id": 2,
"instances": [
{
"adjustedStart": "0:00:09.1333333",
"adjustedEnd": "0:00:10.8",
"start": "0:00:09.1333333",
"end": "0:00:10.8"
}
]
},
{
"id": 3,
"instances": [
{
"adjustedStart": "0:00:10.8",
"adjustedEnd": "0:00:26.9333333",
"start": "0:00:10.8",
"end": "0:00:26.9333333"
}
]
}...
{
"id": 31,
"instances": [
{
"adjustedStart": "0:18:45",
"adjustedEnd": "0:18:50.2",
"start": "0:18:45",
"end": "0:18:50.2"
}
]
}
],
"shots": [
{
"id": 1,
"tags": [
"Wide",
"Medium"
],
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
"adjustedStart": "0:00:00.1666667",
"adjustedEnd": "0:00:00.2",
"start": "0:00:00.1666667",
"end": "0:00:00.2"
}
]
},
{
"id": 2,
"instances": [
{
"thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
"adjustedStart": "0:00:00.2333333",
"adjustedEnd": "0:00:00.2666667",
"start": "0:00:00.2333333",
"end": "0:00:00.2666667"
}
]
}
],
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:01.9333333",
"start": "0:00:00",
"end": "0:00:01.9333333"
}
]
},
{
"id": 2,
"tags": [
"Medium"
],
"keyFrames": [
{
"id": 3,
"instances": [
{
"thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
"adjustedStart": "0:00:02",
"adjustedEnd": "0:00:02.0333333",
"start": "0:00:02",
"end": "0:00:02.0333333"
}
]
}
],
"instances": [
{
"adjustedStart": "0:00:01.9333333",
"adjustedEnd": "0:00:02.9666667",
"start": "0:00:01.9333333",
"end": "0:00:02.9666667"
}
]
}...
Baixar os quadros-chave com a API
Para baixar cada quadro-chave, use as IDs de quadro-chave com a solicitação Obter miniaturas .
Aviso
Não recomendamos que você use dados diretamente da pasta de artefatos para fins de produção. Os artefatos são saídas intermediárias do processo de indexação. Eles são essencialmente saídas brutas dos vários mecanismos de IA que analisam os vídeos. O esquema de artefatos pode mudar com o tempo.
Importante
É importante ler a visão geral da nota de transparência para todos os recursos do VI. Cada insight também tem suas próprias notas de transparência:
Notas de detecção de cena, captura e quadro-chave
- O detector funciona melhor em arquivos de mídia que contêm fotos e cenas dentro deles.
- Se o vídeo for filmado com uma câmera que nunca se move, a segmentação da tomada funcionará mal e os quadros-chave poderão não ser representativos.
- Os quadros-chave são selecionados levando em consideração o nível de desfoque dos quadros. Se a maior parte da foto estiver desfocada, por exemplo, com movimento, o quadro-chave também poderá estar desfocado.
- Vídeos com baixa qualidade visual produzem resultados ruins.
- O tempo de cada foto/cena/quadro-chave pode mudar (menos de um segundo).
Componentes de cena, tomada e quadro-chave
Nenhum componente definido.