Vue d’ensemble de la scène, de la capture, de la détection d’images clés

Article
10/09/2024

Scène, capture, détection d’images clés

La détection de scène détecte lorsqu’une scène change dans une vidéo en fonction des signaux visuels.

Une scène représente un événement unique et se compose d’une série de plans, qui sont liés.

Les captures sont une série d’images distinguées par des repères visuels tels que des transitions abruptes et progressives dans un jeu de couleurs de cadres adjacents. Les métadonnées de la capture incluent l’heure de début et de fin, ainsi qu’une liste d’images clés incluses dans la capture.

Un image clé est un cadre d’une capture qui représente le mieux un coup.

Cas d’utilisation de la scène, des captures et des images clés

Parcourez, gérez et modifiez facilement votre contenu vidéo en fonction de granularités variables.
Utilisez la détection de type de capture éditoriale pour modifier des vidéos dans des clips, des bandes-annonces ou lors de la recherche d’un style spécifique d’image clé.

Détection de scène

Azure AI Video Indexer détermine quand une scène change dans la vidéo en fonction des signaux visuels. Une scène représente un événement unique et se compose d’une série de captures consécutives, qui sont sémantiquement liées.

Une miniature de la scène constitue la première image clé de sa capture sous-jacente.

Azure AI Video Indexer segmente une vidéo en scènes en fonction de la cohérence des couleurs entre les captures consécutives et récupère l’heure de début et de fin de chaque scène.

Les vidéos doivent contenir au moins trois scènes.

Détection de plan

Azure AI Video Indexer détermine quand une capture change dans la vidéo en fonction des signaux visuels, en détectant les transitions abruptes et progressives dans le jeu de couleurs et d’autres caractéristiques visuelles des images adjacentes. Les métadonnées de la capture incluent un temps de début et de fin, ainsi que la liste des images clés inclues dans cette capture. Les captures sont des images consécutives prises de la même caméra et en même temps.

Remarque

Il peut y avoir un écart entre les plans qui incluent des images qui font partie de la transition. Ces images ne sont pas considérées comme faisant partie de la capture.

Détection de type de capture éditoriale d’images clés

Le type de tir est déterminé en fonction de l’analyse du premier image clé de chaque capture. Les plans sont identifiés par l’échelle, la taille et l’emplacement des visages apparaissant dans leur première image clé.

La taille et l’échelle du plan sont déterminées en fonction de la distance entre l’appareil photo et les visages apparaissant dans l’image. À l’aide de ces propriétés, Azure AI Video Indexer détecte les types de captures suivants :

Large : montre le corps tout entier d’une personne.
Moyen : montre le haut du corps et le visage d’une personne.
Gros plan : montre principalement le visage d’une personne.
Très gros plan : montre le visage d’une personne qui remplit l’écran.

Les types de plans peuvent également être déterminés par l’emplacement des personnages par rapport au centre de l’image. Cette propriété définit les types de captures suivants dans Azure AI Video Indexer :

Visage à gauche : une personne apparaît sur la gauche de l’image.
Visage au centre : une personne apparaît dans la partie centrale de l’image.
Visage à droite : une personne apparaît sur la droite de l’image.
Extérieur : une personne apparaît dans un décor extérieur.
Intérieur : une personne apparaît dans un décor intérieur.

Caractéristiques supplémentaires :

Deux plans : montre les visages de taille moyenne de deux personnes.
Plusieurs visages : plus de deux personnes.

Afficher le json d’insight avec le portail web

Une fois que vous avez chargé et indexé une vidéo, les insights sont disponibles au format JSON pour téléchargement à l’aide du portail web.

Sélectionnez l’onglet Bibliothèque .
Sélectionnez le média avec lequel vous souhaitez travailler.
Sélectionnez Télécharger et Insights (JSON). Le fichier JSON s’ouvre dans un nouvel onglet de navigateur.
Recherchez la paire de clés décrite dans l’exemple de réponse.

Utilisation de l’API

Utilisez la requête Get Video Index . Nous vous recommandons de passer &includeSummarizedInsights=false.
Recherchez les paires de clés décrites dans l’exemple de réponse.

Exemple de réponse

"scenes": [
                    {
                        "id": 1,
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:09.1333333",
                                "start": "0:00:00",
                                "end": "0:00:09.1333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "instances": [
                            {
                                "adjustedStart": "0:00:09.1333333",
                                "adjustedEnd": "0:00:10.8",
                                "start": "0:00:09.1333333",
                                "end": "0:00:10.8"
                            }
                        ]
                    },
                    {
                        "id": 3,
                        "instances": [
                            {
                                "adjustedStart": "0:00:10.8",
                                "adjustedEnd": "0:00:26.9333333",
                                "start": "0:00:10.8",
                                "end": "0:00:26.9333333"
                            }
                        ]
                    }...
                    {
                        "id": 31,
                        "instances": [
                            {
                                "adjustedStart": "0:18:45",
                                "adjustedEnd": "0:18:50.2",
                                "start": "0:18:45",
                                "end": "0:18:50.2"
                            }
                        ]
                    }
                ],
                "shots": [
                    {
                        "id": 1,
                        "tags": [
                            "Wide",
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 1,
                                "instances": [
                                    {
                                        "thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
                                        "adjustedStart": "0:00:00.1666667",
                                        "adjustedEnd": "0:00:00.2",
                                        "start": "0:00:00.1666667",
                                        "end": "0:00:00.2"
                                    }
                                ]
                            },
                            {
                                "id": 2,
                                "instances": [
                                    {
                                        "thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
                                        "adjustedStart": "0:00:00.2333333",
                                        "adjustedEnd": "0:00:00.2666667",
                                        "start": "0:00:00.2333333",
                                        "end": "0:00:00.2666667"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:01.9333333",
                                "start": "0:00:00",
                                "end": "0:00:01.9333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "tags": [
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 3,
                                "instances": [
                                    {
                                        "thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
                                        "adjustedStart": "0:00:02",
                                        "adjustedEnd": "0:00:02.0333333",
                                        "start": "0:00:02",
                                        "end": "0:00:02.0333333"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:01.9333333",
                                "adjustedEnd": "0:00:02.9666667",
                                "start": "0:00:01.9333333",
                                "end": "0:00:02.9666667"
                            }
                        ]
                    }...

Télécharger les images clés avec l’API

Pour télécharger chaque image clé, utilisez les ID d’image clé avec la requête Obtenir les miniatures .

Avertissement

Nous vous déconseillons d’utiliser des données directement à partir du dossier d’artefacts à des fins de production. Les artefacts sont des sorties intermédiaires du processus d’indexation. Il s’agit essentiellement de sorties brutes des différents moteurs d’IA qui analysent les vidéos ; le schéma des artefacts peut changer au fil du temps.

Important

Il est important de lire la vue d’ensemble de la note de transparence pour toutes les fonctionnalités vi. Chaque insight a également des notes de transparence de ses propres :

Notes de détection de scène, de capture et d’images clés

Le détecteur fonctionne le mieux sur les fichiers multimédias qui ont des plans et des scènes dans eux.
Si la vidéo est filmée avec une caméra qui ne se déplace jamais, la segmentation de la capture fonctionne mal, et les images clés peuvent ne pas être représentatives.
Les images clés sont sélectionnées en tenant compte du niveau de flou des images. Si la plupart de la capture est floue, par exemple avec mouvement, l’image clé peut également être floue.
Les vidéos avec une qualité visuelle médiocre produisent des résultats médiocres.
L’heure de chaque capture/scène/image clé peut être décalée (moins d’une seconde).

Composants scène, capture et image clé

Aucun composant défini.

Exemple de code

Voir tous les exemples pour VI

Partager via