Soluzioni video di Analisi del contenuto di Intelligenza artificiale di Azure (anteprima)
Importante
- Azure AI Content Understanding è disponibile in anteprima. Le versioni di anteprima pubblica consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
- Le funzionalità, gli approcci e i processi possono cambiare o avere funzionalità vincolate, prima della disponibilità generale.
- Per altre informazioni, vedere Condizioni per l'utilizzo supplementari per le anteprime di Microsoft Azure.
Azure AI Content Understanding consente di estrarre e personalizzare i metadati video. Content Understanding consente di gestire, classificare, recuperare e creare flussi di lavoro in modo efficiente per gli asset video. Migliora la libreria di asset multimediali, supporta flussi di lavoro come la generazione di evidenziazioni, classifica il contenuto e facilita le applicazioni come la generazione di risorse aumentata (RAG, Retrieval-Augmented Generation).
La comprensione dei contenuti per i video ha un ampio potenziale utilizzo. Ad esempio, è possibile personalizzare i metadati per contrassegnare scene specifiche in un video di training, rendendo più semplice per i dipendenti individuare e rivedere sezioni importanti. È anche possibile usare la personalizzazione dei metadati per identificare il posizionamento dei prodotti nei video promozionali, che aiuta i team di marketing ad analizzare l'esposizione del marchio.
Casi d'uso aziendali
Azure AI Content Understanding offre una gamma di casi d'uso aziendali, tra cui:
- Trasmettere contenuti multimediali e intrattenimento: gestire grandi librerie di spettacoli, film e clip generando metadati dettagliati per ogni asset.
- Istruzione ed e*Learning: indicizzare e recuperare momenti specifici nei video o nelle lezioni didattiche.
- Formazione aziendale: organizzare video di formazione in base a argomenti chiave, scene o momenti importanti.
- Marketing e pubblicità: analizzare i video promozionali per estrarre posizionamento dei prodotti, aspetto del marchio e messaggi chiave.
Funzionalità di comprensione video
Content Understanding elabora i file video tramite una pipeline personalizzabile in grado di eseguire sia attività di estrazione del contenuto che di estrazione dei campi. Estrazione contenuto è incentrata sull'analisi del video per generare metadati fondamentali, mentre l'estrazione dei campi usa tali metadati per creare informazioni dettagliate e personalizzate personalizzate su misura per casi d'uso specifici. Per seguire è disponibile una panoramica di ogni funzionalità.
Estrazione contenuto
L'estrazione di contenuti per video include trascrizione, rilevamento degli scatti, estrazione dei fotogrammi chiave e raggruppamento dei visi. Queste operazioni vengono eseguite su fotogrammi campionati dall'intero video e generano un output di testo strutturato che rappresenta il video. L'estrazione di contenuti funge anche da dati di base per le funzionalità generative di Estrazione campi fornendo il contesto su ciò che è contenuto nel video.
Funzionalità specifiche dell'estrazione del contenuto:
- Trascrizione: converte il riconoscimento vocale in testo strutturato e ricercabile tramite Riconoscimento vocale di Intelligenza artificiale di Azure, consentendo agli utenti di specificare le lingue di riconoscimento.
- Rilevamento degli scatti: identifica i segmenti del video allineati ai limiti dello scatto, ove possibile, consentendo di modificare e ricomprimere precisamente il contenuto con interruzioni esattamente sui limiti dello scatto.
- Estrazione fotogrammi chiave: estrae fotogrammi chiave dai video per rappresentare completamente ogni scatto, assicurando che ogni scatto abbia fotogrammi chiave sufficienti per consentire l'esecuzione efficace dell'estrazione dei campi.
- Raggruppamento dei volti: i visi raggruppati vengono visualizzati in un video per estrarre un'immagine del viso rappresentativa per ogni persona e fornisce segmenti in cui ognuno è presente. I dati del viso raggruppati sono disponibili come metadati e possono essere usati per generare campi di metadati personalizzati.
- Questa funzionalità è accesso limitato e comporta l'identificazione e il raggruppamento dei visi; i clienti devono registrarsi per l'accesso in Registrazione viso.
Estrazione di campi
L'estrazione dei campi consente la generazione di dati strutturati per ogni segmento del video, ad esempio tag, categorie o descrizioni, usando uno schema personalizzabile personalizzato in base alle esigenze specifiche. Questi dati strutturati semplificano l'organizzazione, la ricerca e l'elaborazione automatica dei contenuti video in modo efficiente. L'estrazione dei campi usa un modello generativo multifunzionale per estrarre dati specifici dal video, usando fotogrammi chiave e output di testo da Estrazione contenuto come input. L'estrazione dei campi consente al modello generativo di ottenere informazioni dettagliate in base al contenuto visivo acquisito dagli scatti, fornendo un'identificazione dettagliata.
Esempi di campi per settori diversi:
Gestione degli asset multimediali:
- Tipo di ripresa: aiuta gli editor e i produttori a organizzare il contenuto, semplificare la modifica e comprendere il linguaggio visivo del video. Utile per l'assegnazione di tag ai metadati e il recupero più rapido della scena.
- Combinazione di colori: trasmette umore e atmosfera, essenziale per coerenza narrativa e coinvolgimento degli spettatori. L'identificazione dei temi dei colori consente di trovare clip corrispondenti per la modifica video accelerata.
Pubblicità:
- Brand: identifica la presenza del marchio, fondamentale per l'analisi dell'impatto degli annunci, la visibilità del marchio e l'associazione con i prodotti. Questa funzionalità consente agli inserzionisti di valutare la prominenza del marchio e garantire la conformità alle linee guida sulla personalizzazione.
- Categorie di annunci: classifica i tipi di annunci per settore, tipo di prodotto o segmento di destinatari, che supporta strategie pubblicitarie mirate, categorizzazione e analisi delle prestazioni.
Vantaggi chiave
Content Understanding offre diversi vantaggi chiave rispetto ad altre soluzioni di analisi video:
- Analisi a più fotogrammi basata su segmento: identificare azioni, eventi, argomenti e temi analizzando più fotogrammi da ogni segmento di video, anziché singoli fotogrammi.
- Personalizzazione: personalizzare i metadati generati modificando lo schema in base al caso d'uso specifico.
- Modelli generativi: descrivere in linguaggio naturale il contenuto da estrarre e Content Understanding usa modelli generativi per estrarre tali metadati.
- Pre-elaborazione ottimizzata: eseguire diversi passaggi di pre-elaborazione dell'estrazione del contenuto, ad esempio la trascrizione e il rilevamento della scena, ottimizzati per fornire un contesto avanzato ai modelli generativi di intelligenza artificiale.
Requisiti di input
Per informazioni dettagliate sui formati di documento di input supportati, vedere la pagina Quote e limiti del servizio.
Lingue e aree supportate
Per un elenco dettagliato delle lingue e delle aree geografiche supportate, visitare la pagina di supporto per lingua e area geografica.
Privacy e sicurezza dei dati
Come per tutti i servizi di intelligenza artificiale di Azure, gli sviluppatori che usano il servizio Content Understanding devono essere consapevoli dei criteri di Microsoft sui dati dei clienti. Per altre informazioni, vedere la pagina Dati, protezione e privacy .
Importante
Gli utenti di Content Understanding possono abilitare funzionalità come il raggruppamento dei volti per i video, che implicano l'elaborazione dei dati biometrici. Se si usano prodotti o servizi Microsoft per elaborare dati biometrici, l'utente è responsabile di: (i) inviare comunicazioni agli interessati, indicando anche i periodi di conservazione e i termini di distruzione; (ii) ottenere il consenso dagli interessati; infine (iii) eliminare i dati biometrici; tutto questo secondo quanto richiesto e opportuno, in conformità con i requisiti applicabili di protezione dati. Il termine "Dati biometrici" acquisisce il significato indicato nell'articolo 4 del GDPR e, se applicabile, nelle condizioni equivalenti esposte in altri requisiti di protezione dei dati. Per informazioni correlate, vedere Dati e privacy per Viso.
Passaggi successivi
- Provare a elaborare il contenuto video usando Content Understanding in Azure AI Foundry.
- Altre informazioni sui modelli di analizzatore video.