Analýza videosouborů a zvukových souborů pomocí Azure Media Services

Článek
03/02/2023

logo

Varování

Služba Azure Media Services bude vyřazena 30. června 2024. Další informace naleznete v AMS Retirement Guide.

Důležitý

Vzhledem k tomu, že společnost Microsoft zodpovědné standardy AI, společnost Microsoft se zavázala k nestrannosti, ochraně osobních údajů, zabezpečení a transparentnosti v souvislosti se systémy AI. V souladu s těmito standardy Azure Media Services vyřazuje přednastavení Video Analyzeru 14. září 2023. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí, kterou nabízí azure Video Indexer.

Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru použité k extrakci přehledů. Pokud chcete získat podrobnější přehledy z videí, použijte službu Azure Video Indexer. Pokud chcete zjistit, kdy použít Video Indexer versus předvolby analyzátoru Media Services, podívejte se na srovnávací dokument.

Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní. Podívejte se na popis rozdílů v následující tabulce.

Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvoříte transformace a odešlete úlohy , která používá jednu z těchto předvoleb: VideoAnalyzerPreset nebo AudioAnalyzerPreset.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Musíte dodržovat všechny platné zákony ve vašem používání Video Indexeru a nesmíte video Indexer ani žádnou jinou službu Azure používat způsobem, který porušuje práva ostatních nebo může být škodlivé pro ostatní. Před nahráním jakýchkoli videí, včetně biometrických údajů, do služby Video Indexer pro zpracování a ukládání musíte mít všechna správná práva, včetně všech příslušných souhlasů, od jednotlivců ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve službě Video Indexer najdete v podmínkách služby Azure Cognitive Services. Pokud jde o povinnosti společnosti Microsoft v oblasti ochrany osobních údajů a jejich zpracování, přečtěte siprohlášení o zásadách ochrany osobních údajů společnosti Microsoft, podmínky online služeb (OST) a dodatek ke zpracování dat (DPA). Další informace o ochraně osobních údajů, včetně uchovávání dat, odstranění/zničení, jsou k dispozici v OST. Použitím Video Indexeru souhlasíte s tím, že budete vázáni podmínkami služeb Cognitive Services, OST, DPA a prohlášením o zásadách ochrany osobních údajů.

Předdefinované předvolby

Služba Media Services aktuálně podporuje následující předdefinované předvolby analyzátoru:

přednastavený název	scénář / režimu	podrobnosti
AudioAnalyzerPreset	Analýza zvukového standardního režimu	Předvolba použije předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době přednastavení podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 "language tag-region". Dostupné jazykové kódy najdete v následujícím seznamu podporovaných jazyků. Automatická detekce jazyka zvolí první zjištěný jazyk a pokračuje ve vybraném jazyce pro celý soubor, pokud není nastavený nebo je nastaven na hodnotu null. Funkce automatického rozpoznávání jazyka aktuálně podporuje: angličtinu, čínštinu, francouzštinu, němčinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými nahrávkami s jasně rozpoznatelnou řečí. Pokud automatické rozpoznávání jazyka nenajde jazyk, přepis se vrátí do angličtiny.
AudioAnalyzerPreset	Analýza zvukového režimu Basic	Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků a titulků VTT. Výstup tohoto režimu zahrnuje soubor JSON s přehledy, včetně pouze klíčových slov, přepisu a informací o časování. V tomto režimu není zahrnuta automatická detekce jazyka a diarizace mluvčího. Seznam podporovaných jazyků je shodný s výše uvedeným standardním režimem.
VideoAnalyzerPreset	Analýza zvuku a videa	Extrahuje přehledy (bohaté metadata) ze zvuku i videa a vypíše soubor formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru extrahovat jenom zvukové přehledy.
FaceDetectorPreset	Rozpoznávání tváří, které jsou přítomné ve videu	Popisuje nastavení, která se mají použít při analýze videa k detekci všech tváří, které jsou přítomné.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.

Podporované jazyky

Arabština (ar-BH,ar-EG,ar-IQ,ar-JO,ar-KW,ar-LB,ar-OM,ar-QA,ar-SAaar-SY)
Brazilská portugalština (pt-BR))
Čínština (zh-CN))
Dánština('da-DK')
Angličtina (en-US,en-GBaen-AU)
Finština (fi-FI)
Francouzština (fr-FRafr-CA)
Němčina ('de-DE')
Hebrejština (he-IL)
Hindština (hi-IN), korejština (ko-KR)
Italština ('it-IT')
Japonština (ja-JP))
Norština ('nb-NO')
Perština (fa-IR))
Portugalština v Portugalsku (pt-PT')
Ruština (ru-RU))
Španělština (es-ESaes-MX)
Švédština (sv-SE))
Thajština ('th-TH')
Turečtina (tr-TR))

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.

Standardní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat z zvukového souboru nebo videosouboru více zvukových přehledů.

Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTTT pro zvukový přepis. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězec. Mezi přehledy zvuku patří:

přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
Klíčová slova: Klíčová slova extrahovaná z přepisu zvuku.

Základní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat z zvukového souboru nebo videosouboru více zvukových přehledů.

Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězec. Výstup zahrnuje:

přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuté.
Klíčová slova: Klíčová slova extrahovaná z přepisu zvuku.

VideoAnalyzerPreset

Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba také přijímá řetězec BCP47 (představující jazyk videa) jako vlastnost. Přehledy videí zahrnují všechny výše uvedené zvukové přehledy a následující dodatečné položky:

sledování tváře: čas, během kterého se tváře nacházejí ve videu. Každá tvář má ID tváře a odpovídající kolekci miniatur.
vizuálního textu: Text, který je zjištěn prostřednictvím optického rozpoznávání znaků. Text je časový razítko a používá se také k extrakci klíčových slov (kromě zvukového přepisu).
keyframes: Kolekce klíčových snímků extrahovaných z videa.
moderování vizuálního obsahu: Část videí označená jako dospělá nebo nesrácená příroda.
poznámky: Výsledek přidávání poznámek k videím na základě předem definovaného objektového modelu

insights.json elementy

Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:

přepis

Jméno	Popis
id	ID řádku.
Text	Samotný přepis.
Jazyk	Jazyk přepisu. Účelem podpory přepisu, ve kterém může mít každý řádek jiný jazyk.
instance	Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít pouze jednu instanci.

Příklad:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Jméno	Popis
id	ID řádku OCR.
Text	Text OCR.
důvěrnost	Spolehlivost rozpoznávání.
Jazyk	Jazyk OCR.
instance	Seznam časovýchrozsahch

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

tváře

Jméno	Popis
id	ID tváře.
Jméno	Jméno tváře. Může to být neznámý #0, identifikovaná celebrita nebo osoba vyškolená zákazníkem.
důvěrnost	Spolehlivost identifikace tváře.
popis	Popis celebrity.
thumbnailId	ID miniatury této tváře.
polePersonId	Interní ID (pokud je to známá osoba).
referenceId	ID Bingu (pokud se jedná o celebritu Bingu).
referenceType	V současné době jen Bing.
titul	Název (pokud se jedná o celebritu, například "generální ředitel Microsoftu").
imageUrl	Adresa URL obrázku, pokud je to celebrita.
instance	Instance, ve kterých se tvář objevila v daném časovém rozsahu Každá instance má také thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

výstřely

Jméno	Popis
id	ID snímku.
keyFrames	Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového rámce.
instance	Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistika

Jméno	Popis
KorespondenceCount	Počet korespondencí ve videu
WordCount	Počet slov na mluvčího.
SpeakerNumberOfFragments	Množství fragmentů, které má mluvčí ve videu.
Nejdelšímonolog mluvčího	Nejdelší monolog mluvčího. Pokud má mluvčí ticho uvnitř monologa, je součástí. Ticho na začátku a na konci monologu je odstraněno.
SpeakerTalkToListenRatio	Výpočet vychází z času stráveného na monologu mluvčího (bez mlčení mezi) dělenou celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku.

popisky

Jméno	Popis
id	ID popisku.
Jméno	Název popisku (například "Počítač", "TV").
Jazyk	Jazyk názvu popisku (při překladu) BCP-47
instance	Seznamčasových Každá instance má pole spolehlivosti.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

klíčová slova

Jméno	Popis
id	ID klíčového slova.
Text	Text klíčového slova
důvěrnost	Spolehlivost rozpoznávání klíčového slova.
Jazyk	Jazyk klíčových slov (při překladu)
instance	Seznamčasových

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration obsahuje časové rozsahy, které Video Indexer zjistil, že potenciálně obsahuje obsah pro dospělé. Pokud je parametr visualContentModeration prázdný, neexistuje žádný identifikovaný obsah pro dospělé.

Videa, která obsahují obsah pro dospělé nebo nevhodný obsah, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé mohou odeslat žádost o kontrolu obsahu člověkem, v takovém případě bude atribut IsAdult obsahovat výsledek lidské kontroly.

Jméno	Popis
id	ID moderování vizuálního obsahu.
adultScore	Skóre pro dospělé (od content moderatoru).
racyScore	Skóreracy (z moderování obsahu)
instance	Seznam časových rozsahů, ve kterých se tento vizuální obsah moderoval.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Získání nápovědy a podpory

Službu Media Services můžete kontaktovat s otázkami nebo postupovat podle našich aktualizací jedním z následujících způsobů:

Q & A
Stack Overflow . Označte otázky pomocí azure-media-services.
@MSFTAzureMedia nebo pomocí @AzureSupport požádat o podporu.
Otevřete lístek podpory prostřednictvím webu Azure Portal.

Sdílet prostřednictvím

Analýza videosouborů a zvukových souborů pomocí Azure Media Services

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Předdefinované předvolby

Podporované jazyky

Standardní režim AudioAnalyzerPreset

Základní režim AudioAnalyzerPreset

VideoAnalyzerPreset

insights.json elementy

přepis

Ocr

tváře

výstřely

statistika

popisky

klíčová slova

visualContentModeration

Získání nápovědy a podpory

Další materiály