Sdílet prostřednictvím


Analýza videosouborů a zvukových souborů pomocí Azure Media Services

logo Media Services v3


Varování

Služba Azure Media Services bude vyřazena 30. června 2024. Další informace naleznete v AMS Retirement Guide.

Důležitý

Vzhledem k tomu, že společnost Microsoft zodpovědné standardy AI, společnost Microsoft se zavázala k nestrannosti, ochraně osobních údajů, zabezpečení a transparentnosti v souvislosti se systémy AI. V souladu s těmito standardy Azure Media Services vyřazuje přednastavení Video Analyzeru 14. září 2023. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí, kterou nabízí azure Video Indexer.

Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru použité k extrakci přehledů. Pokud chcete získat podrobnější přehledy z videí, použijte službu Azure Video Indexer. Pokud chcete zjistit, kdy použít Video Indexer versus předvolby analyzátoru Media Services, podívejte se na srovnávací dokument.

Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní. Podívejte se na popis rozdílů v následující tabulce.

Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvoříte transformace a odešlete úlohy , která používá jednu z těchto předvoleb: VideoAnalyzerPreset nebo AudioAnalyzerPreset.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.

Dodržování předpisů, ochrana osobních údajů a zabezpečení

Musíte dodržovat všechny platné zákony ve vašem používání Video Indexeru a nesmíte video Indexer ani žádnou jinou službu Azure používat způsobem, který porušuje práva ostatních nebo může být škodlivé pro ostatní. Před nahráním jakýchkoli videí, včetně biometrických údajů, do služby Video Indexer pro zpracování a ukládání musíte mít všechna správná práva, včetně všech příslušných souhlasů, od jednotlivců ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve službě Video Indexer najdete v podmínkách služby Azure Cognitive Services. Pokud jde o povinnosti společnosti Microsoft v oblasti ochrany osobních údajů a jejich zpracování, přečtěte siprohlášení o zásadách ochrany osobních údajů společnosti Microsoft, podmínky online služeb (OST) a dodatek ke zpracování dat (DPA). Další informace o ochraně osobních údajů, včetně uchovávání dat, odstranění/zničení, jsou k dispozici v OST. Použitím Video Indexeru souhlasíte s tím, že budete vázáni podmínkami služeb Cognitive Services, OST, DPA a prohlášením o zásadách ochrany osobních údajů.

Předdefinované předvolby

Služba Media Services aktuálně podporuje následující předdefinované předvolby analyzátoru:

přednastavený název scénář / režimu podrobnosti
AudioAnalyzerPreset Analýza zvukového standardního režimu Předvolba použije předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době přednastavení podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 "language tag-region". Dostupné jazykové kódy najdete v následujícím seznamu podporovaných jazyků. Automatická detekce jazyka zvolí první zjištěný jazyk a pokračuje ve vybraném jazyce pro celý soubor, pokud není nastavený nebo je nastaven na hodnotu null. Funkce automatického rozpoznávání jazyka aktuálně podporuje: angličtinu, čínštinu, francouzštinu, němčinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými nahrávkami s jasně rozpoznatelnou řečí. Pokud automatické rozpoznávání jazyka nenajde jazyk, přepis se vrátí do angličtiny.
AudioAnalyzerPreset Analýza zvukového režimu Basic Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků a titulků VTT. Výstup tohoto režimu zahrnuje soubor JSON s přehledy, včetně pouze klíčových slov, přepisu a informací o časování. V tomto režimu není zahrnuta automatická detekce jazyka a diarizace mluvčího. Seznam podporovaných jazyků je shodný s výše uvedeným standardním režimem.
VideoAnalyzerPreset Analýza zvuku a videa Extrahuje přehledy (bohaté metadata) ze zvuku i videa a vypíše soubor formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru extrahovat jenom zvukové přehledy.
FaceDetectorPreset Rozpoznávání tváří, které jsou přítomné ve videu Popisuje nastavení, která se mají použít při analýze videa k detekci všech tváří, které jsou přítomné.

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.

Podporované jazyky

  • Arabština (ar-BH,ar-EG,ar-IQ,ar-JO,ar-KW,ar-LB,ar-OM,ar-QA,ar-SAaar-SY)
  • Brazilská portugalština (pt-BR))
  • Čínština (zh-CN))
  • Dánština('da-DK')
  • Angličtina (en-US,en-GBaen-AU)
  • Finština (fi-FI)
  • Francouzština (fr-FRafr-CA)
  • Němčina ('de-DE')
  • Hebrejština (he-IL)
  • Hindština (hi-IN), korejština (ko-KR)
  • Italština ('it-IT')
  • Japonština (ja-JP))
  • Norština ('nb-NO')
  • Perština (fa-IR))
  • Portugalština v Portugalsku (pt-PT')
  • Ruština (ru-RU))
  • Španělština (es-ESaes-MX)
  • Švédština (sv-SE))
  • Thajština ('th-TH')
  • Turečtina (tr-TR))

Poznámka

AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.

Standardní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat z zvukového souboru nebo videosouboru více zvukových přehledů.

Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTTT pro zvukový přepis. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězec. Mezi přehledy zvuku patří:

  • přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
  • Klíčová slova: Klíčová slova extrahovaná z přepisu zvuku.

Základní režim AudioAnalyzerPreset

Tato předvolba umožňuje extrahovat z zvukového souboru nebo videosouboru více zvukových přehledů.

Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězec. Výstup zahrnuje:

  • přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuté.
  • Klíčová slova: Klíčová slova extrahovaná z přepisu zvuku.

VideoAnalyzerPreset

Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba také přijímá řetězec BCP47 (představující jazyk videa) jako vlastnost. Přehledy videí zahrnují všechny výše uvedené zvukové přehledy a následující dodatečné položky:

  • sledování tváře: čas, během kterého se tváře nacházejí ve videu. Každá tvář má ID tváře a odpovídající kolekci miniatur.
  • vizuálního textu: Text, který je zjištěn prostřednictvím optického rozpoznávání znaků. Text je časový razítko a používá se také k extrakci klíčových slov (kromě zvukového přepisu).
  • keyframes: Kolekce klíčových snímků extrahovaných z videa.
  • moderování vizuálního obsahu: Část videí označená jako dospělá nebo nesrácená příroda.
  • poznámky: Výsledek přidávání poznámek k videím na základě předem definovaného objektového modelu

insights.json elementy

Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:

přepis

Jméno Popis
id ID řádku.
Text Samotný přepis.
Jazyk Jazyk přepisu. Účelem podpory přepisu, ve kterém může mít každý řádek jiný jazyk.
instance Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít pouze jednu instanci.

Příklad:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Jméno Popis
id ID řádku OCR.
Text Text OCR.
důvěrnost Spolehlivost rozpoznávání.
Jazyk Jazyk OCR.
instance Seznam časovýchrozsahch
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

tváře

Jméno Popis
id ID tváře.
Jméno Jméno tváře. Může to být neznámý #0, identifikovaná celebrita nebo osoba vyškolená zákazníkem.
důvěrnost Spolehlivost identifikace tváře.
popis Popis celebrity.
thumbnailId ID miniatury této tváře.
polePersonId Interní ID (pokud je to známá osoba).
referenceId ID Bingu (pokud se jedná o celebritu Bingu).
referenceType V současné době jen Bing.
titul Název (pokud se jedná o celebritu, například "generální ředitel Microsoftu").
imageUrl Adresa URL obrázku, pokud je to celebrita.
instance Instance, ve kterých se tvář objevila v daném časovém rozsahu Každá instance má také thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

výstřely

Jméno Popis
id ID snímku.
keyFrames Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového rámce.
instance Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistika

Jméno Popis
KorespondenceCount Počet korespondencí ve videu
WordCount Počet slov na mluvčího.
SpeakerNumberOfFragments Množství fragmentů, které má mluvčí ve videu.
Nejdelšímonolog mluvčího Nejdelší monolog mluvčího. Pokud má mluvčí ticho uvnitř monologa, je součástí. Ticho na začátku a na konci monologu je odstraněno.
SpeakerTalkToListenRatio Výpočet vychází z času stráveného na monologu mluvčího (bez mlčení mezi) dělenou celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku.

popisky

Jméno Popis
id ID popisku.
Jméno Název popisku (například "Počítač", "TV").
Jazyk Jazyk názvu popisku (při překladu) BCP-47
instance Seznamčasových Každá instance má pole spolehlivosti.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

klíčová slova

Jméno Popis
id ID klíčového slova.
Text Text klíčového slova
důvěrnost Spolehlivost rozpoznávání klíčového slova.
Jazyk Jazyk klíčových slov (při překladu)
instance Seznamčasových
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration obsahuje časové rozsahy, které Video Indexer zjistil, že potenciálně obsahuje obsah pro dospělé. Pokud je parametr visualContentModeration prázdný, neexistuje žádný identifikovaný obsah pro dospělé.

Videa, která obsahují obsah pro dospělé nebo nevhodný obsah, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé mohou odeslat žádost o kontrolu obsahu člověkem, v takovém případě bude atribut IsAdult obsahovat výsledek lidské kontroly.

Jméno Popis
id ID moderování vizuálního obsahu.
adultScore Skóre pro dospělé (od content moderatoru).
racyScore Skóreracy (z moderování obsahu)
instance Seznam časových rozsahů, ve kterých se tento vizuální obsah moderoval.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Získání nápovědy a podpory

Službu Media Services můžete kontaktovat s otázkami nebo postupovat podle našich aktualizací jedním z následujících způsobů:

  • Q & A
  • Stack Overflow . Označte otázky pomocí azure-media-services.
  • @MSFTAzureMedia nebo pomocí @AzureSupport požádat o podporu.
  • Otevřete lístek podpory prostřednictvím webu Azure Portal.