Analizowanie plików wideo i audio za pomocą usługi Azure Media Services

Artykuł
03/02/2023

logo usługi

Ostrzeżenie

Usługa Azure Media Services zostanie wycofana 30 czerwca 2024 r. Aby uzyskać więcej informacji, zobacz przewodnik po wycofaniu usługi AMS.

Ważny

Zgodnie z standardami odpowiedzialnej sztucznej inteligencji firmy Microsoft firma Microsoft zobowiązuje się do sprawiedliwości, prywatności, bezpieczeństwa i przejrzystości w odniesieniu do systemów sztucznej inteligencji. Aby dostosować się do tych standardów, usługa Azure Media Services wycofa Video Analyzer 14 września 2023 r.. To ustawienie wstępne umożliwia obecnie wyodrębnianie wielu szczegółowych informacji wideo i audio z pliku wideo. Klienci mogą zastąpić bieżące przepływy pracy przy użyciu bardziej zaawansowanego zestawu funkcji oferowanego przez usługę Azure Video Indexer.

Usługa Media Services umożliwia wyodrębnianie szczegółowych informacji z plików wideo i audio przy użyciu ustawień wstępnych analizatora audio i wideo. W tym artykule opisano ustawienia wstępne analizatora używane do wyodrębniania szczegółowych informacji. Jeśli chcesz uzyskać bardziej szczegółowe informacje z filmów wideo, użyj usługi Azure Video Indexer. Aby zrozumieć, kiedy używać ustawień wstępnych analizatora usługi Video Indexer a analizatora usługi Media Services, zapoznaj się z dokumentem porównania .

Istnieją dwa tryby ustawień wstępnych analizatora audio, podstawowy i standardowy. Zapoznaj się z opisem różnic w poniższej tabeli.

Aby przeanalizować zawartość przy użyciu ustawień wstępnych usługi Media Services w wersji 3, należy utworzyć Transform i przesłać Zadanie, które używa jednego z następujących ustawień wstępnych: VideoAnalyzerPreset lub AudioAnalyzerPreset.

Nuta

AudioAnalyzerPreset nie jest obsługiwany, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Zgodność, prywatność i zabezpieczenia

Użytkownik musi przestrzegać wszystkich obowiązujących przepisów w korzystaniu z usługi Video Indexer i nie może korzystać z usługi Video Indexer ani żadnej innej usługi platformy Azure w sposób naruszający prawa innych osób lub może być szkodliwy dla innych osób. Przed przekazaniem jakichkolwiek filmów wideo, w tym wszelkich danych biometrycznych, do usługi Video Indexer do przetwarzania i przechowywania, musisz mieć wszystkie odpowiednie prawa, w tym wszystkie odpowiednie zgody, od osób fizycznych w filmie wideo. Aby dowiedzieć się więcej na temat zgodności, prywatności i zabezpieczeń w usłudze Video Indexer, warunki usługi Azure Cognitive Services. W przypadku zobowiązań firmy Microsoft dotyczących prywatności i obsługi Twoich danych zapoznaj się z Oświadczeniem o ochronie prywatności firmy Microsoft, postanowieniami dotyczącymi usług online ("OST") i dodatek do przetwarzania danych ("DPA"). Więcej informacji o ochronie prywatności, w tym przechowywanie danych, usuwanie/niszczenie, jest dostępne w ost. Korzystając z usługi Video Indexer, wyrażasz zgodę na powiązanie warunków usług Cognitive Services, OST, DPA i Zasad zachowania poufności informacji.

Wbudowane ustawienia wstępne

Usługa Media Services obsługuje obecnie następujące wbudowane ustawienia wstępne analizatora:

nazwa ustawienia wstępnego	scenariusz/tryb	szczegóły
AudioAnalyzerPreset	Analizowanie trybu audio w warstwie Standardowa	Ustawienie wstępne stosuje wstępnie zdefiniowany zestaw operacji analizy opartej na sztucznej inteligencji, w tym transkrypcję mowy. Obecnie ustawienie wstępne obsługuje przetwarzanie zawartości za pomocą pojedynczego utworu audio zawierającego mowę w jednym języku. Określ język ładunku audio w danych wejściowych przy użyciu formatu BCP-47 "language tag-region". Zobacz listę obsługiwanych języków poniżej, aby zapoznać się z dostępnymi kodami języków. Automatyczne wykrywanie języka wybiera pierwszy wykryty język i kontynuuje użyć wybranego języka dla całego pliku, jeśli go nie ustawiono lub ustawiono na wartość null. Funkcja automatycznego wykrywania języka obsługuje obecnie: angielski, chiński, francuski, niemiecki, włoski, japoński, hiszpański, rosyjski i portugalski (Brazylia). Nie obsługuje dynamicznego przełączania między językami po wykryciu pierwszego języka. Funkcja automatycznego wykrywania języka działa najlepiej z nagraniami audio z wyraźnie zauważalną mową. Jeśli automatyczne wykrywanie języka nie powiedzie się, transkrypcja wraca do języka angielskiego.
AudioAnalyzerPreset	Analizowanie trybu podstawowego dźwięku	Ten tryb wstępnie ustawiony wykonuje transkrypcję zamiany mowy na tekst i generowanie pliku napisów/transkrypcji VTT. Dane wyjściowe tego trybu obejmują plik JSON szczegółowych informacji, w tym tylko słowa kluczowe, transkrypcję i informacje o chronometrażu. Automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane w tym trybie. Lista obsługiwanych języków jest identyczna z powyższym trybem standardowym.
VideoAnalyzerPreset	Analizowanie dźwięku i wideo	Wyodrębnia szczegółowe informacje (zaawansowane metadane) zarówno z audio, jak i wideo, i generuje plik formatu JSON. Podczas przetwarzania pliku wideo można określić, czy chcesz wyodrębnić tylko szczegółowe informacje o dźwięku.
FaceDetectorPreset	Wykrywanie twarzy obecnych w filmie wideo	Opisuje ustawienia, które mają być używane podczas analizowania wideo w celu wykrywania wszystkich obecnych twarzy.

Nuta

AudioAnalyzerPreset nie jest obsługiwany, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Obsługiwane języki

Arabski ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' i 'ar-SY')
Portugalski brazylijski ("pt-BR')
Chiński ("zh-CN')
Duński("da-DK')
Angielski ('en-US', 'en-GB' i 'en-AU')
Fiński ('fi-FI')
Francuski ('fr-FR' i 'fr-CA')
Niemiecki ("de-DE')
Hebrajski (he-IL)
Hindi ('hi-IN'), koreański ('ko-KR')
Włoski ("it-IT')
Japoński ("ja-JP')
Norweski ("nb-NO')
Perski ("fa-IR')
Portugalski Portugalia ("pt-PT')
Rosyjski ("ru-RU')
Hiszpański ('es-ES' i 'es-MX')
Szwedzki ("sv-SE')
Tajski ('th-TH')
Turecki ("tr-TR')

Nuta

AudioAnalyzerPreset nie jest obsługiwany, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Tryb standardowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami) i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47. Szczegółowe informacje dotyczące dźwięku obejmują:

transkrypcja audio: transkrypcja wypowiedzianych słów ze znacznikami czasu. Obsługiwane są wiele języków.
Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

Tryb podstawowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47. Dane wyjściowe obejmują:

transkrypcja audio: transkrypcja wypowiedzianych słów ze znacznikami czasu. Obsługiwane są wiele języków, ale automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane.
Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

VideoAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio i wideo z pliku wideo. Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami), plik VTT dla transkrypcji wideo i kolekcję miniatur. To ustawienie wstępne akceptuje również ciąg BCP47 (reprezentujący język wideo) jako właściwość. Szczegółowe informacje wideo obejmują wszystkie szczegółowe informacje audio wymienione powyżej i następujące dodatkowe elementy:

śledzenie twarzy: czas, w którym twarze są obecne w filmie wideo. Każda twarz ma identyfikator twarzy i odpowiadającą im kolekcję miniatur.
tekst wizualny: tekst wykryty za pomocą optycznego rozpoznawania znaków. Tekst jest sygnaturą czasową, a także służy do wyodrębniania słów kluczowych (oprócz transkrypcji audio).
ramek kluczowych: kolekcja klatek kluczowych wyodrębnionych z wideo.
Moderowanie zawartości wizualnej: część filmów wideo oflagowanych jako dorosła lub rasowa w naturze.
Adnotacja: wynik dodawania adnotacji wideo na podstawie wstępnie zdefiniowanego modelu obiektów

insights.json elementów

Dane wyjściowe zawierają plik JSON (insights.json) ze wszystkimi szczegółowymi informacjami znalezionymi w wideo lub audio. Kod JSON może zawierać następujące elementy:

transkrypcja

Nazwa	Opis
id	Identyfikator wiersza.
Tekst	Sam transkrypcja.
Język	Język transkrypcji. Przeznaczone do obsługi transkrypcji, w której każdy wiersz może mieć inny język.
Wystąpień	Lista zakresów czasu, w których pojawił się ten wiersz. Jeśli wystąpienie jest transkrypcją, będzie miało tylko jedno wystąpienie.

Przykład:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

optyczne rozpoznawanie znaków

Nazwa	Opis
id	Identyfikator wiersza OCR.
Tekst	Tekst OCR.
pewność siebie	Pewność rozpoznawania.
Język	Język OCR.
Wystąpień	Lista zakresów czasu, w których pojawił się ten OCR (ten sam identyfikator OCR może występować wiele razy).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Twarze

Nazwa	Opis
id	Identyfikator twarzy.
nazwa	Nazwa twarzy. Może to być "Unknown #0", zidentyfikowana gwiazda lub wyszkolona osoba klienta.
pewność siebie	Pewność identyfikacji twarzy.
opis	Opis gwiazdy.
thumbnailId	Identyfikator miniatury tej twarzy.
znanypersonid	Identyfikator wewnętrzny (jeśli jest to znana osoba).
referenceId	Identyfikator Bing (jeśli jest to osobistość Bing).
referenceType	Obecnie tylko Bing.
tytuł	Tytuł (jeśli jest to osobistość— na przykład "Dyrektor generalny firmy Microsoft").
imageUrl	Adres URL obrazu, jeśli jest to osobistość.
Wystąpień	Wystąpienia, w których twarz pojawiła się w danym zakresie czasu. Każde wystąpienie ma również identyfikator thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Zdjęć

Nazwa	Opis
id	Identyfikator strzału.
keyFrames	Lista klatek kluczowych w ramach strzału (każda z nich ma identyfikator i listę zakresów czasu wystąpień). Wystąpienia klatek kluczowych mają pole thumbnailId z identyfikatorem miniatury elementu keyFrame.
Wystąpień	Lista zakresów czasu tego strzału (strzały mają tylko jedno wystąpienie).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statystyka

Nazwa	Opis
KorespondencjaCount	Liczba korespondencji w filmie wideo.
WordCount	Liczba słów na osobę mówiącą.
SpeakerNumberOfFragments	Ilość fragmentów głośnika w filmie wideo.
SpeakerLongestMonolog	Najdłuższy monolog prelegenta. Jeśli głośnik ma wyciszenia wewnątrz monologu, jest dołączony. Milczenie na początku i koniec monologa jest usuwany.
SpeakerTalkToListenRatio	Obliczenia są oparte na czasie spędzonym na monologu osoby mówiącej (bez ciszy między) podzielonej przez całkowity czas wideo. Czas jest zaokrąglany do trzeciego punktu dziesiętnego.

Etykiety

Nazwa	Opis
id	Identyfikator etykiety.
nazwa	Nazwa etykiety (na przykład "Komputer", "TV").
Język	Język nazw etykiet (po przetłumaczeniu). BCP-47
Wystąpień	Lista zakresów czasu, w których pojawiła się ta etykieta (etykieta może być wyświetlana wiele razy). Każde wystąpienie ma pole ufności.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Słowa kluczowe

Nazwa	Opis
id	Identyfikator słowa kluczowego.
Tekst	Tekst słowa kluczowego.
pewność siebie	Pewność rozpoznawania słowa kluczowego.
Język	Język słowa kluczowego (po przetłumaczeniu).
Wystąpień	Lista zakresów czasu, w których pojawiło się to słowo kluczowe (słowo kluczowe może pojawiać się wiele razy).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration zawiera zakresy czasu, które usługa Video Indexer mogła potencjalnie zawierać zawartość dla dorosłych. Jeśli element visualContentModeration jest pusty, nie ma zidentyfikowanej zawartości dla dorosłych.

Filmy wideo, które znajdują się w zawartości erotycznej lub dla dorosłych, mogą być dostępne tylko dla widoku prywatnego. Użytkownicy mogą przesłać żądanie przeglądu zawartości przez człowieka, w tym przypadku atrybut IsAdult będzie zawierać wynik przeglądu przez człowieka.

Nazwa	Opis
id	Identyfikator moderowania zawartości wizualizacji.
adultScore	Wynik dla dorosłych (od moderatora zawartości).
racyScore	Wynik rasowy (z moderowania zawartości).
Wystąpień	Lista zakresów czasu, w których pojawiła się ta wizualizacja moderowania zawartości.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Uzyskiwanie pomocy i obsługi technicznej

Możesz skontaktować się z usługą Media Services z pytaniami lub postępować zgodnie z naszymi aktualizacjami, korzystając z jednej z następujących metod:

Q & A
Stack Overflow. Tagowanie pytań przy użyciu azure-media-services.
@MSFTAzureMedia lub użyj @AzureSupport, aby poprosić o pomoc techniczną.
Otwórz bilet pomocy technicznej za pośrednictwem witryny Azure Portal.

Udostępnij za pośrednictwem

Analizowanie plików wideo i audio za pomocą usługi Azure Media Services

Zgodność, prywatność i zabezpieczenia

Wbudowane ustawienia wstępne

Obsługiwane języki

Tryb standardowy AudioAnalyzerPreset

Tryb podstawowy AudioAnalyzerPreset

VideoAnalyzerPreset

insights.json elementów

transkrypcja

optyczne rozpoznawanie znaków

Twarze

Zdjęć

statystyka

Etykiety

Słowa kluczowe

visualContentModeration

Uzyskiwanie pomocy i obsługi technicznej

Dodatkowe zasoby