Udostępnij za pośrednictwem


Analizowanie plików wideo i audio za pomocą usługi Azure Media Services

logo usługi Media Services w wersji 3


Ostrzeżenie

Usługa Azure Media Services zostanie wycofana 30 czerwca 2024 r. Aby uzyskać więcej informacji, zobacz przewodnik po wycofaniu usługi AMS.

Ważny

Zgodnie z standardami odpowiedzialnej sztucznej inteligencji firmy Microsoft firma Microsoft zobowiązuje się do sprawiedliwości, prywatności, bezpieczeństwa i przejrzystości w odniesieniu do systemów sztucznej inteligencji. Aby dostosować się do tych standardów, usługa Azure Media Services wycofa Video Analyzer 14 września 2023 r.. To ustawienie wstępne umożliwia obecnie wyodrębnianie wielu szczegółowych informacji wideo i audio z pliku wideo. Klienci mogą zastąpić bieżące przepływy pracy przy użyciu bardziej zaawansowanego zestawu funkcji oferowanego przez usługę Azure Video Indexer.

Usługa Media Services umożliwia wyodrębnianie szczegółowych informacji z plików wideo i audio przy użyciu ustawień wstępnych analizatora audio i wideo. W tym artykule opisano ustawienia wstępne analizatora używane do wyodrębniania szczegółowych informacji. Jeśli chcesz uzyskać bardziej szczegółowe informacje z filmów wideo, użyj usługi Azure Video Indexer. Aby zrozumieć, kiedy używać ustawień wstępnych analizatora usługi Video Indexer a analizatora usługi Media Services, zapoznaj się z dokumentem porównania .

Istnieją dwa tryby ustawień wstępnych analizatora audio, podstawowy i standardowy. Zapoznaj się z opisem różnic w poniższej tabeli.

Aby przeanalizować zawartość przy użyciu ustawień wstępnych usługi Media Services w wersji 3, należy utworzyć Transform i przesłać Zadanie, które używa jednego z następujących ustawień wstępnych: VideoAnalyzerPreset lub AudioAnalyzerPreset.

Nuta

AudioAnalyzerPreset nie jest obsługiwany, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Zgodność, prywatność i zabezpieczenia

Użytkownik musi przestrzegać wszystkich obowiązujących przepisów w korzystaniu z usługi Video Indexer i nie może korzystać z usługi Video Indexer ani żadnej innej usługi platformy Azure w sposób naruszający prawa innych osób lub może być szkodliwy dla innych osób. Przed przekazaniem jakichkolwiek filmów wideo, w tym wszelkich danych biometrycznych, do usługi Video Indexer do przetwarzania i przechowywania, musisz mieć wszystkie odpowiednie prawa, w tym wszystkie odpowiednie zgody, od osób fizycznych w filmie wideo. Aby dowiedzieć się więcej na temat zgodności, prywatności i zabezpieczeń w usłudze Video Indexer, warunki usługi Azure Cognitive Services. W przypadku zobowiązań firmy Microsoft dotyczących prywatności i obsługi Twoich danych zapoznaj się z Oświadczeniem o ochronie prywatności firmy Microsoft, postanowieniami dotyczącymi usług online ("OST") i dodatek do przetwarzania danych ("DPA"). Więcej informacji o ochronie prywatności, w tym przechowywanie danych, usuwanie/niszczenie, jest dostępne w ost. Korzystając z usługi Video Indexer, wyrażasz zgodę na powiązanie warunków usług Cognitive Services, OST, DPA i Zasad zachowania poufności informacji.

Wbudowane ustawienia wstępne

Usługa Media Services obsługuje obecnie następujące wbudowane ustawienia wstępne analizatora:

nazwa ustawienia wstępnego scenariusz/tryb szczegóły
AudioAnalyzerPreset Analizowanie trybu audio w warstwie Standardowa Ustawienie wstępne stosuje wstępnie zdefiniowany zestaw operacji analizy opartej na sztucznej inteligencji, w tym transkrypcję mowy. Obecnie ustawienie wstępne obsługuje przetwarzanie zawartości za pomocą pojedynczego utworu audio zawierającego mowę w jednym języku. Określ język ładunku audio w danych wejściowych przy użyciu formatu BCP-47 "language tag-region". Zobacz listę obsługiwanych języków poniżej, aby zapoznać się z dostępnymi kodami języków. Automatyczne wykrywanie języka wybiera pierwszy wykryty język i kontynuuje użyć wybranego języka dla całego pliku, jeśli go nie ustawiono lub ustawiono na wartość null. Funkcja automatycznego wykrywania języka obsługuje obecnie: angielski, chiński, francuski, niemiecki, włoski, japoński, hiszpański, rosyjski i portugalski (Brazylia). Nie obsługuje dynamicznego przełączania między językami po wykryciu pierwszego języka. Funkcja automatycznego wykrywania języka działa najlepiej z nagraniami audio z wyraźnie zauważalną mową. Jeśli automatyczne wykrywanie języka nie powiedzie się, transkrypcja wraca do języka angielskiego.
AudioAnalyzerPreset Analizowanie trybu podstawowego dźwięku Ten tryb wstępnie ustawiony wykonuje transkrypcję zamiany mowy na tekst i generowanie pliku napisów/transkrypcji VTT. Dane wyjściowe tego trybu obejmują plik JSON szczegółowych informacji, w tym tylko słowa kluczowe, transkrypcję i informacje o chronometrażu. Automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane w tym trybie. Lista obsługiwanych języków jest identyczna z powyższym trybem standardowym.
VideoAnalyzerPreset Analizowanie dźwięku i wideo Wyodrębnia szczegółowe informacje (zaawansowane metadane) zarówno z audio, jak i wideo, i generuje plik formatu JSON. Podczas przetwarzania pliku wideo można określić, czy chcesz wyodrębnić tylko szczegółowe informacje o dźwięku.
FaceDetectorPreset Wykrywanie twarzy obecnych w filmie wideo Opisuje ustawienia, które mają być używane podczas analizowania wideo w celu wykrywania wszystkich obecnych twarzy.

Nuta

AudioAnalyzerPreset nie jest obsługiwany, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Obsługiwane języki

  • Arabski ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' i 'ar-SY')
  • Portugalski brazylijski ("pt-BR')
  • Chiński ("zh-CN')
  • Duński("da-DK')
  • Angielski ('en-US', 'en-GB' i 'en-AU')
  • Fiński ('fi-FI')
  • Francuski ('fr-FR' i 'fr-CA')
  • Niemiecki ("de-DE')
  • Hebrajski (he-IL)
  • Hindi ('hi-IN'), koreański ('ko-KR')
  • Włoski ("it-IT')
  • Japoński ("ja-JP')
  • Norweski ("nb-NO')
  • Perski ("fa-IR')
  • Portugalski Portugalia ("pt-PT')
  • Rosyjski ("ru-RU')
  • Hiszpański ('es-ES' i 'es-MX')
  • Szwedzki ("sv-SE')
  • Tajski ('th-TH')
  • Turecki ("tr-TR')

Nuta

AudioAnalyzerPreset nie jest obsługiwany, jeśli konto magazynu nie ma dostępu do sieci publicznej.

Tryb standardowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami) i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47. Szczegółowe informacje dotyczące dźwięku obejmują:

  • transkrypcja audio: transkrypcja wypowiedzianych słów ze znacznikami czasu. Obsługiwane są wiele języków.
  • Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

Tryb podstawowy AudioAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio z pliku audio lub wideo.

Dane wyjściowe zawierają plik JSON i plik VTT dla transkrypcji audio. To ustawienie wstępne akceptuje właściwość określającą język pliku wejściowego w postaci ciągu BCP47. Dane wyjściowe obejmują:

  • transkrypcja audio: transkrypcja wypowiedzianych słów ze znacznikami czasu. Obsługiwane są wiele języków, ale automatyczne wykrywanie języka i diaryzacja osoby mówiącej nie są uwzględniane.
  • Słowa kluczowe: słowa kluczowe wyodrębnione z transkrypcji audio.

VideoAnalyzerPreset

Ustawienie wstępne umożliwia wyodrębnianie wielu szczegółowych informacji audio i wideo z pliku wideo. Dane wyjściowe zawierają plik JSON (ze wszystkimi szczegółowymi informacjami), plik VTT dla transkrypcji wideo i kolekcję miniatur. To ustawienie wstępne akceptuje również ciąg BCP47 (reprezentujący język wideo) jako właściwość. Szczegółowe informacje wideo obejmują wszystkie szczegółowe informacje audio wymienione powyżej i następujące dodatkowe elementy:

  • śledzenie twarzy: czas, w którym twarze są obecne w filmie wideo. Każda twarz ma identyfikator twarzy i odpowiadającą im kolekcję miniatur.
  • tekst wizualny: tekst wykryty za pomocą optycznego rozpoznawania znaków. Tekst jest sygnaturą czasową, a także służy do wyodrębniania słów kluczowych (oprócz transkrypcji audio).
  • ramek kluczowych: kolekcja klatek kluczowych wyodrębnionych z wideo.
  • Moderowanie zawartości wizualnej: część filmów wideo oflagowanych jako dorosła lub rasowa w naturze.
  • Adnotacja: wynik dodawania adnotacji wideo na podstawie wstępnie zdefiniowanego modelu obiektów

insights.json elementów

Dane wyjściowe zawierają plik JSON (insights.json) ze wszystkimi szczegółowymi informacjami znalezionymi w wideo lub audio. Kod JSON może zawierać następujące elementy:

transkrypcja

Nazwa Opis
id Identyfikator wiersza.
Tekst Sam transkrypcja.
Język Język transkrypcji. Przeznaczone do obsługi transkrypcji, w której każdy wiersz może mieć inny język.
Wystąpień Lista zakresów czasu, w których pojawił się ten wiersz. Jeśli wystąpienie jest transkrypcją, będzie miało tylko jedno wystąpienie.

Przykład:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

optyczne rozpoznawanie znaków

Nazwa Opis
id Identyfikator wiersza OCR.
Tekst Tekst OCR.
pewność siebie Pewność rozpoznawania.
Język Język OCR.
Wystąpień Lista zakresów czasu, w których pojawił się ten OCR (ten sam identyfikator OCR może występować wiele razy).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Twarze

Nazwa Opis
id Identyfikator twarzy.
nazwa Nazwa twarzy. Może to być "Unknown #0", zidentyfikowana gwiazda lub wyszkolona osoba klienta.
pewność siebie Pewność identyfikacji twarzy.
opis Opis gwiazdy.
thumbnailId Identyfikator miniatury tej twarzy.
znanypersonid Identyfikator wewnętrzny (jeśli jest to znana osoba).
referenceId Identyfikator Bing (jeśli jest to osobistość Bing).
referenceType Obecnie tylko Bing.
tytuł Tytuł (jeśli jest to osobistość— na przykład "Dyrektor generalny firmy Microsoft").
imageUrl Adres URL obrazu, jeśli jest to osobistość.
Wystąpień Wystąpienia, w których twarz pojawiła się w danym zakresie czasu. Każde wystąpienie ma również identyfikator thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Zdjęć

Nazwa Opis
id Identyfikator strzału.
keyFrames Lista klatek kluczowych w ramach strzału (każda z nich ma identyfikator i listę zakresów czasu wystąpień). Wystąpienia klatek kluczowych mają pole thumbnailId z identyfikatorem miniatury elementu keyFrame.
Wystąpień Lista zakresów czasu tego strzału (strzały mają tylko jedno wystąpienie).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statystyka

Nazwa Opis
KorespondencjaCount Liczba korespondencji w filmie wideo.
WordCount Liczba słów na osobę mówiącą.
SpeakerNumberOfFragments Ilość fragmentów głośnika w filmie wideo.
SpeakerLongestMonolog Najdłuższy monolog prelegenta. Jeśli głośnik ma wyciszenia wewnątrz monologu, jest dołączony. Milczenie na początku i koniec monologa jest usuwany.
SpeakerTalkToListenRatio Obliczenia są oparte na czasie spędzonym na monologu osoby mówiącej (bez ciszy między) podzielonej przez całkowity czas wideo. Czas jest zaokrąglany do trzeciego punktu dziesiętnego.

Etykiety

Nazwa Opis
id Identyfikator etykiety.
nazwa Nazwa etykiety (na przykład "Komputer", "TV").
Język Język nazw etykiet (po przetłumaczeniu). BCP-47
Wystąpień Lista zakresów czasu, w których pojawiła się ta etykieta (etykieta może być wyświetlana wiele razy). Każde wystąpienie ma pole ufności.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Słowa kluczowe

Nazwa Opis
id Identyfikator słowa kluczowego.
Tekst Tekst słowa kluczowego.
pewność siebie Pewność rozpoznawania słowa kluczowego.
Język Język słowa kluczowego (po przetłumaczeniu).
Wystąpień Lista zakresów czasu, w których pojawiło się to słowo kluczowe (słowo kluczowe może pojawiać się wiele razy).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration zawiera zakresy czasu, które usługa Video Indexer mogła potencjalnie zawierać zawartość dla dorosłych. Jeśli element visualContentModeration jest pusty, nie ma zidentyfikowanej zawartości dla dorosłych.

Filmy wideo, które znajdują się w zawartości erotycznej lub dla dorosłych, mogą być dostępne tylko dla widoku prywatnego. Użytkownicy mogą przesłać żądanie przeglądu zawartości przez człowieka, w tym przypadku atrybut IsAdult będzie zawierać wynik przeglądu przez człowieka.

Nazwa Opis
id Identyfikator moderowania zawartości wizualizacji.
adultScore Wynik dla dorosłych (od moderatora zawartości).
racyScore Wynik rasowy (z moderowania zawartości).
Wystąpień Lista zakresów czasu, w których pojawiła się ta wizualizacja moderowania zawartości.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Uzyskiwanie pomocy i obsługi technicznej

Możesz skontaktować się z usługą Media Services z pytaniami lub postępować zgodnie z naszymi aktualizacjami, korzystając z jednej z następujących metod: