Dostosowywanie modelu mowy

Artykuł
10/09/2024

Uwaga

Dostosowywanie modelu mowy, w tym trenowanie wymowy, jest obsługiwane tylko w przypadku kont wersji próbnej platformy Azure usługi Video Indexer i kont usługi Resource Manager. Nie jest obsługiwany w przypadku kont klasycznych. Aby uzyskać wskazówki dotyczące aktualizowania typu konta bez ponoszenia kosztów, zobacz Aktualizowanie konta usługi Azure AI Video Indexer. Aby uzyskać wskazówki dotyczące korzystania z niestandardowego środowiska językowego, zobacz Dostosowywanie modelu językowego.

Usługa Azure AI Video Indexer umożliwia tworzenie niestandardowych modeli mowy w celu dostosowania rozpoznawania mowy przez przekazanie zestawów danych używanych do tworzenia modelu mowy. W tym artykule przedstawiono kroki, które należy wykonać za pośrednictwem witryny internetowej usługi Video Indexer. Możesz również użyć interfejsu API zgodnie z opisem w temacie Dostosowywanie modelu mowy przy użyciu interfejsu API.

Aby zapoznać się ze szczegółowym omówieniem i najlepszymi rozwiązaniami dotyczącymi niestandardowych modeli mowy, zobacz Dostosowywanie modelu mowy za pomocą usługi Azure AI Video Indexer.

Wymagania wstępne

Przeczytaj przewodnik po najlepszych rozwiązaniach dotyczących trenowania modelu mowy.
Konto platformy Azure
Konto usługi Azure AI Video Indexer

Portal internetowy
API

Tworzenie zestawu danych

Ponieważ wszystkie modele niestandardowe muszą zawierać zestaw danych, zaczniemy od procesu tworzenia zestawów danych i zarządzania nimi.

Wybierz przycisk Dostosowywanie modelu.
Wybierz kartę Mowa (nowa).
Wybierz pozycję Przekaż zestaw danych.
Wybierz pozycję Zwykły tekst lub Wymowa z menu rozwijanego Typ zestawu danych. Każdy model mowy musi mieć zestaw danych w postaci zwykłego tekstu i opcjonalnie może mieć zestaw danych wymowy.
Wybierz pozycję Przeglądaj i wybierz plik zestawu danych. Możesz wybrać tylko jeden.
Wybierz język dla modelu. Wybierz język używany w plikach multimedialnych, które planujesz indeksować przy użyciu tego modelu. Nazwa zestawu danych jest wstępnie wypełniana nazwą pliku, ale można ją zmodyfikować.
Opcjonalnie możesz dodać opis zestawu danych. Może to być przydatne do odróżnienia każdego zestawu danych, jeśli oczekujesz, że masz wiele zestawów danych.
Wybierz Przekaż. Po zakończeniu tworzenia zestawu danych można go użyć do trenowania i tworzenia nowych modeli.

Przeglądanie i aktualizowanie zestawu danych

Zestaw danych i jego właściwości można wyświetlić, wykonując następujące czynności:

Kliknięcie nazwy zestawu danych
Umieszczanie wskaźnika myszy na zestawie danych
Wybieranie wielokropka

Następnie wybierz pozycję Wyświetl zestaw danych.

Następnie można wyświetlić nazwę, opis, język i stan zestawu danych oraz następujące właściwości:

Liczba wierszy: wskazuje liczbę wierszy, które zostały pomyślnie załadowane z całkowitej liczby wierszy w pliku. Jeśli cały plik zostanie załadowany pomyślnie, liczby będą zgodne (na przykład 10 z 10 znormalizowanych). Jeśli liczby nie są zgodne (na przykład 7 z 10 znormalizowanych), oznacza to, że tylko niektóre wiersze zostały pomyślnie załadowane, a pozostałe miały błędy. Typowe przyczyny błędów to problemy z formatowaniem wiersza, takie jak brak odstępów między poszczególnymi wyrazami w pliku wymowy. Przeglądanie zwykłych danych tekstowych i wymowy artykułów szkoleniowych powinno być pomocne w znalezieniu problemu. Aby rozwiązać ten problem, przejrzyj szczegóły błędu zawarte w raporcie. Wybierz pozycję Wyświetl raport , aby wyświetlić szczegóły błędu dotyczące wierszy, które nie zostały pomyślnie załadowane (errorKind). Można to również wyświetlić, wybierając kartę Raport .

Identyfikator zestawu danych: każdy zestaw danych ma unikatowy identyfikator GUID, który jest wymagany podczas korzystania z interfejsu API dla operacji odwołujących się do zestawu danych.

Zwykły tekst (znormalizowany): zawiera znormalizowany tekst załadowanego pliku zestawu danych. Znormalizowany tekst to rozpoznany tekst w postaci zwykłej bez formatowania.

Edytuj szczegóły: aby edytować nazwę lub opis zestawu danych, po umieszczeniu wskaźnika myszy na zestawie danych wybierz wielokropek, a następnie wybierz pozycję Edytuj szczegóły. Następnie możesz edytować nazwę i opis zestawu danych.

Uwaga

Nie można edytować ani aktualizować danych w zestawie danych po przekazaniu zestawu danych. Jeśli musisz edytować lub aktualizować dane w zestawie danych, pobierz zestaw danych, przeprowadź edycje, zapisz plik i przekaż nowy plik zestawu danych.

Pobierz: Aby pobrać plik zestawu danych, po umieszczeniu wskaźnika myszy na zestawie danych wybierz wielokropek, a następnie wybierz pozycję Pobierz. Alternatywnie podczas wyświetlania zestawu danych możesz wybrać pozycję Pobierz, a następnie wybrać opcję pobrania pliku zestawu danych lub raportu przekazywania w formularzu JSON.

Usuń: aby usunąć zestaw danych, po umieszczeniu wskaźnika myszy na zestawie danych wybierz wielokropek, a następnie wybierz pozycję Usuń.

Tworzenie niestandardowego modelu mowy

Zestawy danych są używane podczas tworzenia i trenowania modeli. Po utworzeniu zestawu danych w postaci zwykłego tekstu można utworzyć i rozpocząć korzystanie z niestandardowego modelu mowy.

Podczas tworzenia i używania niestandardowych modeli mowy należy pamiętać o następujących kwestiach:

Nowy model musi zawierać co najmniej jeden zestaw danych w postaci zwykłego tekstu i może mieć wiele zestawów danych w postaci zwykłego tekstu.
Opcjonalnie można uwzględnić zestaw danych wymowy i nie więcej niż jeden zestaw danych.
Po utworzeniu modelu nie można dodawać do niego dodatkowych zestawów danych ani wprowadzać żadnych modyfikacji w zestawach danych. Jeśli musisz dodać lub zmodyfikować zestawy danych, utwórz nowy model.
Jeśli zaindeksujesz wideo przy użyciu niestandardowego modelu mowy, a następnie usuniesz model, transkrypcja nie będzie miała wpływu, chyba że wykonasz ponowne indeksowanie.
Jeśli usunięto zestaw danych, który został użyty do trenowania modelu niestandardowego, ponieważ model mowy został już wytrenowany przez zestaw danych, będzie on nadal używany do momentu usunięcia modelu mowy.
Usunięcie modelu niestandardowego nie ma wpływu na transkrypcję filmów wideo, które zostały już indeksowane przy użyciu modelu.

Szkolenie modelu

Uwaga

Po utworzeniu modelu nie można dodać zestawów danych. Model może zawierać tylko zestawy danych tego samego języka.

Istnieją dwa sposoby trenowania modelu — za pomocą karty zestawu danych i na karcie modelu.

Trenowanie modelu za pomocą karty Zestawy danych

Wyświetl listę zestawów danych.
Wybierz zestaw danych w postaci zwykłego tekstu. Następnie można wybrać ikonę Train new model (Trenowanie nowego modelu ).
Wybierz pozycję Train new model ( Trenowanie nowego modelu).
Wprowadź nazwę modelu, języka i opcjonalnie dodaj opis.
Wybieranie karty Zestawy danych
Wybierz zestawy danych, które chcesz uwzględnić w modelu.
Wybierz pozycję Utwórz i trenuj.

Trenowanie modelu za pomocą karty Modele

Wybierz kartę Modele .
Wybierz pozycję Train new model icon ( Trenuj nowy model ).
Wybierz zestawy danych, które mają być częścią modelu.
Wprowadź nazwę modelu, języka i opcjonalnie dodaj opis.
Wybierz kartę Zestawy danych.
Wybierz zestawy danych, które chcesz uwzględnić w modelu.
Wybierz pozycję Utwórz i trenuj.

Przeglądanie i aktualizowanie modelu

Wyświetl model: możesz wyświetlić model i jego właściwości, klikając nazwę modelu lub po umieszczeniu wskaźnika myszy na modelu, klikając wielokropek, a następnie wybierając pozycję Wyświetl model.

Następnie zobaczysz na karcie Szczegóły nazwę, opis, język i stan modelu oraz następujące właściwości:

Identyfikator modelu: każdy model ma unikatowy identyfikator GUID, który jest wymagany podczas korzystania z interfejsu API dla operacji odwołujących się do modelu.

Utworzono w dniu: data utworzenia modelu.

Edytuj szczegóły: aby edytować nazwę lub opis modelu, po umieszczeniu wskaźnika myszy na modelu wybierz wielokropek, a następnie wybierz pozycję Edytuj szczegóły. Następnie możesz edytować nazwę i opis modelu.

Uwaga

Można edytować tylko nazwę i opis modelu. Jeśli chcesz wprowadzić zmiany w swoich zestawach danych lub dodać zestawy danych, należy utworzyć nowy model.

Usuń: aby usunąć model, po umieszczeniu wskaźnika myszy na zestawie danych wybierz wielokropek, a następnie wybierz pozycję Usuń.

Dołączone zestawy danych: wybierz kartę Dołączone zestawy danych, aby wyświetlić zestawy danych modelu.

Używanie niestandardowego modelu językowego podczas indeksowania wideo

Niestandardowy model językowy nie jest domyślnie używany do zadań indeksowania, dlatego należy go wybrać podczas procesu przekazywania indeksu.

Podczas procesu przekazywania wybierz źródło niestandardowego modelu językowego z menu rozwijanego języka .
Wybierz Przekaż.

Te same kroki mają zastosowanie, gdy chcesz ponownie zaindeksować wideo z modelem niestandardowym.

Uwaga

Poniżej przedstawiono tabelę opisów niektórych parametrów używanych z żądaniami modelu mowy:

Nazwa	Wpisz	Opis
`displayName`	struna	Żądana nazwa zestawu danych/modelu.
`locale`	struna	Kod języka zestawu danych/modelu. Aby uzyskać pełną listę, zobacz Obsługa języka.
`kind`	integer	0 dla zestawu danych w postaci zwykłego tekstu, 1 dla zestawu danych wymowy.
`description`	struna	Opcjonalny opis zestawu danych/modelu.
`contentUrl`	Uri	Adres URL pliku źródłowego używanego podczas tworzenia zestawu danych.
`customProperties`	sprzeciwiać się	Opcjonalne właściwości zestawu danych/modelu.

Tworzenie zestawu danych mowy

Żądanie Create Speech Dataset (Tworzenie zestawu danych mowy) tworzy zestaw danych na potrzeby trenowania modelu mowy. Przekaż plik używany do utworzenia zestawu danych z tym żądaniem. Nie można zmodyfikować zawartości zestawu danych po jego utworzeniu.

Zdefiniuj parametry w treści żądania, w tym adres URL do pliku tekstowego, który ma zostać przekazany. Pola opisu i właściwości niestandardowych są opcjonalne. Jest to przykład treści żądania:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Przykładowa odpowiedź

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Tworzenie modelu mowy

Żądanie tworzenia modelu mowy tworzy i trenuje niestandardowy model mowy, który może służyć do poprawy dokładności transkrypcji wideo. Musi zawierać co najmniej jeden zestaw danych w postaci zwykłego tekstu. Opcjonalnie może mieć zestawy danych wymowy. Utwórz go ze wszystkimi odpowiednimi plikami zestawu danych jako zestawami danych modelu nie można dodawać ani aktualizować po jego utworzeniu.

Zdefiniuj parametry w treści żądania, w tym listę ciągów, które mają zawierać zestaw danych lub zestawy danych dla modelu. Pola opisu i właściwości niestandardowych są opcjonalne. Jest to przykład treści żądania:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Przykładowa odpowiedź

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Pobieranie zestawu danych mowy

Interfejs API pobierania zestawu danych mowy zwraca informacje dotyczące określonego zestawu danych.

Przykładowa odpowiedź

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Pobieranie plików zestawów danych mowy

Żądanie Get Speech Dataset Files zwraca pliki i metadane określonego zestawu danych.

Przykładowa odpowiedź

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Pobieranie określonych zestawów danych konta

Żądanie Pobierz zestawy danych mowy zwraca informacje dotyczące wszystkich określonych zestawów danych kont.

Przykładowa odpowiedź

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Pobieranie określonego modelu mowy

Interfejs API pobierania modelu mowy zwraca informacje dotyczące określonego modelu.

Przykładowa odpowiedź

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Pobieranie określonych modeli mowy konta

Interfejs API pobierania modeli mowy zwraca informacje dotyczące wszystkich modeli na określonym koncie.

Przykładowa odpowiedź

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Usuwanie zestawu danych mowy

Interfejs API usuwania zestawu danych usługi Mowa usuwa określony zestaw danych. Każdy model, który został wytrenowany przy użyciu usuniętego zestawu danych, będzie nadal dostępny do momentu usunięcia modelu. Nie można usunąć zestawu danych, gdy jest on używany do indeksowania lub trenowania.

Przykładowa odpowiedź

Po pomyślnym usunięciu zestawu danych nie ma zwracanej zawartości.

Usuwanie modelu mowy

Interfejs API usuwania modelu mowy usuwa określony model mowy. Nie można usunąć modelu, gdy jest on używany do indeksowania lub trenowania.

Response

Po pomyślnym usunięciu modelu mowy nie ma zwracanej zawartości.

Udostępnij za pośrednictwem

Dostosowywanie modelu mowy

Wymagania wstępne

Tworzenie zestawu danych

Przeglądanie i aktualizowanie zestawu danych

Tworzenie niestandardowego modelu mowy

Szkolenie modelu

Trenowanie modelu za pomocą karty Zestawy danych

Trenowanie modelu za pomocą karty Modele

Przeglądanie i aktualizowanie modelu

Używanie niestandardowego modelu językowego podczas indeksowania wideo

Tworzenie zestawu danych mowy

Przykładowa odpowiedź

Tworzenie modelu mowy

Przykładowa odpowiedź

Pobieranie zestawu danych mowy

Przykładowa odpowiedź

Pobieranie plików zestawów danych mowy

Przykładowa odpowiedź

Pobieranie określonych zestawów danych konta

Przykładowa odpowiedź

Pobieranie określonego modelu mowy

Przykładowa odpowiedź

Pobieranie określonych modeli mowy konta

Przykładowa odpowiedź

Usuwanie zestawu danych mowy

Przykładowa odpowiedź

Usuwanie modelu mowy

Response

Opinia

Dodatkowe zasoby