Jak utworzyć niestandardowy tekst do awatara mowy

Artykuł
01/15/2025

Wprowadzenie do niestandardowego tekstu do awatara mowy jest prostym procesem. Wystarczy kilka klipów wideo aktora. Jeśli chcesz wytrenować niestandardowy głos dla tego samego aktora, możesz to zrobić oddzielnie.

Uwaga

Dostęp do niestandardowego awatara jest ograniczony na podstawie kryteriów kwalifikowalności i użycia. Zażądaj dostępu w formularzu do wprowadzania.

Wymagania wstępne

Potrzebny jest zasób usługi Mowa w jednym z regionów , który obsługuje niestandardowe trenowanie awatarów. Niestandardowy awatar obsługuje tylko standardowe zasoby mowy (S0).

Potrzebujesz nagrania wideo talentu z czytaniem oświadczenia zgody potwierdzającego użycie ich obrazu i głosu. Przekażesz to wideo podczas konfigurowania talentu awatara. Aby uzyskać więcej informacji, zobacz Dodawanie zgody talentu awatara.

Potrzebujesz nagrań wideo talentu awatara jako danych treningowych. Te filmy wideo są przekazywane podczas przygotowywania danych treningowych. Aby uzyskać więcej informacji, zobacz Dodawanie danych szkoleniowych.

Krok 1. Tworzenie niestandardowego projektu awatara

Aby utworzyć niestandardowy projekt awatara, wykonaj następujące kroki:

Zaloguj się do programu Speech Studio i wybierz swoją subskrypcję i zasób usługi Mowa.
Wybierz pozycję Niestandardowy awatar (wersja zapoznawcza).
Wybierz pozycję +Utwórz projekt.
Postępuj zgodnie z instrukcjami podanymi przez kreatora, aby utworzyć projekt.

Napiwek

Nie mieszaj danych dla różnych awatarów w jednym projekcie. Zawsze twórz nowy projekt dla nowego awatara.
Wybierz nowy projekt według nazwy. Następnie zobaczysz te elementy menu w panelu po lewej stronie: Konfigurowanie talentów awatarów, Przygotowywanie danych treningowych, Trenowanie modelu i Wdrażanie modelu.

Talent awatara to indywidualny lub docelowy aktor, którego wideo o mówieniu jest nagrywane i używane do tworzenia neuronowych modeli awatarów. Musisz uzyskać wystarczającą zgodę na podstawie wszystkich odpowiednich przepisów prawa i przepisów od talentu awatara, aby użyć ich wideo, aby utworzyć niestandardowy tekst do awatara mowy.

Musisz podać plik wideo z nagranym oświadczeniem talentu awatara, uznając użycie ich obrazu i głosu. Firma Microsoft sprawdza, czy zawartość nagrania jest zgodna ze wstępnie zdefiniowanym skryptem dostarczonym przez firmę Microsoft. Firma Microsoft porównuje twarz talentu awatara w nagranym pliku ze stwierdzeniem wideo z losowymi filmami z zestawów danych szkoleniowych, aby upewnić się, że talent awatara w nagraniach wideo i talent awatara w pliku wideo w oświadczeniu pochodzą od tej samej osoby.

Instrukcję zgody słownej można znaleźć w wielu językach, korzystając z repozytorium GitHub Azure-Samples/cognitive-services-speech-sdk . Język wypowiedzi słownej musi być taki sam jak nagranie. Zobacz również Ujawnianie talentów głosowych.

Aby uzyskać więcej informacji na temat nagrywania wideo ze zgodą, zobacz Jak rejestrować przykłady wideo.

Aby dodać profil talentu awatara i przekazać swoje oświadczenie zgody w projekcie, wykonaj następujące kroki:

Zaloguj się do programu Speech Studio.
Wybierz pozycję Niestandardowy awatar> Nazwa> projektu Skonfiguruj obraz talentu awatara>Przekaż wyrażenie zgody wideo.
Na stronie przekazywanie zgody wideo postępuj zgodnie z instrukcjami, aby przekazać wcześniej nagrany film wideo z zgodą talentu awatara.
- Wybierz język mówiący ustnego wyrażenia zgody zarejestrowane przez talent awatara.
- Wprowadź nazwę talentu awatara i nazwę firmy w tym samym języku co zarejestrowana instrukcja.
  - Nazwa talentu awatara musi być nazwą osoby, która zarejestrowała oświadczenie zgody.
  - Nazwa firmy musi być zgodna z nazwą firmy, która została podana w nagranej instrukcji.
- Możesz przekazać dane z plików lokalnych lub z udostępnionego magazynu w usłudze Azure Blob.
Wybierz Przekaż.

Po pomyślnym przekazaniu zgody talentu awatara możesz przejść do trenowania niestandardowego modelu awatara.

Krok 3. Dodawanie danych treningowych

Usługa Mowa używa danych treningowych, aby utworzyć unikatowy awatar dostosowany do wyglądu osoby w nagraniach. Po wytrenowaniu modelu awatara możesz rozpocząć synchronizowanie wideo awatara lub używać go do czatów na żywo w aplikacjach.

Wszystkie przekazane dane muszą spełniać wymagania dotyczące wybranego typu danych. Aby upewnić się, że usługa rozpoznawania mowy dokładnie przetwarza dane, ważne jest, aby poprawnie sformatować dane przed przekazaniem. Aby potwierdzić, że dane są poprawnie sformatowane, zobacz Wymagania dotyczące danych.

Przekazywanie danych

Gdy wszystko będzie gotowe do przekazania danych, przejdź do karty Przygotowywanie danych treningowych, aby dodać dane.

Aby przekazać dane szkoleniowe, wykonaj następujące kroki:

Zaloguj się do programu Speech Studio.
Wybierz pozycję Niestandardowy awatar> Nazwa> projektu Przygotuj dane>treningowe Przekaż dane.
W kreatorze Przekazywania danych wybierz typ danych, a następnie wybierz przycisk Dalej. Aby uzyskać więcej informacji na temat typów danych (w tym naturalnie mówiących, cichych, gestów i stanu 0), zobacz , jakie klipy wideo mają być rejestrowane.
Wybierz pliki lokalne z komputera lub wprowadź adres URL usługi Azure Blob Storage, pod którym są przechowywane dane.
Wybierz Dalej.
Przejrzyj szczegóły przekazywania i wybierz pozycję Prześlij.

Pliki danych są automatycznie weryfikowane po wybraniu pozycji Prześlij. Walidacja danych obejmuje serię kontroli plików wideo w celu zweryfikowania ich formatu, rozmiaru i całkowitego woluminu. Jeśli występują jakiekolwiek błędy, napraw je i prześlij ponownie.

Po przekazaniu danych możesz sprawdzić przegląd danych, który wskazuje, czy podano wystarczającą ilość danych do rozpoczęcia trenowania. Ten zrzut ekranu przedstawia przykład wystarczającej ilości danych dodanych do trenowania awatara bez innych gestów.

Krok 4. Trenowanie modelu awatara

Ważne

Wszystkie dane szkoleniowe w projekcie są uwzględniane w szkoleniu. Jakość modelu jest bardzo zależna od dostarczonych danych i odpowiadasz za jakość wideo. Pamiętaj, aby nagrać wideo szkoleniowe zgodnie z przewodnikiem dotyczącym rejestrowania przykładów wideo.

Aby utworzyć niestandardowy awatar w programie Speech Studio, wykonaj następujące kroki dla jednej z następujących metod:

Zaloguj się do programu Speech Studio.
Wybierz pozycję Niestandardowy awatar> Nazwa >projektu Train model Train model (Trenowanie modelu>Trenowanie modelu).
Wprowadź nazwę, aby ułatwić identyfikację modelu. Starannie wybierz nazwę. Nazwa modelu jest używana jako nazwa awatara w żądaniu syntezy przez zestaw SDK i dane wejściowe SSML. Dozwolone są tylko litery, cyfry, łączniki i podkreślenia. Użyj unikatowej nazwy dla każdego modelu.

Ważne

Nazwa modelu awatara musi być unikatowa w obrębie tego samego zasobu usługi Mowa lub AI Services.
Wybierz pozycję Trenuj , aby rozpocząć trenowanie modelu.

Czas trwania szkolenia różni się w zależności od ilości używanych danych. Zwykle trenowanie niestandardowego awatara trwa średnio 20–40 godzin obliczeniowych. Sprawdź notę cenową dotyczącą sposobu naliczania opłat za trenowanie.

Kopiowanie niestandardowego modelu awatara do innego projektu (opcjonalnie)

Niestandardowe szkolenie awatara jest obecnie dostępne tylko w niektórych regionach. Po przeszkoleniu modelu awatara w obsługiwanym regionie możesz skopiować go do zasobu usługi Mowa w innym regionie zgodnie z potrzebami. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów.

Aby skopiować niestandardowy model awatara do innego projektu:

Na karcie Trenowanie modelu wybierz model awatara, który chcesz skopiować, a następnie wybierz pozycję Kopiuj do projektu.
Wybierz subskrypcję, region, zasób usługi Mowa i projekt, do którego chcesz skopiować model. Musisz mieć zasób mowy i projekt w regionie docelowym, w przeciwnym razie musisz je najpierw utworzyć.
Wybierz pozycję Prześlij , aby skopiować model.

Po skopiowaniu modelu w programie Speech Studio zostanie wyświetlone powiadomienie.

Przejdź do projektu, w którym skopiowano model, aby wdrożyć kopię modelu.

Krok 5. Wdrażanie i używanie modelu awatara

Po pomyślnym utworzeniu i wytrenowanym modelu awatara wdrożysz go w punkcie końcowym.

Aby wdrożyć awatar:

Zaloguj się do programu Speech Studio.
Wybierz pozycję Niestandardowy awatar> Nazwa >projektu Wdróż model.
Wybierz pozycję Wdróż model i wybierz model, który chcesz wdrożyć.
Wybierz pozycję Wdróż , aby rozpocząć wdrażanie.

Ważne

Po wdrożeniu modelu płacisz za ciągły czas działania punktu końcowego niezależnie od interakcji z tym punktem końcowym. Sprawdź notę cenową dotyczącą sposobu naliczania opłat za wdrożenie modelu. Wdrożenie można usunąć, gdy model nie jest używany w celu zmniejszenia wydatków i oszczędzania zasobów.

Po wdrożeniu niestandardowego awatara będzie on dostępny do użycia w programie Speech Studio lub za pośrednictwem interfejsu API:

Awatar pojawia się na liście awatarów tekstu do awatara mowy w usłudze Speech Studio.
Awatar pojawia się na liście awatarów awatarów czatu na żywo za pośrednictwem usługi Speech Studio.
Awatar można wywołać z zestawu SDK i danych wejściowych SSML, określając nazwę modelu awatara. Aby uzyskać więcej informacji, zobacz właściwości awatara.

Usuwanie wdrożenia

Aby usunąć wdrożenie, wykonaj następujące kroki:

Zaloguj się do programu Speech Studio.
Przejdź do pozycji Niestandardowy awatar> Nazwa >projektu Wdróż model.
Wybierz wdrożenie na stronie Wdrażanie modelu . Model jest aktywnie hostowany, jeśli stan to "Powodzenie".
Możesz wybrać przycisk Usuń wdrożenie i potwierdzić usunięcie, aby usunąć hosting.

Napiwek

Po usunięciu wdrożenia nie płacisz już za jego hosting. Usunięcie wdrożenia nie powoduje usunięcia modelu. Jeśli chcesz ponownie użyć modelu, utwórz nowe wdrożenie.

Używanie niestandardowego głosu (opcjonalnie)

Jeśli tworzysz również niestandardowy neuronowy głos (CNV) dla aktora, awatar może być bardzo realistyczny. Aby uzyskać więcej informacji, zobacz Co to jest niestandardowy tekst na awatar mowy.

Niestandardowy głos i niestandardowy tekst do awatara mowy są oddzielnymi funkcjami. Można ich używać niezależnie lub razem.

Jeśli utworzono niestandardowy głos i chcesz używać go razem z niestandardowym awatarem, zwróć uwagę na następujące kwestie:

Upewnij się, że niestandardowy punkt końcowy głosu jest tworzony w tym samym zasobie usługi Mowa co niestandardowy punkt końcowy awatara. W razie potrzeby zapoznaj się z tematem Trenowanie profesjonalnego modelu głosu, aby skopiować niestandardowy model głosu do tego samego zasobu usługi Mowa co niestandardowy punkt końcowy awatara.
Opcja głosu niestandardowego jest widoczna na liście głosów strony generowania zawartości awatara i ustawień głosowych czatu na żywo.
Jeśli używasz syntezy wsadowej dla interfejsu API awatara, dodaj "customVoices" właściwość, aby skojarzyć identyfikator wdrożenia niestandardowego modelu głosu z nazwą głosu w żądaniu. Aby uzyskać więcej informacji, zobacz właściwości zamiany tekstu na mowę.
Jeśli używasz syntezy w czasie rzeczywistym dla interfejsu API awatara, zapoznaj się z naszym przykładowym kodem w usłudze GitHub , aby ustawić niestandardowy głos.

Udostępnij za pośrednictwem

Jak utworzyć niestandardowy tekst do awatara mowy

Wymagania wstępne

Krok 1. Tworzenie niestandardowego projektu awatara

Krok 3. Dodawanie danych treningowych

Przekazywanie danych

Krok 4. Trenowanie modelu awatara

Kopiowanie niestandardowego modelu awatara do innego projektu (opcjonalnie)

Krok 5. Wdrażanie i używanie modelu awatara

Usuwanie wdrożenia

Używanie niestandardowego głosu (opcjonalnie)

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Jak utworzyć niestandardowy tekst do awatara mowy

Wymagania wstępne

Krok 1. Tworzenie niestandardowego projektu awatara

Krok 2. Dodawanie zgody talentu awatara

Krok 3. Dodawanie danych treningowych

Przekazywanie danych

Krok 4. Trenowanie modelu awatara

Kopiowanie niestandardowego modelu awatara do innego projektu (opcjonalnie)

Krok 5. Wdrażanie i używanie modelu awatara

Usuwanie wdrożenia

Używanie niestandardowego głosu (opcjonalnie)

Następne kroki

Opinia

Dodatkowe zasoby