Niestandardowy neuronowy głos lite (wersja zapoznawcza)

Artykuł
03/10/2025

Usługa Azure AI Speech udostępnia dwa niestandardowe typy projektów neuronowego głosu (CNV): CNV lite i CNV professional.

Niestandardowy neuronowy głos (CNV) profesjonalny umożliwia przekazywanie danych szkoleniowych zebranych za pośrednictwem profesjonalnych studiów nagraniowych i tworzenie wysokiej jakości głosu, który jest prawie nie do odróżnienia od swoich ludzkich próbek. Dostęp profesjonalny CNV jest ograniczony na podstawie kryteriów kwalifikowalności i użycia. Zażądaj dostępu w formularzu do wprowadzania.
Niestandardowy neuronowy głos (CNV) lite to typ projektu w publicznej wersji zapoznawczej. Możesz pokazować i oceniać niestandardowy neuronowy głos przed inwestowaniem w profesjonalne nagrania w celu utworzenia głosu o wyższej jakości. Do celów demonstracyjnych i ewaluacyjnych nie jest wymagana żadna aplikacja. Jednak firma Microsoft ogranicza i wybiera próbki nagrywania i testowania do użycia z cnV lite. Aby wdrożyć i użyć modelu CNV Lite do celów biznesowych, musisz ubiegać się o pełny dostęp do specjalistów CNV. W takim przypadku zażądaj dostępu w formularzu do wprowadzania.

W przypadku projektu CNV lite możesz nagrywać głos online, czytając 20-50 wstępnie zdefiniowanych skryptów dostarczonych przez firmę Microsoft. Po zarejestrowaniu co najmniej 20 próbek możesz zacząć trenować model. Po pomyślnym przeszkoleniu modelu możesz przejrzeć model i sprawdzić 20 przykładów wyjściowych utworzonych przy użyciu innego zestawu wstępnie zdefiniowanych skryptów.

Zobacz obsługiwane języki dla niestandardowego neuronowego głosu.

Porównywanie typów projektów

W poniższej tabeli przedstawiono najważniejsze różnice między typami projektów CNV lite i CNV professional.

Elementy	Lite (wersja zapoznawcza)	Pro
Scenariusze docelowego	Pokaz lub ocena	Profesjonalne scenariusze, takie jak głosy marki i znaków dla czatbotów lub odczytywanie zawartości audio.
Dane szkoleniowe	Rejestrowanie w trybie online przy użyciu usługi Speech Studio	Przynieś własne dane. Nagrywanie w profesjonalnym studio jest zalecane.
Skrypty do nagrywania	Udostępnione w usłudze Speech Studio	Użyj własnych skryptów, które pasują do scenariusza przypadku użycia. Firma Microsoft udostępnia przykładowe skrypty do celów referencyjnych .
Wymagany rozmiar danych	20–50 wypowiedzi	300–2000 wypowiedzi
Czas trenowania	Mniej niż jedna godzina obliczeniowa	Około 20–40 godzin obliczeniowych
Jakość głosu	Umiarkowana jakość	Wysoka jakość
Dostępność	Każdy może rejestrować próbki w trybie online i trenować model na potrzeby pokazu i oceny. Pełny dostęp do niestandardowego neuronowego głosu jest wymagany, jeśli chcesz wdrożyć model CNV Lite do użytku biznesowego.	Przekazywanie danych nie jest ograniczone, ale można trenować i wdrażać tylko profesjonalny model CNV po zatwierdzeniu dostępu. Dostęp profesjonalny CNV jest ograniczony na podstawie kryteriów kwalifikowalności i użycia. Zażądaj dostępu w formularzu do wprowadzania.
Cennik	Ceny jednostkowe mają zastosowanie w równym stopniu zarówno dla projektów profesjonalnych CNV lite, jak i CNV. Sprawdź szczegóły cennika tutaj.	Ceny jednostkowe mają zastosowanie w równym stopniu zarówno dla projektów profesjonalnych CNV lite, jak i CNV. Sprawdź szczegóły cennika tutaj.

Tworzenie niestandardowego projektu neuronowego głosu lite

Aby utworzyć niestandardowy projekt neuronowego głosu lite, wykonaj następujące kroki:

Zaloguj się do programu Speech Studio.
Wybierz subskrypcję i zasób usługi Mowa do pracy.
Wybierz pozycję Niestandardowy głos>Utwórz projekt.
Wybierz pozycję Niestandardowy neuronowy głos lite>Dalej. Aby utworzyć niestandardowy projekt profesjonalny głos neuronowy, zobacz Tworzenie projektu dla niestandardowego neuronowego głosu.
Postępuj zgodnie z instrukcjami podanymi przez kreatora, aby utworzyć projekt.

Ważne

Projekt CNV Lite wygasa po 90 dniach, chyba że zostanie przesłane ustne oświadczenie zarejestrowane przez talent głosowy.
Wybierz nowy projekt według nazwy lub wybierz pozycję Przejdź do projektu. Te elementy menu są widoczne w panelu po lewej stronie: Rejestrowanie i kompilowanie, Przeglądanie modelu i Wdrażanie modelu.

Rejestrowanie i tworzenie modelu CNV Lite

Zarejestruj co najmniej 20 próbek głosowych (do 50) z udostępnionymi skryptami w trybie online. Próbki głosu zarejestrowane w tym miejscu są używane do tworzenia syntetycznej wersji głosu.

Uwaga

Niestandardowe trenowanie neuronowego głosu jest obecnie dostępne tylko w niektórych regionach. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów .

Oto kilka wskazówek, które ułatwiają rejestrowanie próbek głosowych:

Użyj dobrego mikrofonu. Zwiększ przejrzystość próbek przy użyciu wysokiej jakości mikrofonu. Mówić o 8 cali od mikrofonu, aby uniknąć szumów ust.
Unikaj szumu tła. Rejestruj w cichym pomieszczeniu bez szumu tła lub echa.
Zrelaksować się i mówić naturalnie. Pozwól sobie wyrażać emocje podczas odczytywania zdań.
Zarejestruj w jednym z nich. Aby zachować spójny poziom energii, zapisz wszystkie zdania w jednej sesji.
Wymawiaj każde słowo poprawnie i wyraźnie mów.

Aby zarejestrować i skompilować model CNV Lite, wykonaj następujące kroki:

Wybierz pozycję Niestandardowy głos> Nazwa >projektu Rekord i kompilacja.
Wybierz Rozpocznij.
Uważnie przeczytaj warunki użytkowania talentu Voice. Zaznacz pole wyboru, aby potwierdzić warunki użytkowania.
Wybierz pozycję Akceptuj
Naciśnij ikonę mikrofonu, aby uruchomić sprawdzanie szumu. Ten sprawdzanie szumu trwa tylko kilka sekund i nie musisz mówić podczas niego.
Jeśli wykryto szum, możesz wybrać pozycję Sprawdź ponownie , aby powtórzyć sprawdzanie szumu. Jeśli nie wykryto szumu, możesz wybrać pozycję Gotowe , aby przejść do następnego kroku.
Przejrzyj porady dotyczące nagrywania i wybierz pozycję Got it (Got it). Aby uzyskać najlepsze wyniki, przejdź do cichego obszaru bez szumu tła przed zarejestrowaniem próbek głosowych.
Naciśnij ikonę mikrofonu, aby rozpocząć nagrywanie.
Naciśnij ikonę zatrzymania, aby zatrzymać nagrywanie.
Przejrzyj metryki jakości. Po zarejestrowaniu każdej próbki sprawdź jego metryki jakości, zanim przejdziesz do następnego.
Zarejestruj więcej przykładów. Mimo że można utworzyć model z zaledwie 20 próbkami, zaleca się zarejestrowanie do 50, aby uzyskać lepszą jakość.
Wybierz pozycję Train model (Trenowanie modelu ), aby rozpocząć proces trenowania.

Proces trenowania trwa około jednej godziny obliczeniowej. Postęp procesu trenowania można sprawdzić na stronie Przeglądanie modelu .

Przeglądanie modelu

Aby przejrzeć model CNV Lite i słuchać własnego syntetycznego głosu, wykonaj następujące kroki:

Wybierz pozycję Niestandardowy głos> Nazwa >projektu Przejrzyj model. W tym miejscu możesz przejrzeć nazwę modelu głosowego, język modelu, rozmiar przykładowych danych i postęp trenowania. Nazwa głosu składa się ze słowa "Neuronowe" dołączonego do nazwy projektu.
Wybierz nazwę modelu głosowego, aby przejrzeć szczegóły modelu i nasłuchiwać przykładowego tekstu w wynikach mowy.
Wybierz ikonę odtwarzania, aby usłyszeć głos każdego skryptu.

Prześlij oświadczenie słowne

Przed wdrożeniem modelu do użytku biznesowego wymagana jest ustna instrukcja zarejestrowana przez talent głosowy.

Aby przesłać oświadczenie słowne talentu głosowego, wykonaj następujące kroki:

Wybierz pozycję Niestandardowy głos> Nazwa >projektu Wdróż model>Zarządzanie talentami głosowymi.
Wybierz model.
Wprowadź nazwę talentu głosowego i nazwę firmy.
Odczytywanie i rejestrowanie instrukcji. Wybierz ikonę mikrofonu, aby rozpocząć nagrywanie. Wybierz ikonę zatrzymania, aby zatrzymać nagrywanie.
Wybierz pozycję Prześlij , aby przesłać instrukcję.
Sprawdź stan przetwarzania w tabeli skryptów w dolnej części pulpitu nawigacyjnego. Gdy stan to Powodzenie, możesz wdrożyć model.

Wdrażanie modelu

Aby wdrożyć model głosu i używać go w aplikacjach, musisz uzyskać pełny dostęp do niestandardowego neuronowego głosu. Zażądaj dostępu w formularzu do wprowadzania. W ciągu około 10 dni roboczych otrzymasz wiadomość e-mail ze stanem zatwierdzenia. Przed wdrożeniem modelu do użytku biznesowego wymagana jest również ustna instrukcja zarejestrowana przez talent głosowy.

Aby wdrożyć model CNV Lite, wykonaj następujące kroki:

Wybierz pozycję Niestandardowy głos> Nazwa >projektu Wdróż model>Wdróż model.
Wybierz nazwę modelu głosowego, a następnie wybierz pozycję Dalej.
Wprowadź nazwę i opis punktu końcowego, a następnie wybierz pozycję Dalej.
Zaznacz pole wyboru, aby wyrazić zgodę na warunki użytkowania, a następnie wybierz pozycję Dalej.
Wybierz pozycję Wdróż , aby wdrożyć model.

W tym miejscu możesz użyć modelu głosowego CNV Lite, podobnie jak w przypadku korzystania z profesjonalnego modelu głosu CNV. Można na przykład wstrzymać lub wznowić punkt końcowy po jego utworzeniu, aby ograniczyć wydatki i oszczędzać zasoby, które nie są używane. Możesz również uzyskać dostęp do głosu w narzędziu do tworzenia zawartości audio w programie Speech Studio.

Udostępnij za pośrednictwem