Co to jest usługa Speech Studio?
Usługa Speech Studio to zestaw narzędzi opartych na interfejsie użytkownika do tworzenia i integrowania funkcji z usługi Azure AI Speech Service w aplikacjach. Projekty można tworzyć w programie Speech Studio przy użyciu podejścia bez kodu, a następnie odwoływać się do tych zasobów w aplikacjach przy użyciu zestawu Speech SDK, interfejsu wiersza polecenia usługi Mowa lub interfejsów API REST.
Napiwek
Możesz również spróbować zamiany mowy na tekst i tekst na mowę w portalu Azure AI Foundry bez rejestracji ani pisania jakiegokolwiek kodu.
Scenariusze usługi Speech Studio
Zapoznaj się, wypróbuj i wyświetl przykładowy kod dla niektórych typowych przypadków użycia.
Podpisy: wybierz przykładowy klip wideo, aby wyświetlić wyniki transkrysowania w czasie rzeczywistym lub offline. Dowiedz się, jak synchronizować podpisy z dźwiękiem wejściowym, stosować filtry wulgaryzmów, uzyskiwać częściowe wyniki, stosować dostosowania i identyfikować języki mówione w scenariuszach wielojęzycznych. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący podpisów.
Call Center: Zobacz pokaz dotyczący używania usług Language and Speech do analizowania konwersacji w centrum obsługi telefonicznej. Transkrypcja wywołań w czasie rzeczywistym lub przetwarzanie partii wywołań, redact personally identyfikujące informacje i wyodrębnianie szczegółowych informacji, takich jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start centrum obsługi telefonicznej.
Aby zapoznać się z pokazem tych scenariuszy w programie Speech Studio, zapoznaj się z tym wprowadzającym filmem wideo.
Funkcje programu Speech Studio
W programie Speech Studio następujące funkcje usługi mowa są dostępne jako typy projektów:
Zamiana mowy w czasie rzeczywistym na tekst: szybko przetestuj mowę na tekst, przeciągając tutaj pliki audio bez konieczności używania jakiegokolwiek kodu. Usługa Speech Studio udostępnia narzędzie demonstracyjne do wyświetlania sposobu działania mowy na tekst w przykładach dźwiękowych. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest zamiana mowy na tekst.
Zamiana mowy wsadowej na tekst: Szybkie testowanie możliwości transkrypcji wsadowej w celu transkrypcji dużej ilości dźwięku w magazynie i odbierania wyników asynchronicznie, aby dowiedzieć się więcej na temat zamiany mowy na tekst w usłudze Batch, zobacz Omówienie zamiany mowy na tekst w usłudze Batch.
Mowa niestandardowa: tworzenie modeli rozpoznawania mowy dostosowanych do określonych zestawów słownictwa i stylów mówienia. W przeciwieństwie do podstawowego modelu rozpoznawania mowy niestandardowe modele mowy stają się częścią unikatowej przewagi konkurencyjnej, ponieważ nie są one publicznie dostępne. Aby rozpocząć przekazywanie przykładowego dźwięku w celu utworzenia niestandardowego modelu mowy, zobacz Przekazywanie zestawów danych trenowania i testowania.
Ocena wymowy: Oceń wymowę mowy i przekaż prelegentom opinię na temat dokładności i biegłości dźwięku mówionego. Usługa Speech Studio udostępnia piaskownicę do szybkiego testowania tej funkcji bez kodu. Aby użyć funkcji z zestawem SPEECH SDK w aplikacjach, zobacz artykuł Ocena wymowy .
Tłumaczenie mowy: szybko przetestuj i przetłumacz mowę na inne wybrane języki z małym opóźnieniem. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest tłumaczenie mowy.
Galeria głosów: tworzenie aplikacji i usług, które mówią naturalnie. Wybierz spośród szerokiego portfolio języków, głosów i wariantów. Przynieś swoje scenariusze do życia z bardzo ekspresyjnymi i przypominającymi człowieka głosami neuronowymi.
Niestandardowy głos: tworzenie niestandardowych, jednoczesnych głosów na potrzeby zamiany tekstu na mowę. Dostarczasz pliki audio i tworzysz pasujące transkrypcje w usłudze Speech Studio, a następnie używasz niestandardowych głosów w aplikacjach. Aby utworzyć i używać niestandardowych głosów za pośrednictwem punktów końcowych, zobacz Tworzenie i używanie modelu głosu.
Tworzenie zawartości audio: podejście bez kodu do syntezy tekstu na mowę. Możesz użyć wyjściowego dźwięku zgodnie z rzeczywistym użyciem lub jako punktu wyjścia do dalszego dostosowywania. Możesz tworzyć wysoce naturalną zawartość audio dla różnych scenariuszy, takich jak audiobook, emisje wiadomości, narracje wideo i czatboty. Aby uzyskać więcej informacji, zobacz dokumentację Dotyczącą tworzenia zawartości audio.
Niestandardowe słowo kluczowe: niestandardowe słowo kluczowe to słowo lub krótka fraza, której można użyć do aktywowania produktu za pomocą głosu. W programie Speech Studio utworzysz niestandardowe słowo kluczowe, a następnie wygenerujesz plik binarny do użycia z zestawem SPEECH SDK w aplikacjach.