Udostępnij za pośrednictwem


Co to jest usługa Speech Studio?

Usługa Speech Studio to zestaw narzędzi opartych na interfejsie użytkownika do tworzenia i integrowania funkcji z usługi Azure AI Speech Service w aplikacjach. Projekty można tworzyć w programie Speech Studio przy użyciu podejścia bez kodu, a następnie odwoływać się do tych zasobów w aplikacjach przy użyciu zestawu Speech SDK, interfejsu wiersza polecenia usługi Mowa lub interfejsów API REST.

Napiwek

Możesz również spróbować zamiany mowy na tekst i tekst na mowę w portalu Azure AI Foundry bez rejestracji ani pisania jakiegokolwiek kodu.

Scenariusze usługi Speech Studio

Zapoznaj się, wypróbuj i wyświetl przykładowy kod dla niektórych typowych przypadków użycia.

  • Podpisy: wybierz przykładowy klip wideo, aby wyświetlić wyniki transkrysowania w czasie rzeczywistym lub offline. Dowiedz się, jak synchronizować podpisy z dźwiękiem wejściowym, stosować filtry wulgaryzmów, uzyskiwać częściowe wyniki, stosować dostosowania i identyfikować języki mówione w scenariuszach wielojęzycznych. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący podpisów.

  • Call Center: Zobacz pokaz dotyczący używania usług Language and Speech do analizowania konwersacji w centrum obsługi telefonicznej. Transkrypcja wywołań w czasie rzeczywistym lub przetwarzanie partii wywołań, redact personally identyfikujące informacje i wyodrębnianie szczegółowych informacji, takich jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start centrum obsługi telefonicznej.

Aby zapoznać się z pokazem tych scenariuszy w programie Speech Studio, zapoznaj się z tym wprowadzającym filmem wideo.

Funkcje programu Speech Studio

W programie Speech Studio następujące funkcje usługi mowa są dostępne jako typy projektów:

  • Zamiana mowy w czasie rzeczywistym na tekst: szybko przetestuj mowę na tekst, przeciągając tutaj pliki audio bez konieczności używania jakiegokolwiek kodu. Usługa Speech Studio udostępnia narzędzie demonstracyjne do wyświetlania sposobu działania mowy na tekst w przykładach dźwiękowych. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest zamiana mowy na tekst.

  • Zamiana mowy wsadowej na tekst: Szybkie testowanie możliwości transkrypcji wsadowej w celu transkrypcji dużej ilości dźwięku w magazynie i odbierania wyników asynchronicznie, aby dowiedzieć się więcej na temat zamiany mowy na tekst w usłudze Batch, zobacz Omówienie zamiany mowy na tekst w usłudze Batch.

  • Mowa niestandardowa: tworzenie modeli rozpoznawania mowy dostosowanych do określonych zestawów słownictwa i stylów mówienia. W przeciwieństwie do podstawowego modelu rozpoznawania mowy niestandardowe modele mowy stają się częścią unikatowej przewagi konkurencyjnej, ponieważ nie są one publicznie dostępne. Aby rozpocząć przekazywanie przykładowego dźwięku w celu utworzenia niestandardowego modelu mowy, zobacz Przekazywanie zestawów danych trenowania i testowania.

  • Ocena wymowy: Oceń wymowę mowy i przekaż prelegentom opinię na temat dokładności i biegłości dźwięku mówionego. Usługa Speech Studio udostępnia piaskownicę do szybkiego testowania tej funkcji bez kodu. Aby użyć funkcji z zestawem SPEECH SDK w aplikacjach, zobacz artykuł Ocena wymowy .

  • Tłumaczenie mowy: szybko przetestuj i przetłumacz mowę na inne wybrane języki z małym opóźnieniem. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest tłumaczenie mowy.

  • Galeria głosów: tworzenie aplikacji i usług, które mówią naturalnie. Wybierz spośród szerokiego portfolio języków, głosów i wariantów. Przynieś swoje scenariusze do życia z bardzo ekspresyjnymi i przypominającymi człowieka głosami neuronowymi.

  • Niestandardowy głos: tworzenie niestandardowych, jednoczesnych głosów na potrzeby zamiany tekstu na mowę. Dostarczasz pliki audio i tworzysz pasujące transkrypcje w usłudze Speech Studio, a następnie używasz niestandardowych głosów w aplikacjach. Aby utworzyć i używać niestandardowych głosów za pośrednictwem punktów końcowych, zobacz Tworzenie i używanie modelu głosu.

  • Tworzenie zawartości audio: podejście bez kodu do syntezy tekstu na mowę. Możesz użyć wyjściowego dźwięku zgodnie z rzeczywistym użyciem lub jako punktu wyjścia do dalszego dostosowywania. Możesz tworzyć wysoce naturalną zawartość audio dla różnych scenariuszy, takich jak audiobook, emisje wiadomości, narracje wideo i czatboty. Aby uzyskać więcej informacji, zobacz dokumentację Dotyczącą tworzenia zawartości audio.

  • Niestandardowe słowo kluczowe: niestandardowe słowo kluczowe to słowo lub krótka fraza, której można użyć do aktywowania produktu za pomocą głosu. W programie Speech Studio utworzysz niestandardowe słowo kluczowe, a następnie wygenerujesz plik binarny do użycia z zestawem SPEECH SDK w aplikacjach.

Następne kroki