Udostępnij za pośrednictwem


Co to jest asystent głosowy?

Korzystając z asystentów głosowych w usłudze Mowa, deweloperzy mogą tworzyć naturalne, podobne do człowieka interfejsy konwersacyjne dla swoich aplikacji i środowisk. Usługa asystenta głosowego zapewnia szybką, niezawodną interakcję między urządzeniem a implementacją asystenta.

Wybieranie rozwiązania asystenta

Pierwszym krokiem tworzenia asystenta głosowego jest podjęcie decyzji o tym, co chcesz zrobić. Usługa rozpoznawania mowy udostępnia wiele uzupełniających rozwiązań do interakcji asystenta tworzenia. Możesz chcieć, aby aplikacja obsługiwała otwartą rozmowę z frazami, takimi jak "Muszę przejść do Seattle" lub "Jakiego rodzaju pizzę mogę zamówić?"

Architektura referencyjna do tworzenia asystenta głosowego przy użyciu zestawu SPEECH SDK

Diagram koncepcyjny przepływu usługi aranżacji asystenta głosowego.

Podstawowe funkcje

Niezależnie od tego, czy wybierasz niestandardowe słowo kluczowe, czy inne rozwiązanie do tworzenia interakcji asystenta, możesz użyć bogatego zestawu funkcji dostosowywania, aby dostosować asystenta do marki, produktu i osobowości.

Kategoria Funkcje
Niestandardowe słowo kluczowe Użytkownicy mogą rozpoczynać rozmowy z asystentami przy użyciu niestandardowego słowa kluczowego, takiego jak "Hey Contoso". Aplikacja wykonuje to za pomocą niestandardowego aparatu słowa kluczowego w zestawie SDK usługi Mowa, który można skonfigurować, przechodząc do sekcji Wprowadzenie do niestandardowych słów kluczowych. Asystenci głosowi mogą używać weryfikacji słowa kluczowego po stronie usługi w celu zwiększenia dokładności aktywacji słowa kluczowego (w porównaniu z używaniem samego urządzenia).
Zamiana mowy na tekst Asystentzy głosowi konwertują dźwięk w czasie rzeczywistym na rozpoznany tekst przy użyciu mowy na tekst z usługi Mowa. Ten tekst jest dostępny, ponieważ jest on transkrypcji, zarówno do implementacji asystenta, jak i aplikacji klienckiej.
Zamiana tekstu na mowę Odpowiedzi tekstowe asystenta są syntetyzowane za pomocą tekstu na mowę z usługi Mowa. Ta synteza jest następnie udostępniana aplikacji klienckiej jako strumień audio. Firma Microsoft oferuje możliwość tworzenia własnego niestandardowego, wysokiej jakości neuronowego tekstu na mowę (neuronowego TTS), który daje głos twojej marki.

Przykładowy kod i samouczki

Przykładowy kod tworzenia asystenta głosowego jest dostępny w usłudze GitHub w witrynie Azure-Samples/Cognitive-Services-Voice-Assistant.

Dostosowanie

Asystentów głosowych, które tworzysz przy użyciu usługi Mowa, mogą korzystać z pełnej gamy opcji dostosowywania.

Uwaga

Opcje dostosowywania różnią się w zależności od języka i ustawień regionalnych. Aby dowiedzieć się więcej, zobacz Obsługiwane języki.