Zbieranie danych wejściowych użytkownika
Po wydaniu akcji Rozpoznawanie wywołań automatyzacji wywołań usług Azure Communication Services deweloperzy mogą teraz ulepszyć aplikacje IVR lub contact center w celu rozpoznawania danych wejściowych użytkownika. Jednym z najbardziej typowych scenariuszy rozpoznawania jest odtwarzanie komunikatu dla użytkownika, który monituje o podanie odpowiedzi, która następnie zostanie rozpoznana przez aplikację, po rozpoznaniu aplikacji wykonuje odpowiednią akcję. Dane wejściowe z obiektów wywołujących można odbierać na kilka sposobów, w tym DTMF (dane wejściowe użytkownika za pośrednictwem cyfr na urządzeniu wywołującym), mowę lub kombinację zarówno dtMF, jak i mowy.
Rozpoznawanie głosu za pomocą zamiany mowy na tekst
Integracja usług Azure Communications Services z usługami Azure AI umożliwia korzystanie z akcji Rozpoznawanie w celu analizowania dźwięku w czasie rzeczywistym w celu transkrypcji słowa mówionego w tekście. Firma Microsoft korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Ten model jest wstępnie wytrenowany dialektami i fonetykami reprezentującymi różne wspólne domeny. Aby uzyskać więcej informacji na temat obsługiwanych języków, zobacz Języki i obsługa głosu dla usługi Mowa.
DTMF
Rozpoznawanie wielosekwencyjnego podwójnego tonu (DTMF) to proces zrozumienia tonów/dźwięków generowanych przez telefon po naciśnięciu numeru. Sprzęt na końcu odbierania nasłuchiwanie określonego tonu następnie konwertuje je na polecenia. Te polecenia zazwyczaj sygnalizują intencję użytkownika podczas nawigowania po menu w scenariuszu IVR lub w niektórych przypadkach mogą służyć do przechwytywania ważnych informacji, które użytkownik musi dostarczyć za pomocą klawiatury telefonu.
Zdarzenia DTMF i skojarzone z nimi dźwięki
Zdarzenie | Ton |
---|---|
0 | Zero |
1 | Jeden |
2 | Dwa |
3 | Trzy |
100 | Cztery |
5 | Pięciu |
6 | Sześć |
7 | Siedem |
8 | Osiem |
9 | Dziewięć |
A | A |
B | B |
C | C |
D | D |
* | Gwiazdka |
# | Funt |
Typowe przypadki użycia
Akcja rozpoznawania może być używana z wielu powodów. Poniżej przedstawiono kilka przykładów użycia akcji rozpoznawania w aplikacji przez deweloperów.
Ulepszanie podróży użytkownika za pomocą monitów samoobsługowych
- Użytkownicy mogą kontrolować wywołanie — włączając rozpoznawanie danych wejściowych, możesz zezwolić obiektowi wywołującego na nawigowanie po menu IVR i podać informacje, których można użyć do rozwiązania zapytania.
- Zbierz informacje o użytkowniku — włączając rozpoznawanie danych wejściowych, aplikacja może zbierać dane wejściowe od osób wywołujących. Mogą to być informacje, takie jak numery kont, informacje o karcie kredytowej itp.
- Transkrypcja odpowiedzi wywołującego — dzięki funkcji rozpoznawania głosu można zbierać dane wejściowe użytkownika i transkrybować dźwięk do tekstu i analizować go w celu wykonania określonych działań biznesowych.
Przerywanie monitów dźwiękowych
Użytkownik może wyjść z menu IVR i porozmawiać z agentem ludzkim — dzięki przerwie DTMF aplikacja może umożliwić użytkownikom przerwanie przepływu menu IVR i możliwość rozmowy z agentem ludzkim.
Przykładowa architektura zbierania danych wejściowych użytkownika w wywołaniu za pomocą funkcji rozpoznawania głosu
Przykładowa architektura zbierania danych wejściowych użytkownika w wywołaniu
Znane ograniczenie
- Jednostka DTMF w pasmie nie jest obsługiwana, zamiast tego należy użyć formatu DTMF RFC 2833.
- Monity tekstowe zamiany tekstu na mowę obsługują maksymalnie 400 znaków, jeśli monit jest dłuższy niż sugerujemy użycie języka SSML dla akcji odtwarzania opartych na zamianie tekstu na mowę.
- W przypadku scenariuszy, w których przekroczono limit przydziału usługi Mowa, możesz poprosić o zwiększenie tego limitu, wykonując kroki opisane tutaj.
Następne kroki
- Zapoznaj się z naszym przewodnikiem z instrukcjami, aby dowiedzieć się, jak zbierać dane wejściowe użytkownika.
- Dowiedz się więcej o użyciu i dziennikach operacyjnych opublikowanych przez automatyzację wywołań.