Udostępnij za pośrednictwem


Zbieranie danych wejściowych użytkownika

Po wydaniu akcji Rozpoznawanie wywołań automatyzacji wywołań usług Azure Communication Services deweloperzy mogą teraz ulepszyć aplikacje IVR lub contact center w celu rozpoznawania danych wejściowych użytkownika. Jednym z najbardziej typowych scenariuszy rozpoznawania jest odtwarzanie komunikatu dla użytkownika, który monituje o podanie odpowiedzi, która następnie zostanie rozpoznana przez aplikację, po rozpoznaniu aplikacji wykonuje odpowiednią akcję. Dane wejściowe z obiektów wywołujących można odbierać na kilka sposobów, w tym DTMF (dane wejściowe użytkownika za pośrednictwem cyfr na urządzeniu wywołującym), mowę lub kombinację zarówno dtMF, jak i mowy.

Rozpoznawanie głosu za pomocą zamiany mowy na tekst

Integracja usług Azure Communications Services z usługami Azure AI umożliwia korzystanie z akcji Rozpoznawanie w celu analizowania dźwięku w czasie rzeczywistym w celu transkrypcji słowa mówionego w tekście. Firma Microsoft korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Ten model jest wstępnie wytrenowany dialektami i fonetykami reprezentującymi różne wspólne domeny. Aby uzyskać więcej informacji na temat obsługiwanych języków, zobacz Języki i obsługa głosu dla usługi Mowa.

DTMF

Rozpoznawanie wielosekwencyjnego podwójnego tonu (DTMF) to proces zrozumienia tonów/dźwięków generowanych przez telefon po naciśnięciu numeru. Sprzęt na końcu odbierania nasłuchiwanie określonego tonu następnie konwertuje je na polecenia. Te polecenia zazwyczaj sygnalizują intencję użytkownika podczas nawigowania po menu w scenariuszu IVR lub w niektórych przypadkach mogą służyć do przechwytywania ważnych informacji, które użytkownik musi dostarczyć za pomocą klawiatury telefonu.

Zdarzenia DTMF i skojarzone z nimi dźwięki

Zdarzenie Ton
0 Zero
1 Jeden
2 Dwa
3 Trzy
100 Cztery
5 Pięciu
6 Sześć
7 Siedem
8 Osiem
9 Dziewięć
A A
B B
C C
D D
* Gwiazdka
# Funt

Typowe przypadki użycia

Akcja rozpoznawania może być używana z wielu powodów. Poniżej przedstawiono kilka przykładów użycia akcji rozpoznawania w aplikacji przez deweloperów.

Ulepszanie podróży użytkownika za pomocą monitów samoobsługowych

  • Użytkownicy mogą kontrolować wywołanie — włączając rozpoznawanie danych wejściowych, możesz zezwolić obiektowi wywołującego na nawigowanie po menu IVR i podać informacje, których można użyć do rozwiązania zapytania.
  • Zbierz informacje o użytkowniku — włączając rozpoznawanie danych wejściowych, aplikacja może zbierać dane wejściowe od osób wywołujących. Mogą to być informacje, takie jak numery kont, informacje o karcie kredytowej itp.
  • Transkrypcja odpowiedzi wywołującego — dzięki funkcji rozpoznawania głosu można zbierać dane wejściowe użytkownika i transkrybować dźwięk do tekstu i analizować go w celu wykonania określonych działań biznesowych.

Przerywanie monitów dźwiękowych

Użytkownik może wyjść z menu IVR i porozmawiać z agentem ludzkim — dzięki przerwie DTMF aplikacja może umożliwić użytkownikom przerwanie przepływu menu IVR i możliwość rozmowy z agentem ludzkim.

Przykładowa architektura zbierania danych wejściowych użytkownika w wywołaniu za pomocą funkcji rozpoznawania głosu

Diagram przedstawiający przykładową architekturę akcji rozpoznawania sztucznej inteligencji.

Przykładowa architektura zbierania danych wejściowych użytkownika w wywołaniu

Akcja rozpoznawania

Znane ograniczenie

  • Jednostka DTMF w pasmie nie jest obsługiwana, zamiast tego należy użyć formatu DTMF RFC 2833.
  • Monity tekstowe zamiany tekstu na mowę obsługują maksymalnie 400 znaków, jeśli monit jest dłuższy niż sugerujemy użycie języka SSML dla akcji odtwarzania opartych na zamianie tekstu na mowę.
  • W przypadku scenariuszy, w których przekroczono limit przydziału usługi Mowa, możesz poprosić o zwiększenie tego limitu, wykonując kroki opisane tutaj.

Następne kroki

  • Zapoznaj się z naszym przewodnikiem z instrukcjami, aby dowiedzieć się, jak zbierać dane wejściowe użytkownika.
  • Dowiedz się więcej o użyciu i dziennikach operacyjnych opublikowanych przez automatyzację wywołań.