Vytvoření řeči na rozpoznávání na textovou aplikaci s jedním snímkem

5 min

V předchozím cvičení jste se naučili vytvořit účet služeb Azure AI pomocí Azure CLI. Teď, když máte účet služeb Azure AI, se kterým můžete pracovat, můžete začít pracovat na řečové aplikaci s textem.

Vaším prvním úkolem je vytvořit aplikaci, kterou vaše společnost může použít k přepisu krátkých poznámek od vašich lékařských klientů. Služby Azure AI poskytují dva různé typy rozpoznávání řeči, které můžete použít pro vývoj:

Rozpoznávání jedním snímkem
- Jednostřelové rozpoznávání naslouchá přerušení zvuku a pak přestane rozpoznávat a zpracuje maximálně 15 sekund zvuku.
- Tento typ rozpoznávání bude dobře fungovat pro stručné poznámky, které poskytují klienti vaší společnosti, ale nebude fungovat pro delší diktování.
- Rozpoznávání s jedním snímkem je snazší implementovat ve vaší aplikaci, ale máte menší kontrolu.
Průběžné rozpoznávání
- Průběžné rozpoznávání bude dál naslouchat, dokud se rozpoznávání nezastaví.
- Tento typ rozpoznávání bude dobře fungovat pro krátké poznámky i delší diktování.
- Nepřetržité rozpoznávání vyžaduje k implementaci ve vaší aplikaci více kódu, ale máte větší kontrolu.

V dalším cvičení použijete jednorázové rozpoznávání k vytvoření aplikace, kterou můžete použít k přepisu krátkých poznámek od klientů vaší společnosti. Později v tomto modulu pomocí průběžného rozpoznávání vytvoříte aplikaci, kterou můžete použít k přepisu krátkých poznámek i delších diktování.

Vytvoření aplikace pomocí rozpoznávání jedním snímkem k přepisu zvukových souborů

Pokud chcete vytvořit aplikaci, která bude převádět řeč na text pomocí rozpoznávání azure AI Speech s jedním snímkem, bude vaše aplikace muset provést všechny následující úlohy:

Zahrňte Microsoft.CognitiveServices.Speech balíček.
Vytvořte SpeechConfig třídu pomocí klíče rozhraní API z účtu služeb Azure AI.
Vytvořte AudioConfig třídu pomocí souboru WAVE jako zdroje.
Vytvořte SpeechRecognizer třídu pomocí třídy SpeechConfig a AudioConfig tříd.
RecognizeOnceAsync() Vyvolá metodu SpeechRecognizer třídy pro převod řeči na text.
Vytvořte StreamWriter třídu pro zápis převedeného textu do souboru.

V dalším cvičení se podrobněji podíváme na všechny tyto kroky.

Vytvoření řeči na rozpoznávání na textovou aplikaci s jedním snímkem

Vytvoření aplikace pomocí rozpoznávání jedním snímkem k přepisu zvukových souborů

Váš názor