Vytvoření řeči na rozpoznávání na textovou aplikaci s jedním snímkem

Dokončeno

V předchozím cvičení jste se naučili vytvořit účet služeb Azure AI pomocí Azure CLI. Teď, když máte účet služeb Azure AI, se kterým můžete pracovat, můžete začít pracovat na řečové aplikaci s textem.

Vaším prvním úkolem je vytvořit aplikaci, kterou vaše společnost může použít k přepisu krátkých poznámek od vašich lékařských klientů. Služby Azure AI poskytují dva různé typy rozpoznávání řeči, které můžete použít pro vývoj:

  • Rozpoznávání jedním snímkem

    • Jednostřelové rozpoznávání naslouchá přerušení zvuku a pak přestane rozpoznávat a zpracuje maximálně 15 sekund zvuku.

    • Tento typ rozpoznávání bude dobře fungovat pro stručné poznámky, které poskytují klienti vaší společnosti, ale nebude fungovat pro delší diktování.

    • Rozpoznávání s jedním snímkem je snazší implementovat ve vaší aplikaci, ale máte menší kontrolu.

  • Průběžné rozpoznávání

    • Průběžné rozpoznávání bude dál naslouchat, dokud se rozpoznávání nezastaví.

    • Tento typ rozpoznávání bude dobře fungovat pro krátké poznámky i delší diktování.

    • Nepřetržité rozpoznávání vyžaduje k implementaci ve vaší aplikaci více kódu, ale máte větší kontrolu.

V dalším cvičení použijete jednorázové rozpoznávání k vytvoření aplikace, kterou můžete použít k přepisu krátkých poznámek od klientů vaší společnosti. Později v tomto modulu pomocí průběžného rozpoznávání vytvoříte aplikaci, kterou můžete použít k přepisu krátkých poznámek i delších diktování.

Vytvoření aplikace pomocí rozpoznávání jedním snímkem k přepisu zvukových souborů

Pokud chcete vytvořit aplikaci, která bude převádět řeč na text pomocí rozpoznávání azure AI Speech s jedním snímkem, bude vaše aplikace muset provést všechny následující úlohy:

  • Zahrňte Microsoft.CognitiveServices.Speech balíček.

  • Vytvořte SpeechConfig třídu pomocí klíče rozhraní API z účtu služeb Azure AI.

  • Vytvořte AudioConfig třídu pomocí souboru WAVE jako zdroje.

  • Vytvořte SpeechRecognizer třídu pomocí třídy SpeechConfig a AudioConfig tříd.

  • RecognizeOnceAsync() Vyvolá metodu SpeechRecognizer třídy pro převod řeči na text.

  • Vytvořte StreamWriter třídu pro zápis převedeného textu do souboru.

V dalším cvičení se podrobněji podíváme na všechny tyto kroky.