Förstå taligenkänning och syntes

Slutförd

Taligenkänning tar det talade ordet och konverterar det till data som kan bearbetas – ofta genom att transkribera det till text. Talet kan vara i form av en inspelad röst i en ljudfil eller direktsänt ljud från en mikrofon. Talmönster analyseras i ljudet i syfte att fastställa identifierbara mönster som sedan mappas mot ord. För att åstadkomma detta använder programvaran vanligtvis flera modeller, inklusive:

  • En akustisk modell som konverterar ljudsignalen till fonem (representationer av specifika ljud).
  • En språkmodell som mappar fonem mot ord, vanligtvis med en statistisk algoritm som förutsäger den mest sannolika sekvensen av ord baserat på fonemen.

De identifierade orden konverteras vanligtvis till text, som du kan använda i olika syften, till exempel:

  • Skapa undertexter för inspelade eller direktsända videor
  • Skapa en avskrift av ett telefonsamtal eller ett möte
  • Automatisk diktering av anteckningar
  • Fastställa avsedda användarindata för vidare bearbetning

Talsyntes handlar om röstdata, vanligtvis genom att konvertera text till tal. En talsynteslösning kräver vanligtvis följande information:

  • Texten som ska talas
  • Rösten som ska användas för att uttrycka talet

För att syntetisera tal omvandlar systemet vanligtvis texten till token för att bryta ned det i enskilda ord, och tilldelar fonetiska ljud för varje ord. Sedan bryts den fonetiska transkriptionen ned i prosodiska enheter (till exempel fraser, satser eller meningar) för att skapa fonem som konverteras till ljudformat. Dessa fonem syntetiseras sedan som ljud och kan tilldelas en viss röst, talfrekvens, tonhöjd och volym.

Du kan använda utdata från talsyntes i många olika syften, till exempel:

  • Generera talade svar på användarindata
  • Skapa röstmenyer för telefonsystem
  • Läsa e-post eller textmeddelanden högt i handsfree-scenarier
  • Sändningsmeddelanden på offentliga platser, till exempel järnvägsstationer eller flygplatser