Förstå taligenkänning och syntes

2 minuter

Taligenkänning tar det talade ordet och konverterar det till data som kan bearbetas – ofta genom att transkribera det till text. Talet kan vara i form av en inspelad röst i en ljudfil eller direktsänt ljud från en mikrofon. Talmönster analyseras i ljudet i syfte att fastställa identifierbara mönster som sedan mappas mot ord. För att åstadkomma detta använder programvaran vanligtvis flera modeller, inklusive:

En akustisk modell som konverterar ljudsignalen till fonem (representationer av specifika ljud).
En språkmodell som mappar fonem mot ord, vanligtvis med en statistisk algoritm som förutsäger den mest sannolika sekvensen av ord baserat på fonemen.

De identifierade orden konverteras vanligtvis till text, som du kan använda i olika syften, till exempel:

Skapa undertexter för inspelade eller direktsända videor
Skapa en avskrift av ett telefonsamtal eller ett möte
Automatisk diktering av anteckningar
Fastställa avsedda användarindata för vidare bearbetning

Talsyntes handlar om röstdata, vanligtvis genom att konvertera text till tal. En talsynteslösning kräver vanligtvis följande information:

Texten som ska talas
Rösten som ska användas för att uttrycka talet

För att syntetisera tal omvandlar systemet vanligtvis texten till token för att bryta ned det i enskilda ord, och tilldelar fonetiska ljud för varje ord. Sedan bryts den fonetiska transkriptionen ned i prosodiska enheter (till exempel fraser, satser eller meningar) för att skapa fonem som konverteras till ljudformat. Dessa fonem syntetiseras sedan som ljud och kan tilldelas en viss röst, talfrekvens, tonhöjd och volym.

Du kan använda utdata från talsyntes i många olika syften, till exempel:

Generera talade svar på användarindata
Skapa röstmenyer för telefonsystem
Läsa e-post eller textmeddelanden högt i handsfree-scenarier
Sändningsmeddelanden på offentliga platser, till exempel järnvägsstationer eller flygplatser

Förstå taligenkänning och syntes

Feedback