Sammanfattning

1 minut

I den här modulen har du lärt dig om två viktiga aspekter av röstteknik: taligenkänning och syntes. Taligenkänning innebär att konvertera talade ord till data, ofta transkriberade till text, med hjälp av en akustisk modell och en språkmodell. Den här texten kan användas för olika syften som undertexter, avskrifter, automatiserad anteckningsdiktering och bearbetning av användarindata. Talsyntes handlar å andra sidan om att röstisera data, vanligtvis genom att konvertera text till tal. Syntetiserat tal kan användas för att generera talade svar, skapa röstmenyer, läsa e-postmeddelanden eller texter högt och sända meddelanden. Du har också lärt dig om Microsoft Azures AI Speech-tjänst, som tillhandahåller funktioner för taligenkänning och syntes via funktioner som Speech to Text och Text to Speech-API:er.

De viktigaste lärdomarna från den här modulen är funktionerna i Azure AI Speech-tjänsten. API:et Tal till text möjliggör realtids- eller batch-transkription av ljud till text, med hjälp av en modell som baseras på den universella språkmodell som tränats av Microsoft. Den kan användas för transkriptioner i realtid under presentationer eller demonstrationer, eller för batch-transkriptioner av lagrade ljudfiler. API:et text till tal konverterar textinmatning till hörbart tal, som kan anpassas med olika röster, språk och regionala uttalAzure AI Speech är ett mångsidigt verktyg som kan nås via olika plattformar som Azure AI Speech Studio, Azure AI Studio, Kommandoradsgränssnitt (CLI), REST-API:er och SDK:er (Software Development Kits).

Mer information om Azure AI Speech finns i tjänstdokumentationen.

Sammanfattning

Feedback