Komma igång med tal i Azure
Microsoft Azure erbjuder funktioner för taligenkänning och syntes via Azure AI Speech-tjänsten , som har stöd för många funktioner, bland annat:
- Tal till text
- Text till tal
Kommentar
Den här modulen beskriver funktioner för tal till text och text till tal . En separat modul omfattar talöversättning i Azure AI-tjänster.
Tal till text
Du kan använda Azure AI Speech för att text-API:et för att utföra realtids- eller batch-transkription av ljud till ett textformat. Ljudkällan för transkription kan vara en ljudström i realtid från en mikrofon eller en ljudfil.
Modellen som används av API:et Tal till text baseras på den universella språkmodell som tränats av Microsoft. Data för modellen ägs av Microsoft och distribueras till Microsoft Azure. Modellen är optimerad för två scenarier; konversation och diktering. Du kan också skapa och träna dina egna anpassade modeller, inklusive akustik, språk och uttal om de färdiga modellerna från Microsoft inte ger det du behöver.
Transkription i realtid: Med tal till text i realtid kan du transkribera text i ljudströmmar. Du kan använda transkription i realtid för presentationer, demonstrationer eller andra scenarier där en person talar.
För att transkription i realtid ska fungera måste programmet lyssna efter inkommande ljud från en mikrofon eller annan ljudinmatningskälla, till exempel en ljudfil. Programkoden strömmar ljudet till tjänsten, som returnerar den transkriberade texten.
Batch-transkription: Alla tal till text-scenarier är inte realtid. Du kan ha ljudinspelningar lagrade på en filresurs, en fjärrserver eller till och med på Azure Storage. Du kan peka på ljudfiler med en SAS-URI (signatur för delad åtkomst) och asynkront ta emot transkriptionsresultat.
Batch-transkriptionen ska köras på ett asynkront sätt eftersom batchjobben schemaläggs baserat på bästa prestanda. Normalt börjar ett jobb köras inom några minuter efter begäran, men det finns ingen uppskattning för när ett jobb ändras till körningstillståndet.
Text till tal
Med api:et text till tal kan du konvertera textinmatning till hörbart tal, som antingen kan spelas upp direkt via en datorhögtalare eller skrivas till en ljudfil.
Talsyntesröster: När du använder text-till-tal-API:et kan du ange vilken röst som ska användas för att vocalisera texten. Den här funktionen ger dig flexibiliteten att anpassa din talsynteslösning och ge den en specifik karaktär.
Tjänsten innehåller flera fördefinierade röster med stöd för flera språk och regionalt uttal, inklusive neurala röster som utnyttjar neurala nätverk för att övervinna vanliga begränsningar i talsyntesen när det gäller intonation, vilket resulterar i en mer naturlig ljudröst. Du kan också utveckla anpassade röster och använda dem med text-till-tal-API:et
Språk som stöds
Både tal till text och text till tal-API:er stöder en mängd olika språk. Använd länkarna nedan för att hitta information om de språk som stöds: