Vad är talöversättning?

Artikel
03/10/2025

I den här artikeln får du lära dig mer om fördelarna och funktionerna i översättning med Azure AI Speech. Speech-tjänsten stöder tal till tal och tal i realtid till textöversättning av ljudströmmar i realtid.

Genom att använda Speech SDK eller Speech CLI kan du ge dina program, verktyg och enheter åtkomst till källavskrifter och översättningsutdata för det angivna ljudet. Interimstranskription och översättningsresultat returneras när tal identifieras och de slutliga resultaten kan konverteras till syntetiserat tal.

En lista över språk som stöds för talöversättning finns i Språk- och röststöd.

Dricks

Gå till Speech Studio för att snabbt testa och översätta tal till andra språk som du väljer med låg svarstid.

Kärnfunktioner

Huvudfunktionerna i talöversättning är:

Tal till textöversättning
Tal till talöversättning
Flerspråkig talöversättning
Översättning av flera målspråk

Tal till textöversättning

Standardfunktionen som erbjuds av Speech-tjänsten är möjligheten att ta in en indataljudström på det angivna källspråket och få den översatt och utdata som text på det angivna målspråket.

Tal till talöversättning

Som ett komplement till ovanstående funktion erbjuder Speech-tjänsten också alternativet att läsa upp den översatta texten med hjälp av vår stora databas med förtränad röst, vilket möjliggör en naturlig utdata från indatatalet.

Flerspråkig talöversättning

Flerspråkig talöversättning implementerar en ny nivå av talöversättningsteknik som låser upp olika funktioner, inklusive att inte ha något angivet indataspråk, hantera språkväxlar inom samma session och stödja liveuppspelningsöversättningar till engelska. Dessa funktioner möjliggör en ny nivå av talöversättningskrafter som kan implementeras i dina produkter.

Ospecificerat indataspråk. Flerspråkig talöversättning kan ta emot ljud på en mängd olika språk och det finns inget behov av att ange vad det förväntade indataspråket är.
Språkväxling. Flerspråkig talöversättning gör det möjligt att tala flera språk under samma session och låta alla översättas till samma målspråk. Du behöver inte starta om en session när indataspråket ändras eller andra åtgärder utförs av dig.
Transkription. Tjänsten matar ut en transkription på det angivna målspråket. Källspråkstranskription är inte tillgängligt än.

Några användningsfall för flerspråkig talöversättning är:

Resetolkare. När du reser utomlands erbjuder flerspråkig talöversättning möjligheten att skapa en lösning som gör det möjligt för kunder att översätta indataljud till och från det lokala språket. Detta gör att de kan kommunicera med lokalbefolkningen och bättre förstå sin omgivning.
Affärsmöte. I ett möte med personer som talar olika språk gör flerspråkig talöversättning att medlemmarna i mötet kan kommunicera med varandra naturligt som om det inte fanns någon språkbarriär.

En lista över de indataspråk som stöds (källspråk) finns i dokumentationen för tal till textspråk. En lista över de utdataspråk som stöds (mål) finns i tabellen Översätt till textspråk i dokumentationen för talöversättningsspråk.

Mer information om flerspråkig talöversättning finns i talöversättningen hur du vägleder och exempel på talöversättning på GitHub.

Översättning av flera målspråk

I scenarier där du vill ha utdata på flera språk erbjuder Speech-tjänsten direkt möjligheten att översätta indataspråket till två målspråk. På så sätt kan de ta emot två utdata och dela dessa översättningar till en bredare målgrupp med ett enda API-anrop. Om du behöver fler utdataspråk kan du skapa en resurs med flera tjänster eller använda separata översättningstjänster.

Om du behöver översättning till fler än två målspråk måste du antingen skapa en Azure AI-tjänstresurs eller använda separata översättningstjänster för fler språk utöver det andra. Om du väljer att anropa talöversättningstjänsten med en resurs med flera tjänster bör du tänka på att översättningsavgifterna gäller för varje språk utöver det andra, baserat på översättningens teckenantal.

Information om hur du beräknar den tillämpade översättningsavgiften finns i prissättningen för Azure AI Translator.

Prissättning för översättning av flera målspråk

Observera att talöversättningstjänsten fungerar i realtid och att mellanliggande talresultat översätts för att generera mellanliggande översättningsresultat. Därför är den faktiska översättningsmängden större än indataljudets token. Du debiteras för tal till text-transkription och textöversättning för varje målspråk.

Anta till exempel att du vill ha textöversättningar från en entimmes ljudfil till tre målspråk. Om det inledande talet till text-transkriptionen innehåller 10 000 tecken kan du debiteras 2,80 USD.

Varning

Priserna i det här exemplet är endast för illustrativa ändamål. Se prissättningen för Azure AI Speech och Prissättning för Azure AI Translator för den senaste prisinformationen.

Det tidigare exempelpriset på 2,80 USD beräknades genom att kombinera tal-till-text-transkription och kostnaderna för textöversättning. Så här gjordes beräkningen:

Talöversättningslistans pris är 2,50 USD per timme och täcker upp till 2 målspråk. Priset används som ett exempel på hur du beräknar kostnader. Se Pay as You Go>Speech Translation>Standard i pristabellen för Azure AI Speech för den senaste prisinformationen.
Kostnaden för översättning på tredje språket är 30 cent i det här exemplet. Översättningslistans pris är 10 USD per miljon tecken. Eftersom ljudfilen innehåller 10 000 tecken är översättningskostnaden 10 USD * 10 000 / 1 000 000 * 3 = 0,3 USD. Talet "3" i den här ekvationen representerar en viktningskoefficient för mellanliggande trafik, som kan variera beroende på vilka språk som berörs. Priset används som ett exempel på hur du beräknar kostnader. Se Betala som du gör>standardöversättning>Textöversättning i pristabellen för Azure AI Translator för den senaste prisinformationen.

Kom igång

Prova snabbstarten för talöversättning som första steg. Talöversättningstjänsten är tillgänglig via Speech SDK och Speech CLI.

Du hittar Speech SDK-tal till text- och översättningsexempel på GitHub. De här exemplen omfattar vanliga scenarier, till exempel att läsa ljud från en fil eller ström, kontinuerlig och enkel bildigenkänning och översättning och arbeta med anpassade modeller.

Dela via