Vad är text till tal?

Artikel
10/31/2024

I den här översikten får du lära dig om fördelarna och funktionerna i text till tal-funktionen i Speech-tjänsten, som är en del av Azure AI-tjänster.

Text till tal gör att dina program, verktyg eller enheter kan konvertera text till människor som syntetiserat tal. Funktionen text till tal kallas även talsyntes. Använd mänskliga som fördefinierade neurala röster direkt eller skapa en anpassad neural röst som är unik för din produkt eller ditt varumärke. En fullständig lista över röster, språk och språk som stöds finns i Språk- och röststöd för Speech-tjänsten.

Kärnfunktioner

Text till tal innehåller följande funktioner:

Funktion	Sammanfattning	Demo
Fördefinierad neural röst (kallas Neural på prissidan)	Mycket naturliga out-of-the-box röster. Skapa en Azure-prenumeration och en Speech-resurs och använd sedan Speech SDK eller besök Speech Studio-portalen och välj fördefinierade neurala röster för att komma igång. Kontrollera prisinformationen.	Kontrollera röstgalleriet och bestäm rätt röst för dina affärsbehov.
Anpassad neural röst (kallas anpassad neural på prissidan)	Lätt att använda självbetjäning för att skapa en naturlig varumärkesröst, med begränsad åtkomst för ansvarsfull användning. Skapa en Azure-prenumeration och en Speech-resurs (med S0-nivån) och använd den anpassade röstfunktionen. När du har beviljats åtkomst går du till Speech Studio-portalen och väljer Anpassad röst för att komma igång. Kontrollera prisinformationen.	Kontrollera röstexemplen.

Mer om neural text till tal-funktioner

Text till tal använder djupa neurala nätverk för att göra datorernas röster nästan oskiljaktiga från inspelningarna av människor. Med tydlig artikulering av ord minskar neural text till tal avsevärt lyssningströttheten när användare interagerar med AI-system.

Mönster av stress och intonation i talat språk kallas prosody. Traditionella text-till-tal-system delar upp prosodi i separata språkanalyser och akustiska förutsägelsesteg som styrs av oberoende modeller. Det kan resultera i dämpad, livlig röstsyntes.

Här är mer information om neural text till tal-funktioner i Speech-tjänsten och hur de övervinner gränserna för traditionella text till talsystem:

Talsyntes i realtid: Använd Speech SDK eller REST API för att konvertera text till tal med hjälp av fördefinierade neurala röster eller anpassade neurala röster.
Asynkron syntes av långt ljud: Använd batchsyntes-API:et för att asynkront syntetisera text till talfiler längre än 10 minuter (till exempel ljudböcker eller föreläsningar). Till skillnad från syntes som utförs via Speech SDK eller Speech to text REST API returneras inte svar i realtid. Förväntningarna är att begäranden skickas asynkront, svar avsöks och syntetiserat ljud laddas ned när tjänsten gör den tillgänglig.
Fördefinierade neurala röster: Azure AI Speech använder djupa neurala nätverk för att övervinna gränserna för traditionell talsyntes när det gäller stress och intonation i talat språk. Prosody förutsägelse och röstsyntes sker samtidigt, vilket resulterar i mer flytande och naturligt klingande utdata. Varje fördefinierad neural röstmodell är tillgänglig på 24 kHz och 48 kHz med hög återgivning. Du kan använda neurala röster för att:
- Gör interaktioner med chattrobotar och röstassistenter mer naturliga och engagerande.
- Konvertera digitala texter som e-böcker till ljudböcker.
- Förbättra navigeringssystemen i bilen.
En fullständig lista över fördefinierade neurala Azure AI Speech-röster finns i Språk- och röststöd för Speech-tjänsten.
Förbättra text till talutdata med SSML: Speech Synthesis Markup Language (SSML) är ett XML-baserat markeringsspråk som används för att anpassa text till talutdata. Med SSML kan du justera tonhöjd, lägga till pauser, förbättra uttalet, ändra talfrekvens, justera volymen och tilldela flera röster till ett enda dokument.

Du kan använda SSML för att definiera egna lexikon eller växla till olika talformat. Med flerspråkiga röster kan du också justera talarspråken via SSML. Information om hur du förbättrar röstutdata för ditt scenario finns i Förbättra syntesen med talsyntesmarkeringsspråk och talsyntes med verktyget Skapa ljudinnehåll.
Visemes: Visemes är de viktigaste poserna i observerat tal, inklusive läpparnas, käkens och tungans position när det gäller att producera en viss fonem. Visemes har en stark korrelation med röster och fonem.

Genom att använda viseme-händelser i Speech SDK kan du generera ansiktsanimeringsdata. Dessa data kan användas för att animera ansikten i läppläsningskommunikation, utbildning, underhållning och kundtjänst. Viseme stöds för närvarande endast för neurala en-US röster (amerikanska engelska).

Kommentar

Förutom neurala Azure AI Speech-röster (icke HD) kan du också använda HD-röster (Azure AI Speech) och Neurala Azure OpenAI-röster (HD och icke HD). HD-rösterna ger en högre kvalitet för mer mångsidiga scenarier.

Vissa röster stöder inte alla SSML-taggar (Speech Synthesis Markup Language). Detta inkluderar neural text till HD-talröster, personliga röster och inbäddade röster.

För HD-röster (Azure AI Speech high definition) kontrollerar du SSML-stödet här.
För personlig röst kan du hitta SSML-supporten här.
För inbäddade röster kontrollerar du SSML-stödet här.

Kom igång

Information om hur du kommer igång med text till tal finns i snabbstarten. Text till tal är tillgängligt via Speech SDK, REST API och Speech CLI.

Dricks

Om du vill konvertera text till tal utan kod kan du prova verktyget Skapa ljudinnehåll i Speech Studio.

Exempelkod

Exempelkod för text till tal är tillgänglig på GitHub. De här exemplen omfattar text till talkonvertering på de mest populära programmeringsspråken:

Anpassad neural röst

Förutom fördefinierade neurala röster kan du skapa anpassade neurala röster som är unika för din produkt eller ditt varumärke. Allt som krävs för att komma igång är en handfull ljudfiler och tillhörande transkriptioner. Mer information finns i Kom igång med anpassad neural röst.

Prisanteckning

Fakturerbara tecken

När du använder funktionen text till tal debiteras du för varje tecken som konverteras till tal, inklusive skiljetecken. Även om själva SSML-dokumentet inte kan faktureras räknas valfria element som används för att justera hur texten konverteras till tal, till exempel fonem och tonhöjd, som fakturerbara tecken. Här är en lista över vad som kan faktureras:

Text som skickas till text till tal-funktionen i SSML-brödtexten i begäran
Alla markeringar i textfältet i begärandetexten i SSML-format, förutom <speak> taggar och <voice>
Bokstäver, skiljetecken, blanksteg, flikar, markeringar och alla blankstegstecken
Varje kodpunkt som definieras i Unicode

Detaljerad information finns i Priser för Speech-tjänsten.

Viktigt!

Varje kinesiskt tecken räknas som två tecken för fakturering, inklusive kanji som används på japanska, hanja som används på koreanska eller hanzi som används på andra språk.

Modellträning och värdtid för anpassad neural röst

Anpassad neural röstträning och värd beräknas både per timme och faktureras per sekund. Information om priset för faktureringsenhet finns i Priser för Speech-tjänsten.

Träningstiden för anpassad neural röst (CNV) mäts med "beräkningstimme" (en enhet för att mäta datorns körningstid). När du tränar en röstmodell körs vanligtvis två databehandlingsuppgifter parallellt. Därför är de beräknade beräkningstimmarna längre än den faktiska träningstiden. I genomsnitt tar det mindre än en beräkningstimme att träna en CNV Lite-röst. för CNV Pro tar det vanligtvis 20 till 40 beräkningstimmar att träna en röst i en stil och cirka 90 beräkningstimmar för att träna en röst i flera format. CNV-träningstiden faktureras med ett tak på 96 beräkningstimmar. Så om en röstmodell tränas i 98 beräkningstimmar debiteras du bara med 96 beräkningstimmar.

CnV-slutpunktsvärd (Custom Neural Voice) mäts med den faktiska tiden (timme). Värdtiden (timmar) för varje slutpunkt beräknas till 00:00 UTC varje dag under de senaste 24 timmarna. Om slutpunkten till exempel har varit aktiv i 24 timmar på dag ett debiteras den i 24 timmar klockan 00:00 UTC den andra dagen. Om slutpunkten nyligen har skapats eller pausats under dagen debiteras den för den ackumulerade körningstiden fram till 00:00 UTC den andra dagen. Om slutpunkten inte finns för närvarande debiteras den inte. Utöver den dagliga beräkningen kl. 00:00 UTC varje dag utlöses faktureringen också omedelbart när en slutpunkt tas bort eller pausas. För en slutpunkt som skapades kl. 08:00 UTC den 1 december beräknas värdtimpen till 16 timmar kl. 00:00 UTC den 2 december och 24 timmar kl. 00:00 UTC den 3 december. Om användaren pausar värdtjänsten för slutpunkten kl. 16:30 UTC den 3 december beräknas varaktigheten (16,5 timmar) från 00:00 till 16:30 UTC den 3 december för fakturering.

Personlig röst

När du använder den personliga röstfunktionen debiteras du för både profillagring och syntes.

Profillagring: När en personlig röstprofil har skapats debiteras den tills den tas bort från systemet. Faktureringsenheten är per röst och dag. Om röstlagringen varar i mindre än 24 timmar debiteras den fortfarande som en hel dag.
Syntes: Fakturerad per tecken. Mer information om fakturerbara tecken finns i ovanstående fakturerbara tecken.

Text till tal-avatar

När du använder avatarfunktionen text-till-tal debiteras avgifter per sekund baserat på längden på videoutdata. Men för realtidsavatar debiteras avgifter per sekund baserat på den tid då avataren är aktiv, oavsett om den talar eller förblir tyst. Information om hur du optimerar kostnaderna för användning av avatarer i realtid finns i tipsen "Använd lokal video för inaktiv" i exempelkoden för avatarchatt.

Anpassad text-till-tal-avatarträning är att tiden mäts med "beräkningstimman" (datorns körningstid) och faktureras per sekund. Träningsvaraktigheten varierar beroende på hur mycket data du använder. Det tar normalt 20–40 beräkningstimmar i genomsnitt att träna en anpassad avatar. Avatarträningstiden faktureras med ett tak på 96 beräkningstimmar. Så om en avatarmodell tränas i 98 beräkningstimmar debiteras du bara för 96 beräkningstimmar.

Avatar hosting debiteras per sekund per slutpunkt. Du kan pausa slutpunkten för att spara kostnader. Om du vill pausa slutpunkten kan du ta bort den direkt. Om du vill använda den igen distribuerar du slutpunkten igen.

Övervaka Text till tal-mått i Azure

Övervakning av viktiga mått som är associerade med text till taltjänster är avgörande för att hantera resursanvändning och kontrollera kostnader. Det här avsnittet beskriver hur du hittar användningsinformation i Azure Portal och ger detaljerade definitioner av nyckelmåtten. Mer information om Azure Monitor-mått finns i Översikt över Azure Monitor-mått.

Så här hittar du användningsinformation i Azure Portal

För att effektivt hantera dina Azure-resurser är det viktigt att du får åtkomst till och granskar användningsinformation regelbundet. Så här hittar du användningsinformationen:

Gå till Azure Portal och logga in med ditt Azure-konto.
Gå till Resurser och välj den resurs som du vill övervaka.
Välj Mått under Övervakning på den vänstra menyn.
Anpassa måttvyer.

Du kan filtrera data efter resurstyp, måtttyp, tidsintervall och andra parametrar för att skapa anpassade vyer som överensstämmer med dina övervakningsbehov. Dessutom kan du spara måttvyn på instrumentpaneler genom att välja Spara på instrumentpanelen för enkel åtkomst till mått som används ofta.
Konfigurera aviseringar.

Om du vill hantera användningen mer effektivt konfigurerar du aviseringar genom att gå till fliken Aviseringar under Övervakning från den vänstra menyn. Aviseringar kan meddela dig när din användning når specifika tröskelvärden, vilket hjälper till att förhindra oväntade kostnader.

Definition av mått

Här är en tabell som sammanfattar nyckelmåtten för Text till tal i Azure.

Måttnamn	Beskrivning
Syntetiserade tecken	Spårar antalet tecken som konverterats till tal, inklusive fördefinierad neural röst och anpassad neural röst. Mer information om fakturerbara tecken finns i Fakturerbara tecken.
Syntetiserade videosekunder	Mäter den totala varaktigheten för videon som syntetiseras, inklusive batch-avatarsyntes, avatarsyntes i realtid och anpassad avatarsyntes.
Avatar modell värd sekunder	Spårar den totala tiden i sekunder som din anpassade avatarmodell finns.
Värdtimmar för röstmodell	Spårar den totala tiden i timmar som din anpassade neurala röstmodell finns.
Träningsminuter för röstmodell	Mäter den totala tiden i minuter för träning av din anpassade neurala röstmodell.

Referensdokument

Ansvarsfull AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.

Dela via