Vad är Speech Service?

Artikel
09/20/2024

Speech-tjänsten tillhandahåller funktioner för tal till text och text till tal med en Speech-resurs. Du kan transkribera tal till text med hög noggrannhet, producera naturligt klingande text till talröster, översätta talat ljud och använda talarigenkänning under konversationer.

Bild av paneler som markerar vissa funktioner i Speech-tjänsten.

Skapa egna röster, lägg till specifika ord i basordförrådet eller skapa egna modeller. Kör Speech var som helst – i molnet eller containrar i gränsmiljöer. Det är enkelt att talaktivera dina program, verktyg och enheter med Speech CLI, Speech SDK och REST API:er.

Tal är tillgängligt för många språk, regioner och prispunkter.

Tal-scenarier

Vanliga scenarier för tal är:

Bildtext: Lär dig hur du synkroniserar bildtexter med ditt indataljud, tillämpar svordomsfilter, får partiella resultat, tillämpar anpassningar och identifierar talade språk för flerspråkiga scenarier.
Skapande av ljudinnehåll: Du kan använda neurala röster för att göra interaktioner med chattrobotar och röstassistenter mer naturliga och engagerande, konvertera digitala texter som e-böcker till ljudböcker och förbättra navigeringssystemen i bilen.
Call Center: Transkribera samtal i realtid eller bearbeta en grupp samtal, redigera personligt identifierande information och extrahera insikter som sentiment för att hjälpa till med ditt användningsfall för callcenter.
Språkinlärning: Ge uttalsutvärderingsfeedback till språkinlärare, stöd för transkription i realtid för fjärrinlärningskonversationer och läs upp undervisningsmaterial med neurala röster.
Röstassistenter: Skapa naturliga, mänskliga gränssnitt som konversationsgränssnitt för deras program och upplevelser. Funktionen röstassistent ger snabb och tillförlitlig interaktion mellan en enhet och en assistentimplementering.

Microsoft använder Speech för många scenarier, till exempel textning i Teams, diktering i Office 365 och Läs upp i Microsoft Edge-webbläsaren.

Bild som visar logotyper för Microsoft-produkter där Speech-tjänsten används.

Talfunktioner

De här avsnitten sammanfattar Talfunktioner med länkar för mer information.

Tal till text

Använd tal till text för att transkribera ljud till text, antingen i realtid eller asynkront med batch-transkription.

Dricks

Du kan prova tal till text i realtid i Speech Studio utan att registrera dig eller skriva någon kod.

Konvertera ljud till text från en rad olika källor som mikrofoner, ljudfiler och bloblagring. Använd talardiarisering för att avgöra vem som sa vad och när. Få läsbara transkriptioner med automatisk formatering och interpunktion.

Basmodellen kanske inte räcker om ljudet innehåller omgivande brus eller innehåller många bransch- och domänspecifika jargonger. I dessa fall kan du skapa och träna anpassade talmodeller med akustiska data, språk och uttalsdata. Anpassade talmodeller är privata och kan ge en konkurrensfördel.

Tal till text i realtid

Med tal till text i realtid transkriberas ljudet eftersom tal känns igen från en mikrofon eller fil. Använd tal till text i realtid för program som behöver transkribera ljud i realtid, till exempel:

Transkriptioner, bildtexter eller undertexter för livemöten
Diarisering
Uttalsbedömning
Hjälp med kontaktcenteragenter
Diktering
Röstagenter

API för snabb transkription

API för snabb transkription används för att transkribera ljudfiler med resultat som returneras synkront och mycket snabbare än realtidsljud. Använd snabb transkription i scenarier där du behöver avskriften av en ljudinspelning så snabbt som möjligt med förutsägbar svarstid, till exempel:

Snabb transkription av ljud eller video, undertexter och redigering.
Videoöversättning

Information om hur du kommer igång med snabb transkription finns i använda API:et för snabb transkription.

Batch-transkription

Batch-transkription används för att transkribera en stor mängd ljud i lagringen. Du kan peka på ljudfiler med en SAS-URI (signatur för delad åtkomst) och asynkront ta emot transkriptionsresultat. Använd batch-transkription för program som behöver transkribera ljud i bulk, till exempel:

Transkriptioner, bildtexter eller undertexter för förinspelat ljud
Analys efter samtal i kontaktcenter
Diarisering

Text till tal

Med text till tal kan du konvertera indatatext till människa som syntetiserat tal. Använd neurala röster, som är mänskliga som röster som drivs av djupa neurala nätverk. Använd Speech Synthesis Markup Language (SSML) för att finjustera tonhöjd, uttal, talfrekvens, volym med mera.

Fördefinierad neural röst: Mycket naturliga out-of-the-box-röster. Kontrollera de fördefinierade neurala röstexemplen i röstgalleriet och fastställa rätt röst för dina affärsbehov.
Anpassad neural röst: Förutom de fördefinierade neurala röster som kommer ut ur lådan kan du också skapa en anpassad neural röst som är igenkännlig och unik för ditt varumärke eller din produkt. Anpassade neurala röster är privata och kan erbjuda en konkurrensfördel. Kontrollera de anpassade neurala röstexemplen här.

Talöversättning

Talöversättning möjliggör flerspråkig översättning av tal i realtid till dina program, verktyg och enheter. Använd den här funktionen för tal till tal och tal till textöversättning.

Språkidentifiering

Språkidentifiering används för att identifiera språk som talas i ljud jämfört med en lista över språk som stöds. Använd språkidentifiering på egen hand, med tal till textigenkänning eller med talöversättning.

Talarigenkänning

Talarigenkänning ger algoritmer som verifierar och identifierar talare med sina unika röstegenskaper. Talarigenkänning används för att besvara frågan "Vem talar?".

Uttalsbedömning

Uttalsbedömning utvärderar tal uttal och ger talarna feedback om noggrannheten och flytet i talat ljud. Med uttalsutvärdering kan språkinlärarna öva, få omedelbar feedback och förbättra sitt uttal så att de kan känna sig trygga i att tala och göra presentationer.

Avsiktsigenkänning

Avsiktsigenkänning: Använd tal till text med förståelse för konversationsspråk för att härleda användaravsikter från transkriberat tal och agera på röstkommandon.

Leverans och närvaro

Du kan distribuera Azure AI Speech-funktioner i molnet eller lokalt.

Med containrar kan du föra tjänsten närmare dina data av kompatibilitets-, säkerhets- eller andra driftsskäl.

Distribution av taltjänsten i nationella moln är tillgänglig för vissa myndighetsentiteter och deras partner. Azure Government-molnet är till exempel tillgängligt för amerikanska myndigheter och deras partner. Microsoft Azure som drivs av 21Vianet-molnet är tillgängligt för organisationer med företagsnärvaro i Kina. Mer information finns i nationella moln.

Diagram som visar var Speech-tjänsten kan distribueras och nås.

Använda Speech i ditt program

Speech Studio är en uppsättning gränssnittsbaserade verktyg för att skapa och integrera funktioner från Azure AI Speech-tjänsten i dina program. Du skapar projekt i Speech Studio med hjälp av en metod utan kod och refererar sedan till dessa tillgångar i dina program med hjälp av Speech SDK, Speech CLI eller REST-API:erna.

Speech CLI är ett kommandoradsverktyg för att använda Speech Service utan att behöva skriva någon kod. De flesta funktioner i Speech SDK är tillgängliga i Speech CLI och vissa avancerade funktioner och anpassningar har förenklats.

Speech SDK exponerar många av de Speech-tjänstfunktioner som du kan använda för att utveckla talaktiverade program. Speech SDK är tillgängligt på många programmeringsspråk och på alla plattformar.

I vissa fall kan du inte eller bör inte använda Speech SDK. I sådana fall kan du använda REST-API:er för att komma åt Speech-tjänsten. Du kan till exempel använda REST-API:er för batch-transkription och rest-API:er för talarigenkänning.

Kom igång

Vi erbjuder snabbstarter på många populära programmeringsspråk. Varje snabbstart är utformad för att lära dig grundläggande designmönster och få dig att köra kod på mindre än 10 minuter. Se följande lista för snabbstarten för varje funktion:

Kodexempel

Exempelkod för Speech-tjänsten är tillgänglig på GitHub. De här exemplen beskriver vanliga scenarier som att läsa ljud från en fil eller ström, kontinuerlig och enkel bildigenkänning och arbeta med anpassade modeller. Använd dessa länkar för att visa SDK- och REST-exempel:

Ansvarsfull AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.

Dela via

Vad är Speech Service?

Tal-scenarier

Talfunktioner

Tal till text

Tal till text i realtid

API för snabb transkription

Batch-transkription

Text till tal

Talöversättning

Språkidentifiering

Talarigenkänning

Uttalsbedömning

Avsiktsigenkänning

Leverans och närvaro

Använda Speech i ditt program

Kom igång

Kodexempel

Ansvarsfull AI

Tal till text

Uttalsbedömning

Anpassad neural röst

Talarigenkänning

Nästa steg

Feedback

Ytterligare resurser