Välj en Azure AI-taligenkänning och generationsteknik

Artikel
10/01/2024

Azure AI-tjänster hjälper arbetsbelastningsdesigners och utvecklare att skapa intelligenta, banbrytande, marknadsklara och ansvarsfulla program med färdiga och fördefinierade och anpassningsbara API:er och modeller.

Den här artikeln beskriver Azure AI-tjänster som erbjuder funktioner för taligenkänning och generering, till exempel tal-till-text- och text-till-tal-konverteringar, ljudöversättning, talarigenkänning samt lässtöd för personer med inlärningsskillnader.

Kommentar

Information om termer eller fraser eller få detaljerad kontextanalys av talat eller skriftligt språk finns i Välja en Azure AI-riktad språkbearbetningsteknik.

Tjänster

Följande Azure AI-tjänster kan tillhandahålla taligenkänning och genereringsfunktioner för din arbetsbelastning.

Azure AI Speech tillhandahåller bearbetning av naturligt språk för textanalys.
- Använd Speech Service när du behöver transkribera eller översätta talat tal, identifiera talare i en konversation. Du kan också använda tjänsten som ett billigare alternativ för naturlig klingande talgenerering till whisper av högre kvalitet i OpenAI-modellerna.
- Använd inte Speech-tjänsten för chatt, innehållssammanfattning, moderering eller vägledning för användare via skript. Använd andra modeller för dessa saker i stället.
Avancerad läsare är ett verktyg som implementerar beprövade tekniker för att förbättra läsförståelsen för nya läsare, språkinlärare och personer med inlärningsskillnader.
- Använd Avancerad läsare för att ge en bättre läsbarhetsupplevelse som skräddarsytts för språkinlärare eller personer med inlärningsskillnader.
- Använd inte Avancerad läsare för traditionella användningsfall för text till tal.

Azure AI Speech

Azure AI Speech tillhandahåller tal till text och text till tal-funktioner med en Speech-resurs. Du kan transkribera tal till text med hög noggrannhet, producera naturligt klingande text till talröster, översätta talat ljud och använda talarigenkänning under konversationer. Skapa egna röster, lägg till specifika ord i basordförrådet eller skapa egna modeller. Kör Speech var som helst – i molnet eller containrar i gränsmiljöer.

Tal är tillgängligt för många språk och regioner.

Funktioner

Följande tabell innehåller en lista över funktioner som är tillgängliga i Azure AI Speech-tjänsten.

Kapacitet	beskrivning
Batch-transkription	Transkribera en stor mängd ljuddata i lagringen. Både REST API för tal till text och Speech CLI stöder batch-transkription.
Avsiktsigenkänning	En avsikt är något som användaren vill göra: boka en flygning, titta på vädret eller ringa ett samtal. Med avsiktsigenkänning kan dina program, verktyg och enheter avgöra vad användaren vill initiera eller göra baserat på alternativ. Du definierar användar avsikt i modellen intent recognizer eller conversational language understanding (CLU).
Uttalsbedömning	Utvärderar tal uttal och ger talarna feedback om noggrannhet och flyt i talat ljud.
Talarigenkänning	Talarigenkänning kan hjälpa dig att avgöra vem som talar i ett ljudklipp. Tjänsten kan verifiera och identifiera talare med hjälp av deras unika röstegenskaper med hjälp av röstbiometri.
Tal till text	Konverterar ljudströmmar till text i realtid eller i batch.
Text-till-tal	Gör att dina program, verktyg eller enheter kan konvertera text till mänskligt syntetiserat tal.
Talöversättning	Tillhandahåller tal-till-tal och tal-till-text-översättning av ljudströmmar på flera språk.
Videoöversättning	Översätt och generera videor på flera språk automatiskt.

Användningsfall

I följande tabell beskrivs några av de sätt som du kan använda Azure AI Speech på.

Användningsfall	Möjlighet att använda	beskrivning
Skapa ljudinnehåll	Tal till text	Du kan använda neurala röster för att göra interaktioner med chattrobotar och röstassistenter mer naturliga och engagerande, konvertera digitala texter som e-böcker till ljudböcker och förbättra navigeringssystemen i bilen.
Transkription av callcenter	Tal till text	Transkribera anrop i realtid eller bearbeta en batch med anrop, redigera personligt identifierande information och extrahera insikter som sentiment för att hjälpa till med ditt användningsfall för kundtjänst.
Bildtext	Tal till text	Synkronisera bildtexter med ditt indataljud, tillämpa svordomsfilter, få partiella resultat, tillämpa anpassningar och identifiera talade språk för flerspråkiga scenarier.
Språkinlärning	Tal till text	Ge feedback om uttalsbedömning till språkinlärare, stöd för transkription i realtid för fjärrinlärningskonversationer och läs upp undervisningsmaterial med neurala röster.
Röstassistenter	Text till tal	Skapa naturliga, mänskliga gränssnitt som konversationsgränssnitt för deras program och upplevelser. Funktionen röstassistent ger snabb och tillförlitlig interaktion mellan en enhet och en assistentimplementering.

Avancerad läsare

Avancerad läsare, en del av Azure AI-tjänster, är ett inkluderande verktyg som implementerar beprövade tekniker för att förbättra läsförståelsen för nya läsare, språkinlärare och personer med inlärningsskillnader som dyslexi. Med Avancerad läsare-klientbiblioteket kan du använda samma teknik som används i Microsoft Word och Microsoft OneNote för att ge användarna en bra upplevelse.

Funktioner

Följande är en lista över funktioner som din arbetsbelastning kan använda för att hjälpa användarna att nå sina läsförståelsemål.

Isolera innehåll för att förbättra läsbarheten
Visa bilder för vanliga ord och termer
Hjälp med att förstå delar av tal och grammatik genom att markera verb, substantiv, pronomen med mera
Läsa upp innehåll, till exempel användarvald text i arbetsbelastningens användargränssnitt
Översätta innehåll till många språk i realtid, vilket bidrar till att förbättra förståelsen för läsare som lär sig ett nytt språk
Dela upp ord i stavelser för att förbättra läsbarheten eller för att ljuda nya ord

Dela via

Välj en Azure AI-taligenkänning och generationsteknik

Tjänster

Azure AI Speech

Funktioner

Användningsfall

Avancerad läsare

Funktioner

Nästa steg

Feedback

Ytterligare resurser

Dela via

Välj en Azure AI-taligenkänning och generationsteknik

Tjänster

Azure AI Speech

Funktioner

Användningsfall

Avancerad läsare

Funktioner

Nästa steg

Relaterade resurser

Feedback

Ytterligare resurser