Dela via


Välj en Azure AI-taligenkänning och generationsteknik

Azure AI-tjänster hjälper arbetsbelastningsdesigners och utvecklare att skapa intelligenta, banbrytande, marknadsklara och ansvarsfulla program med färdiga och fördefinierade och anpassningsbara API:er och modeller.

Den här artikeln beskriver Azure AI-tjänster som erbjuder funktioner för taligenkänning och generering, till exempel tal-till-text- och text-till-tal-konverteringar, ljudöversättning, talarigenkänning samt lässtöd för personer med inlärningsskillnader.

Kommentar

Information om termer eller fraser eller få detaljerad kontextanalys av talat eller skriftligt språk finns i Välja en Azure AI-riktad språkbearbetningsteknik.

Tjänster

Följande Azure AI-tjänster kan tillhandahålla taligenkänning och genereringsfunktioner för din arbetsbelastning.

  • Azure AI Speech tillhandahåller bearbetning av naturligt språk för textanalys.

    • Använd Speech Service när du behöver transkribera eller översätta talat tal, identifiera talare i en konversation. Du kan också använda tjänsten som ett billigare alternativ för naturlig klingande talgenerering till whisper av högre kvalitet i OpenAI-modellerna.
    • Använd inte Speech-tjänsten för chatt, innehållssammanfattning, moderering eller vägledning för användare via skript. Använd andra modeller för dessa saker i stället.
  • Avancerad läsare är ett verktyg som implementerar beprövade tekniker för att förbättra läsförståelsen för nya läsare, språkinlärare och personer med inlärningsskillnader.

    • Använd Avancerad läsare för att ge en bättre läsbarhetsupplevelse som skräddarsytts för språkinlärare eller personer med inlärningsskillnader.
    • Använd inte Avancerad läsare för traditionella användningsfall för text till tal.

Azure AI Speech

Azure AI Speech tillhandahåller tal till text och text till tal-funktioner med en Speech-resurs. Du kan transkribera tal till text med hög noggrannhet, producera naturligt klingande text till talröster, översätta talat ljud och använda talarigenkänning under konversationer. Skapa egna röster, lägg till specifika ord i basordförrådet eller skapa egna modeller. Kör Speech var som helst – i molnet eller containrar i gränsmiljöer.

Tal är tillgängligt för många språk och regioner.

Funktioner

Följande tabell innehåller en lista över funktioner som är tillgängliga i Azure AI Speech-tjänsten.

Kapacitet beskrivning
Batch-transkription Transkribera en stor mängd ljuddata i lagringen. Både REST API för tal till text och Speech CLI stöder batch-transkription.
Avsiktsigenkänning En avsikt är något som användaren vill göra: boka en flygning, titta på vädret eller ringa ett samtal. Med avsiktsigenkänning kan dina program, verktyg och enheter avgöra vad användaren vill initiera eller göra baserat på alternativ. Du definierar användar avsikt i modellen intent recognizer eller conversational language understanding (CLU).
Uttalsbedömning Utvärderar tal uttal och ger talarna feedback om noggrannhet och flyt i talat ljud.
Talarigenkänning Talarigenkänning kan hjälpa dig att avgöra vem som talar i ett ljudklipp. Tjänsten kan verifiera och identifiera talare med hjälp av deras unika röstegenskaper med hjälp av röstbiometri.
Tal till text Konverterar ljudströmmar till text i realtid eller i batch.
Text-till-tal Gör att dina program, verktyg eller enheter kan konvertera text till mänskligt syntetiserat tal.
Talöversättning Tillhandahåller tal-till-tal och tal-till-text-översättning av ljudströmmar på flera språk.
Videoöversättning Översätt och generera videor på flera språk automatiskt.

Användningsfall

I följande tabell beskrivs några av de sätt som du kan använda Azure AI Speech på.

Användningsfall Möjlighet att använda beskrivning
Skapa ljudinnehåll Tal till text Du kan använda neurala röster för att göra interaktioner med chattrobotar och röstassistenter mer naturliga och engagerande, konvertera digitala texter som e-böcker till ljudböcker och förbättra navigeringssystemen i bilen.
Transkription av callcenter Tal till text Transkribera anrop i realtid eller bearbeta en batch med anrop, redigera personligt identifierande information och extrahera insikter som sentiment för att hjälpa till med ditt användningsfall för kundtjänst.
Bildtext Tal till text Synkronisera bildtexter med ditt indataljud, tillämpa svordomsfilter, få partiella resultat, tillämpa anpassningar och identifiera talade språk för flerspråkiga scenarier.
Språkinlärning Tal till text Ge feedback om uttalsbedömning till språkinlärare, stöd för transkription i realtid för fjärrinlärningskonversationer och läs upp undervisningsmaterial med neurala röster.
Röstassistenter Text till tal Skapa naturliga, mänskliga gränssnitt som konversationsgränssnitt för deras program och upplevelser. Funktionen röstassistent ger snabb och tillförlitlig interaktion mellan en enhet och en assistentimplementering.

Avancerad läsare

Avancerad läsare, en del av Azure AI-tjänster, är ett inkluderande verktyg som implementerar beprövade tekniker för att förbättra läsförståelsen för nya läsare, språkinlärare och personer med inlärningsskillnader som dyslexi. Med Avancerad läsare-klientbiblioteket kan du använda samma teknik som används i Microsoft Word och Microsoft OneNote för att ge användarna en bra upplevelse.

Funktioner

Följande är en lista över funktioner som din arbetsbelastning kan använda för att hjälpa användarna att nå sina läsförståelsemål.

  • Isolera innehåll för att förbättra läsbarheten
  • Visa bilder för vanliga ord och termer
  • Hjälp med att förstå delar av tal och grammatik genom att markera verb, substantiv, pronomen med mera
  • Läsa upp innehåll, till exempel användarvald text i arbetsbelastningens användargränssnitt
  • Översätta innehåll till många språk i realtid, vilket bidrar till att förbättra förståelsen för läsare som lär sig ett nytt språk
  • Dela upp ord i stavelser för att förbättra läsbarheten eller för att ljuda nya ord

Nästa steg