Snabbstart: Skapa bildtexter med tal till text
Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men kontrollera först SDK-installationsguiden om det finns fler krav.
Du måste också installera GStreamer för komprimerat indataljud.
Ange miljövariabler
Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.
Viktigt!
Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.
- Om du vill ange
SPEECH_KEY
miljövariabeln ersätter du din nyckel med en av nycklarna för resursen. - Om du vill ange
SPEECH_REGION
miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Kommentar
Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set
i stället för setx
.
När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.
Skapa bildtexter från tal
Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.
- Kopiera scenarier/csharp/dotnetcore/captioning/ exempelfiler från GitHub. Om du har Git installerat öppnar du en kommandotolk och kör
git clone
kommandot för att ladda ned Lagringsplatsen för Speech SDK-exempel.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Öppna en kommandotolk och ändra till projektkatalogen.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Skapa projektet med .NET CLI.
dotnet build
- Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Viktigt!
Kontrollera att sökvägarna som anges av
--input
och--output
är giltiga. Annars måste du ändra sökvägarna.Se till att du anger
SPEECH_KEY
miljövariablerna ochSPEECH_REGION
enligt beskrivningen ovan. Använd annars argumenten--key
och--region
.
Kontrollera resultat
När du använder realTime
alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing
händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized
händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing
och Recognized
händelser. Mer information finns i Hämta partiella resultat.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
När du använder --offline
alternativet är resultatet stabilt från den slutliga Recognized
händelsen. Partiella resultat ingår inte i utdata:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff
. Mer information finns i Utdataformat för bildtext.
Användning och argument
Användning: captioning --input <input file>
Bland anslutningsalternativen finns:
--key
: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--key
.--region REGION
: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--region
. Exempel:westus
,northeurope
Viktigt!
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Bland indataalternativen finns:
--input FILE
: Indataljud från filen. Standardinmatningen är mikrofonen.--format FORMAT
: Använd komprimerat ljudformat. Endast giltigt med--file
. Giltiga värden äralaw
,any
,flac
,mp3
,mulaw
ochogg_opus
. Standardvärdet ärany
. Om du vill använda enwav
fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
Språkalternativen är:
--language LANG
: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet ären-US
.
Bland alternativen för igenkänning finns:
--offline
: Utdata offlineresultat. Åsidosätter--realTime
. Standardutdataläget är offline.--realTime
: Utdata i realtidsresultat.
Realtidsutdata innehåller Recognizing
händelseresultat. Standardutdata offline är Recognized
endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet
åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.
Bland noggrannhetsalternativen finns:
--phrases PHRASE1;PHRASE2
: Du kan ange en lista med fraser som ska identifieras, till exempelContoso;Jessie;Rehaan
. Mer information finns i Förbättra igenkänning med fraslista.
Utdataalternativen omfattar:
--help
: Visa den här hjälpen och stoppa--output FILE
: Utdatatexter till den angivnafile
. Den här flaggan krävs.--srt
: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.--maxLineLength LENGTH
: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).--lines LINES
: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.--delay MILLISECONDS
: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använderrealTime
flaggan. Minimum är 0,0. Standardvärdet är 1 000.--remainTime MILLISECONDS
: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.--quiet
: Utelämna konsolutdata, förutom fel.--profanity OPTION
: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .--threshold NUMBER
: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är3
. Det här alternativet gäller endast när du använderrealTime
flaggan. Mer information finns i Hämta begrepp för partiella resultat .
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.
Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men först kontrollerar du SDK-installationsguiden för ytterligare krav
Du måste också installera GStreamer för komprimerat indataljud.
Ange miljövariabler
Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.
Viktigt!
Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.
- Om du vill ange
SPEECH_KEY
miljövariabeln ersätter du din nyckel med en av nycklarna för resursen. - Om du vill ange
SPEECH_REGION
miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Kommentar
Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set
i stället för setx
.
När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.
Skapa bildtexter från tal
Följ de här stegen för att skapa och köra kodexemplet för textning med Visual Studio Community 2022 i Windows.
Ladda ned eller kopiera scenarier/cpp/windows/captioning/ exempelfiler från GitHub till en lokal katalog.
Öppna lösningsfilen
captioning.sln
i Visual Studio Community 2022.Installera Speech SDK i projektet med NuGet-pakethanteraren.
Install-Package Microsoft.CognitiveServices.Speech
Öppna Allmänna projektegenskaper>>. Ange Konfiguration till
All configurations
. Ange C++ Language Standard tillISO C++17 Standard (/std:c++17)
.Öppna Build>Configuration Manager.
- I en 64-bitars Windows-installation ställer du in Aktiv lösningsplattform på
x64
. - Vid en 32-bitars Windows-installation ställer du in Aktiv lösningsplattform på
x86
.
- I en 64-bitars Windows-installation ställer du in Aktiv lösningsplattform på
Öppna Felsökning av projektegenskaper>>. Ange önskade kommandoradsargument i Kommandoargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Viktigt!
Kontrollera att sökvägarna som anges av
--input
och--output
är giltiga. Annars måste du ändra sökvägarna.Se till att du anger
SPEECH_KEY
miljövariablerna ochSPEECH_REGION
enligt beskrivningen ovan. Använd annars argumenten--key
och--region
.Skapa och kör konsolprogrammet.
Kontrollera resultat
När du använder realTime
alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing
händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized
händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing
och Recognized
händelser. Mer information finns i Hämta partiella resultat.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
När du använder --offline
alternativet är resultatet stabilt från den slutliga Recognized
händelsen. Partiella resultat ingår inte i utdata:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff
. Mer information finns i Utdataformat för bildtext.
Användning och argument
Användning: captioning --input <input file>
Bland anslutningsalternativen finns:
--key
: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--key
.--region REGION
: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--region
. Exempel:westus
,northeurope
Viktigt!
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Bland indataalternativen finns:
--input FILE
: Indataljud från filen. Standardinmatningen är mikrofonen.--format FORMAT
: Använd komprimerat ljudformat. Endast giltigt med--file
. Giltiga värden äralaw
,any
,flac
,mp3
,mulaw
ochogg_opus
. Standardvärdet ärany
. Om du vill använda enwav
fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
Språkalternativen är:
--language LANG
: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet ären-US
.
Bland alternativen för igenkänning finns:
--offline
: Utdata offlineresultat. Åsidosätter--realTime
. Standardutdataläget är offline.--realTime
: Utdata i realtidsresultat.
Realtidsutdata innehåller Recognizing
händelseresultat. Standardutdata offline är Recognized
endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet
åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.
Bland noggrannhetsalternativen finns:
--phrases PHRASE1;PHRASE2
: Du kan ange en lista med fraser som ska identifieras, till exempelContoso;Jessie;Rehaan
. Mer information finns i Förbättra igenkänning med fraslista.
Utdataalternativen omfattar:
--help
: Visa den här hjälpen och stoppa--output FILE
: Utdatatexter till den angivnafile
. Den här flaggan krävs.--srt
: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.--maxLineLength LENGTH
: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).--lines LINES
: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.--delay MILLISECONDS
: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använderrealTime
flaggan. Minimum är 0,0. Standardvärdet är 1 000.--remainTime MILLISECONDS
: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.--quiet
: Utelämna konsolutdata, förutom fel.--profanity OPTION
: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .--threshold NUMBER
: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är3
. Det här alternativet gäller endast när du använderrealTime
flaggan. Mer information finns i Hämta begrepp för partiella resultat .
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.
Referensdokumentation Paket (Go) | Ytterligare exempel på GitHub |
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Kontrollera om det finns några plattformsspecifika installationssteg.
Du måste också installera GStreamer för komprimerat indataljud.
Skapa bildtexter från tal
Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.
Ladda ned eller kopiera scenarier/go/captioning/ exempelfiler från GitHub till en lokal katalog.
Öppna en kommandotolk i samma katalog som
captioning.go
.Kör följande kommandon för att skapa en
go.mod
fil som länkar till Speech SDK-komponenterna som finns på GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Skapa GO-modulen.
go build
Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Ersätt
YourSubscriptionKey
med din Speech-resursnyckel och ersättYourServiceRegion
med din Speech-resursregion, till exempelwestus
ellernortheurope
. Kontrollera att sökvägarna som anges av--input
och--output
är giltiga. Annars måste du ändra sökvägarna.Viktigt!
Kom ihåg att ta bort nyckeln från koden när du är klar och publicera den aldrig offentligt. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter som Azure Key Vault. Mer information finns i säkerhetsartikeln för Azure AI-tjänster.
Kontrollera resultat
Utdatafilen med fullständiga undertexter skrivs till caption.output.txt
. Mellanliggande resultat visas i konsolen:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff
. Mer information finns i Utdataformat för bildtext.
Användning och argument
Användning: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Bland anslutningsalternativen finns:
--key
: Din Speech-resursnyckel.--region REGION
: Din Speech-resursregion. Exempel:westus
,northeurope
Bland indataalternativen finns:
--input FILE
: Indataljud från filen. Standardinmatningen är mikrofonen.--format FORMAT
: Använd komprimerat ljudformat. Endast giltigt med--file
. Giltiga värden äralaw
,any
,flac
,mp3
,mulaw
ochogg_opus
. Standardvärdet ärany
. Om du vill använda enwav
fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
Språkalternativen är:
--languages LANG1,LANG2
: Aktivera språkidentifiering för angivna språk. Exempel:en-US,ja-JP
. Det här alternativet är endast tillgängligt med textningsexemplen C++, C# och Python. Mer information finns i Språkidentifiering.
Bland alternativen för igenkänning finns:
--recognizing
: Resultat av utdatahändelsenRecognizing
. Standardutdata ärRecognized
endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet--quiet
åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.
Bland noggrannhetsalternativen finns:
--phrases PHRASE1;PHRASE2
: Du kan ange en lista med fraser som ska identifieras, till exempelContoso;Jessie;Rehaan
. Mer information finns i Förbättra igenkänning med fraslista.
Utdataalternativen omfattar:
--help
: Visa den här hjälpen och stoppa--output FILE
: Utdatatexter till den angivnafile
. Den här flaggan krävs.--srt
: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.--quiet
: Utelämna konsolutdata, förutom fel.--profanity OPTION
: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .--threshold NUMBER
: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är3
. Mer information finns i Hämta begrepp för partiella resultat .
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.
Referensdokumentation | Ytterligare exempel på GitHub
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Innan du kan göra något måste du installera Speech SDK. Exemplet i den här snabbstarten fungerar med Microsoft Build of OpenJDK 17
- Installera Apache Maven. Kör
mvn -v
sedan för att bekräfta att installationen har slutförts. - Skapa en ny
pom.xml
fil i roten för projektet och kopiera följande till den:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.42.0</version> </dependency> </dependencies> </project>
- Installera Speech SDK och beroenden.
mvn clean dependency:copy-dependencies
- Du måste också installera GStreamer för komprimerat indataljud.
Ange miljövariabler
Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.
Viktigt!
Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.
- Om du vill ange
SPEECH_KEY
miljövariabeln ersätter du din nyckel med en av nycklarna för resursen. - Om du vill ange
SPEECH_REGION
miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Kommentar
Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set
i stället för setx
.
När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.
Skapa bildtexter från tal
Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.
- Kopiera scenarier/java/jre/captioning/exempelfiler från GitHub till din projektkatalog. Filen
pom.xml
som du skapade i miljökonfigurationen måste också finnas i den här katalogen. - Öppna en kommandotolk och kör det här kommandot för att kompilera projektfilerna.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Viktigt!
Kontrollera att sökvägarna som anges av
--input
och--output
är giltiga. Annars måste du ändra sökvägarna.Se till att du anger
SPEECH_KEY
miljövariablerna ochSPEECH_REGION
enligt beskrivningen ovan. Använd annars argumenten--key
och--region
.
Kontrollera resultat
När du använder realTime
alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing
händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized
händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing
och Recognized
händelser. Mer information finns i Hämta partiella resultat.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
När du använder --offline
alternativet är resultatet stabilt från den slutliga Recognized
händelsen. Partiella resultat ingår inte i utdata:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff
. Mer information finns i Utdataformat för bildtext.
Användning och argument
Användning: java -cp ".;target\dependency\*" Captioning --input <input file>
Bland anslutningsalternativen finns:
--key
: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--key
.--region REGION
: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--region
. Exempel:westus
,northeurope
Viktigt!
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Bland indataalternativen finns:
--input FILE
: Indataljud från filen. Standardinmatningen är mikrofonen.--format FORMAT
: Använd komprimerat ljudformat. Endast giltigt med--file
. Giltiga värden äralaw
,any
,flac
,mp3
,mulaw
ochogg_opus
. Standardvärdet ärany
. Om du vill använda enwav
fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
Språkalternativen är:
--language LANG
: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet ären-US
.
Bland alternativen för igenkänning finns:
--offline
: Utdata offlineresultat. Åsidosätter--realTime
. Standardutdataläget är offline.--realTime
: Utdata i realtidsresultat.
Realtidsutdata innehåller Recognizing
händelseresultat. Standardutdata offline är Recognized
endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet
åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.
Bland noggrannhetsalternativen finns:
--phrases PHRASE1;PHRASE2
: Du kan ange en lista med fraser som ska identifieras, till exempelContoso;Jessie;Rehaan
. Mer information finns i Förbättra igenkänning med fraslista.
Utdataalternativen omfattar:
--help
: Visa den här hjälpen och stoppa--output FILE
: Utdatatexter till den angivnafile
. Den här flaggan krävs.--srt
: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.--maxLineLength LENGTH
: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).--lines LINES
: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.--delay MILLISECONDS
: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använderrealTime
flaggan. Minimum är 0,0. Standardvärdet är 1 000.--remainTime MILLISECONDS
: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.--quiet
: Utelämna konsolutdata, förutom fel.--profanity OPTION
: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .--threshold NUMBER
: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är3
. Det här alternativet gäller endast när du använderrealTime
flaggan. Mer information finns i Hämta begrepp för partiella resultat .
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.
Referensdokumentation Paket (npm) | Ytterligare exempel på GitHub-bibliotekets källkod | |
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Innan du kan göra något måste du installera Speech SDK för JavaScript. Om du bara vill att paketnamnet ska installeras kör du npm install microsoft-cognitiveservices-speech-sdk
. Anvisningar för guidad installation finns i installationsguiden för SDK.
Skapa bildtexter från tal
Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.
Kopiera scenarier/javascript/node/captioning/ exempelfiler från GitHub till din projektkatalog.
Öppna en kommandotolk i samma katalog som
Captioning.js
.Installera Speech SDK för JavaScript:
npm install microsoft-cognitiveservices-speech-sdk
Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Ersätt
YourSubscriptionKey
med din Speech-resursnyckel och ersättYourServiceRegion
med din Speech-resursregion, till exempelwestus
ellernortheurope
. Kontrollera att sökvägarna som anges av--input
och--output
är giltiga. Annars måste du ändra sökvägarna.Kommentar
Speech SDK för JavaScript stöder inte komprimerat indataljud. Du måste använda en WAV-fil enligt exemplet.
Viktigt!
Kom ihåg att ta bort nyckeln från koden när du är klar och publicera den aldrig offentligt. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter som Azure Key Vault. Mer information finns i säkerhetsartikeln för Azure AI-tjänster.
Kontrollera resultat
Utdatafilen med fullständiga undertexter skrivs till caption.output.txt
. Mellanliggande resultat visas i konsolen:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff
. Mer information finns i Utdataformat för bildtext.
Användning och argument
Användning: node captioning.js --key <key> --region <region> --input <input file>
Bland anslutningsalternativen finns:
--key
: Din Speech-resursnyckel.--region REGION
: Din Speech-resursregion. Exempel:westus
,northeurope
Bland indataalternativen finns:
--input FILE
: Indataljud från filen. Standardinmatningen är mikrofonen.--format FORMAT
: Använd komprimerat ljudformat. Endast giltigt med--file
. Giltiga värden äralaw
,any
,flac
,mp3
,mulaw
ochogg_opus
. Standardvärdet ärany
. Om du vill använda enwav
fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
Språkalternativen är:
--languages LANG1,LANG2
: Aktivera språkidentifiering för angivna språk. Exempel:en-US,ja-JP
. Det här alternativet är endast tillgängligt med textningsexemplen C++, C# och Python. Mer information finns i Språkidentifiering.
Bland alternativen för igenkänning finns:
--recognizing
: Resultat av utdatahändelsenRecognizing
. Standardutdata ärRecognized
endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet--quiet
åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.
Bland noggrannhetsalternativen finns:
--phrases PHRASE1;PHRASE2
: Du kan ange en lista med fraser som ska identifieras, till exempelContoso;Jessie;Rehaan
. Mer information finns i Förbättra igenkänning med fraslista.
Utdataalternativen omfattar:
--help
: Visa den här hjälpen och stoppa--output FILE
: Utdatatexter till den angivnafile
. Den här flaggan krävs.--srt
: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.--quiet
: Utelämna konsolutdata, förutom fel.--profanity OPTION
: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .--threshold NUMBER
: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är3
. Mer information finns i Hämta begrepp för partiella resultat .
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.
Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |
Speech SDK för Objective-C har stöd för att få taligenkänningsresultat för textning, men vi har ännu inte tagit med någon guide här. Välj ett annat programmeringsspråk för att komma igång och lära dig mer om begreppen, eller se Objective-C-referensen och exemplen som är länkade från början av den här artikeln.
Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |
Speech SDK för Swift har stöd för att få taligenkänningsresultat för textning, men vi har ännu inte tagit med någon guide här. Välj ett annat programmeringsspråk för att komma igång och lära dig mer om begreppen, eller se Swift-referensen och exemplen som är länkade från början av den här artikeln.
Referensdokumentation Paket (PyPi) | Ytterligare exempel på GitHub |
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Speech SDK för Python är tillgänglig som en PyPI-modul (Python Package Index). Speech SDK för Python är kompatibelt med Windows, Linux och macOS.
- Du måste installera Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017, 2019 och 2022 för din plattform. Att installera det här paketet för första gången kan kräva en omstart.
- I Linux måste du använda x64-målarkitekturen.
- Installera en version av Python från 3.10 eller senare. Kontrollera först installationsguiden för SDK om det finns fler krav
- Du måste också installera GStreamer för komprimerat indataljud.
Ange miljövariabler
Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.
Viktigt!
Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.
- Om du vill ange
SPEECH_KEY
miljövariabeln ersätter du din nyckel med en av nycklarna för resursen. - Om du vill ange
SPEECH_REGION
miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Kommentar
Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set
i stället för setx
.
När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.
Skapa bildtexter från tal
Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.
- Ladda ned eller kopiera scenarier/python/konsol/textning/ exempelfiler från GitHub till en lokal katalog.
- Öppna en kommandotolk i samma katalog som
captioning.py
. - Kör det här kommandot för att installera Speech SDK:
pip install azure-cognitiveservices-speech
- Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Viktigt!
Kontrollera att sökvägarna som anges av
--input
och--output
är giltiga. Annars måste du ändra sökvägarna.Se till att du anger
SPEECH_KEY
miljövariablerna ochSPEECH_REGION
enligt beskrivningen ovan. Använd annars argumenten--key
och--region
.
Kontrollera resultat
När du använder realTime
alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing
händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized
händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing
och Recognized
händelser. Mer information finns i Hämta partiella resultat.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
När du använder --offline
alternativet är resultatet stabilt från den slutliga Recognized
händelsen. Partiella resultat ingår inte i utdata:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff
. Mer information finns i Utdataformat för bildtext.
Användning och argument
Användning: python captioning.py --input <input file>
Bland anslutningsalternativen finns:
--key
: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--key
.--region REGION
: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet--region
. Exempel:westus
,northeurope
Viktigt!
Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.
Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.
Bland indataalternativen finns:
--input FILE
: Indataljud från filen. Standardinmatningen är mikrofonen.--format FORMAT
: Använd komprimerat ljudformat. Endast giltigt med--file
. Giltiga värden äralaw
,any
,flac
,mp3
,mulaw
ochogg_opus
. Standardvärdet ärany
. Om du vill använda enwav
fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
Språkalternativen är:
--language LANG
: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet ären-US
.
Bland alternativen för igenkänning finns:
--offline
: Utdata offlineresultat. Åsidosätter--realTime
. Standardutdataläget är offline.--realTime
: Utdata i realtidsresultat.
Realtidsutdata innehåller Recognizing
händelseresultat. Standardutdata offline är Recognized
endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet
åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.
Bland noggrannhetsalternativen finns:
--phrases PHRASE1;PHRASE2
: Du kan ange en lista med fraser som ska identifieras, till exempelContoso;Jessie;Rehaan
. Mer information finns i Förbättra igenkänning med fraslista.
Utdataalternativen omfattar:
--help
: Visa den här hjälpen och stoppa--output FILE
: Utdatatexter till den angivnafile
. Den här flaggan krävs.--srt
: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.--maxLineLength LENGTH
: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).--lines LINES
: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.--delay MILLISECONDS
: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använderrealTime
flaggan. Minimum är 0,0. Standardvärdet är 1 000.--remainTime MILLISECONDS
: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.--quiet
: Utelämna konsolutdata, förutom fel.--profanity OPTION
: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .--threshold NUMBER
: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är3
. Det här alternativet gäller endast när du använderrealTime
flaggan. Mer information finns i Hämta begrepp för partiella resultat .
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.
I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.
Dricks
Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.
Dricks
Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.
Förutsättningar
- En Azure-prenumeration. Du kan skapa en kostnadsfritt.
- Skapa en Speech-resurs i Azure Portal.
- Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.
Konfigurera miljön
Följ de här stegen och se snabbstarten för Speech CLI för andra krav för din plattform.
Kör följande .NET CLI-kommando för att installera Speech CLI:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Kör följande kommandon för att konfigurera din Speech-resursnyckel och -region. Ersätt
SUBSCRIPTION-KEY
med din Speech-resursnyckel och ersättREGION
med din Speech-resursregion.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Du måste också installera GStreamer för komprimerat indataljud.
Skapa bildtexter från tal
Med Speech CLI kan du mata ut texttexter för både SRT (SubRip Text) och WebVTT (Web Video Text Tracks) från alla typer av medier som innehåller ljud.
Följ dessa steg om du vill känna igen ljud från en fil och mata ut både WebVtt- (vtt
) och SRT-bildtexter (srt
).
Kontrollera att du har en indatafil med namnet
caption.this.mp4
i sökvägen.Kör följande kommando för att mata ut bildtexter från videofilen:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
SRT- och WebVTT-undertexterna matas ut till konsolen enligt följande:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Användning och argument
Här följer information om de valfria argumenten från föregående kommando:
--file caption.this.mp4 --format any
: Indataljud från filen. Standardinmatningen är mikrofonen. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.--output vtt file -
och--output srt file -
: Matar ut WebVTT- och SRT-undertexter till standardutdata. Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext. Mer information om argumentet finns i Utdataalternativ för--output
Speech CLI.@output.each.detailed
: Utdata händelseresultat med text, förskjutning och varaktighet. Mer information finns i Hämta resultat för taligenkänning.--property SpeechServiceResponse_StablePartialResultThreshold=5
: Du kan begära att Speech-tjänsten returnerar färreRecognizing
händelser som är mer exakta. I det här exemplet måste Speech-tjänsten bekräfta igenkänningen av ett ord minst fem gånger innan du returnerar de partiella resultaten till dig. Mer information finns i Hämta begrepp för partiella resultat .--profanity masked
: Du kan ange om du vill maskera, ta bort eller visa svordomar i igenkänningsresultat. Mer information finns i Begrepp för svordomsfilter .--phrases "Constoso;Jessie;Rehaan"
: Du kan ange en lista med fraser som ska identifieras, till exempel Contoso, Jessie och Rehaan. Mer information finns i Förbättra igenkänning med fraslista.
Rensa resurser
Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.