Dela via


Snabbstart: Skapa bildtexter med tal till text

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men kontrollera först SDK-installationsguiden om det finns fler krav.

Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.

Viktigt!

Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtexter från tal

Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.

  1. Kopiera scenarier/csharp/dotnetcore/captioning/ exempelfiler från GitHub. Om du har Git installerat öppnar du en kommandotolk och kör git clone kommandot för att ladda ned Lagringsplatsen för Speech SDK-exempel.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Öppna en kommandotolk och ändra till projektkatalogen.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Skapa projektet med .NET CLI.
    dotnet build
    
  4. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: captioning --input <input file>

Bland anslutningsalternativen finns:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Viktigt!

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdatatexter till den angivna file. Den här flaggan krävs.
  • --srt: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men först kontrollerar du SDK-installationsguiden för ytterligare krav

Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.

Viktigt!

Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtexter från tal

Följ de här stegen för att skapa och köra kodexemplet för textning med Visual Studio Community 2022 i Windows.

  1. Ladda ned eller kopiera scenarier/cpp/windows/captioning/ exempelfiler från GitHub till en lokal katalog.

  2. Öppna lösningsfilen captioning.sln i Visual Studio Community 2022.

  3. Installera Speech SDK i projektet med NuGet-pakethanteraren.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Öppna Allmänna projektegenskaper>>. Ange Konfiguration till All configurations. Ange C++ Language Standard till ISO C++17 Standard (/std:c++17).

  5. Öppna Build>Configuration Manager.

    • I en 64-bitars Windows-installation ställer du in Aktiv lösningsplattformx64.
    • Vid en 32-bitars Windows-installation ställer du in Aktiv lösningsplattformx86.
  6. Öppna Felsökning av projektegenskaper>>. Ange önskade kommandoradsargument i Kommandoargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

  7. Skapa och kör konsolprogrammet.

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: captioning --input <input file>

Bland anslutningsalternativen finns:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Viktigt!

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdatatexter till den angivna file. Den här flaggan krävs.
  • --srt: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (Go) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Kontrollera om det finns några plattformsspecifika installationssteg.

Du måste också installera GStreamer för komprimerat indataljud.

Skapa bildtexter från tal

Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.

  1. Ladda ned eller kopiera scenarier/go/captioning/ exempelfiler från GitHub till en lokal katalog.

  2. Öppna en kommandotolk i samma katalog som captioning.go.

  3. Kör följande kommandon för att skapa en go.mod fil som länkar till Speech SDK-komponenterna som finns på GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Skapa GO-modulen.

    go build
    
  5. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion, till exempel westus eller northeurope. Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Viktigt!

    Kom ihåg att ta bort nyckeln från koden när du är klar och publicera den aldrig offentligt. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter som Azure Key Vault. Mer information finns i säkerhetsartikeln för Azure AI-tjänster.

Kontrollera resultat

Utdatafilen med fullständiga undertexter skrivs till caption.output.txt. Mellanliggande resultat visas i konsolen:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Bland anslutningsalternativen finns:

  • --key: Din Speech-resursnyckel.
  • --region REGION: Din Speech-resursregion. Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --languages LANG1,LANG2: Aktivera språkidentifiering för angivna språk. Exempel: en-US,ja-JP. Det här alternativet är endast tillgängligt med textningsexemplen C++, C# och Python. Mer information finns i Språkidentifiering.

Bland alternativen för igenkänning finns:

  • --recognizing: Resultat av utdatahändelsen Recognizing . Standardutdata är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdatatexter till den angivna file. Den här flaggan krävs.
  • --srt: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation | Ytterligare exempel på GitHub

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Innan du kan göra något måste du installera Speech SDK. Exemplet i den här snabbstarten fungerar med Microsoft Build of OpenJDK 17

  1. Installera Apache Maven. Kör mvn -v sedan för att bekräfta att installationen har slutförts.
  2. Skapa en ny pom.xml fil i roten för projektet och kopiera följande till den:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.42.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installera Speech SDK och beroenden.
    mvn clean dependency:copy-dependencies
    
  4. Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.

Viktigt!

Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtexter från tal

Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.

  1. Kopiera scenarier/java/jre/captioning/exempelfiler från GitHub till din projektkatalog. Filen pom.xml som du skapade i miljökonfigurationen måste också finnas i den här katalogen.
  2. Öppna en kommandotolk och kör det här kommandot för att kompilera projektfilerna.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: java -cp ".;target\dependency\*" Captioning --input <input file>

Bland anslutningsalternativen finns:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Viktigt!

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdatatexter till den angivna file. Den här flaggan krävs.
  • --srt: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (npm) | Ytterligare exempel på GitHub-bibliotekets källkod | |

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Innan du kan göra något måste du installera Speech SDK för JavaScript. Om du bara vill att paketnamnet ska installeras kör du npm install microsoft-cognitiveservices-speech-sdk. Anvisningar för guidad installation finns i installationsguiden för SDK.

Skapa bildtexter från tal

Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.

  1. Kopiera scenarier/javascript/node/captioning/ exempelfiler från GitHub till din projektkatalog.

  2. Öppna en kommandotolk i samma katalog som Captioning.js.

  3. Installera Speech SDK för JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion, till exempel westus eller northeurope. Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Kommentar

    Speech SDK för JavaScript stöder inte komprimerat indataljud. Du måste använda en WAV-fil enligt exemplet.

    Viktigt!

    Kom ihåg att ta bort nyckeln från koden när du är klar och publicera den aldrig offentligt. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter som Azure Key Vault. Mer information finns i säkerhetsartikeln för Azure AI-tjänster.

Kontrollera resultat

Utdatafilen med fullständiga undertexter skrivs till caption.output.txt. Mellanliggande resultat visas i konsolen:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: node captioning.js --key <key> --region <region> --input <input file>

Bland anslutningsalternativen finns:

  • --key: Din Speech-resursnyckel.
  • --region REGION: Din Speech-resursregion. Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --languages LANG1,LANG2: Aktivera språkidentifiering för angivna språk. Exempel: en-US,ja-JP. Det här alternativet är endast tillgängligt med textningsexemplen C++, C# och Python. Mer information finns i Språkidentifiering.

Bland alternativen för igenkänning finns:

  • --recognizing: Resultat av utdatahändelsen Recognizing . Standardutdata är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdatatexter till den angivna file. Den här flaggan krävs.
  • --srt: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |

Speech SDK för Objective-C har stöd för att få taligenkänningsresultat för textning, men vi har ännu inte tagit med någon guide här. Välj ett annat programmeringsspråk för att komma igång och lära dig mer om begreppen, eller se Objective-C-referensen och exemplen som är länkade från början av den här artikeln.

Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |

Speech SDK för Swift har stöd för att få taligenkänningsresultat för textning, men vi har ännu inte tagit med någon guide här. Välj ett annat programmeringsspråk för att komma igång och lära dig mer om begreppen, eller se Swift-referensen och exemplen som är länkade från början av den här artikeln.

Referensdokumentation Paket (PyPi) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Speech SDK för Python är tillgänglig som en PyPI-modul (Python Package Index). Speech SDK för Python är kompatibelt med Windows, Linux och macOS.

  1. Installera en version av Python från 3.10 eller senare. Kontrollera först installationsguiden för SDK om det finns fler krav
  2. Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Du måste autentisera ditt program för att få åtkomst till Azure AI-tjänster. Den här artikeln visar hur du använder miljövariabler för att lagra dina autentiseringsuppgifter. Du kan sedan komma åt miljövariablerna från koden för att autentisera ditt program. För produktion använder du ett säkrare sätt att lagra och komma åt dina autentiseringsuppgifter.

Viktigt!

Vi rekommenderar Microsoft Entra-ID-autentisering med hanterade identiteter för Azure-resurser för att undvika att lagra autentiseringsuppgifter med dina program som körs i molnet.

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Om du vill ange miljövariablerna för din Speech-resursnyckel och -region öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariablerna, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtexter från tal

Följ de här stegen för att skapa och köra exempel på snabbstartskod för beskrivning.

  1. Ladda ned eller kopiera scenarier/python/konsol/textning/ exempelfiler från GitHub till en lokal katalog.
  2. Öppna en kommandotolk i samma katalog som captioning.py.
  3. Kör det här kommandot för att installera Speech SDK:
    pip install azure-cognitiveservices-speech
    
  4. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: python captioning.py --input <input file>

Bland anslutningsalternativen finns:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Viktigt!

Om du använder en API-nyckel lagrar du den på ett säkert sätt någon annanstans, till exempel i Azure Key Vault. Inkludera inte API-nyckeln direkt i koden och publicera den aldrig offentligt.

Mer information om säkerhet för AI-tjänster finns i Autentisera begäranden till Azure AI-tjänster.

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-beskrivningsexemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när du delar upp undertexter i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdatatexter till den angivna file. Den här flaggan krävs.
  • --srt: Utdatatexter i SRT-format (SubRip Text). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en undertext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

I den här snabbstarten kör du en konsolapp för att skapa bildtexter med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline.

Dricks

Prova Azure AI Speech Toolkit för att enkelt skapa och köra textningsexempel i Visual Studio Code.

Förutsättningar

  • En Azure-prenumeration. Du kan skapa en kostnadsfritt.
  • Skapa en Speech-resurs i Azure Portal.
  • Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar.

Konfigurera miljön

Följ de här stegen och se snabbstarten för Speech CLI för andra krav för din plattform.

  1. Kör följande .NET CLI-kommando för att installera Speech CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Kör följande kommandon för att konfigurera din Speech-resursnyckel och -region. Ersätt SUBSCRIPTION-KEY med din Speech-resursnyckel och ersätt REGION med din Speech-resursregion.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Du måste också installera GStreamer för komprimerat indataljud.

Skapa bildtexter från tal

Med Speech CLI kan du mata ut texttexter för både SRT (SubRip Text) och WebVTT (Web Video Text Tracks) från alla typer av medier som innehåller ljud.

Följ dessa steg om du vill känna igen ljud från en fil och mata ut både WebVtt- (vtt) och SRT-bildtexter (srt).

  1. Kontrollera att du har en indatafil med namnet caption.this.mp4 i sökvägen.

  2. Kör följande kommando för att mata ut bildtexter från videofilen:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    SRT- och WebVTT-undertexterna matas ut till konsolen enligt följande:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Användning och argument

Här följer information om de valfria argumenten från föregående kommando:

  • --file caption.this.mp4 --format any: Indataljud från filen. Standardinmatningen är mikrofonen. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
  • --output vtt file - och --output srt file -: Matar ut WebVTT- och SRT-undertexter till standardutdata. Mer information om filformat för SRT- och WebVTT-undertext finns i Utdataformat för bildtext. Mer information om argumentet finns i Utdataalternativ för --output Speech CLI.
  • @output.each.detailed: Utdata händelseresultat med text, förskjutning och varaktighet. Mer information finns i Hämta resultat för taligenkänning.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Du kan begära att Speech-tjänsten returnerar färre Recognizing händelser som är mer exakta. I det här exemplet måste Speech-tjänsten bekräfta igenkänningen av ett ord minst fem gånger innan du returnerar de partiella resultaten till dig. Mer information finns i Hämta begrepp för partiella resultat .
  • --profanity masked: Du kan ange om du vill maskera, ta bort eller visa svordomar i igenkänningsresultat. Mer information finns i Begrepp för svordomsfilter .
  • --phrases "Constoso;Jessie;Rehaan": Du kan ange en lista med fraser som ska identifieras, till exempel Contoso, Jessie och Rehaan. Mer information finns i Förbättra igenkänning med fraslista.

Rensa resurser

Du kan använda Azure Portal- eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Nästa steg