Delen via


Quickstart: Bijschriften maken met spraak-naar-tekst

Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

  1. Kopieer de scenario's/csharp/dotnetcore/captioning/ sample-bestanden van GitHub. Als Git is geïnstalleerd, opent u een opdrachtprompt en voert u de opdracht uit om de git clone opslagplaats met voorbeelden van de Speech SDK te downloaden.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Open een opdrachtprompt en ga naar de projectmap.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Bouw het project met de .NET CLI.
    dotnet build
    
  4. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: captioning --input <input file>

Verbindingsopties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: Uitvoerbijschriften naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bijschriften maken op basis van spraak

Volg deze stappen om het quickstart-codevoorbeeld voor bijschriften te bouwen en uit te voeren met Visual Studio Community 2022 in Windows.

  1. Download of kopieer de scenario's/cpp/windows/captioning/ voorbeeldbestanden van GitHub naar een lokale map.

  2. Open het captioning.sln oplossingsbestand in Visual Studio Community 2022.

  3. Installeer de Speech SDK in uw project met NuGet Package Manager.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Open Projecteigenschappen>>Algemeen. Stel de configuratie in op All configurations. Stel C++ Language Standard in op ISO C++17 Standard (/std:c++17).

  5. Open Build>Configuration Manager.

    • Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op x64.
    • Stel op een 32-bits Windows-installatie het actieve oplossingsplatform in op x86.
  6. Foutopsporing van projecteigenschappen>>openen. Voer de gewenste opdrachtregelargumenten in bij Opdrachtargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

  7. Bouw en voer de consoletoepassing uit .

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: captioning --input <input file>

Verbindingsopties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: Uitvoerbijschriften naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (Go) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Controleer of er platformspecifieke installatiestappen zijn.

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

  1. Download of kopieer de scenario's/go/captioning/ voorbeeldbestanden van GitHub naar een lokale map.

  2. Open een opdrachtprompt in dezelfde map als captioning.go.

  3. Voer de volgende opdrachten uit om een go.mod bestand te maken dat is gekoppeld aan de Speech SDK-onderdelen die worden gehost op GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Bouw de GO-module.

    go build
    
  5. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Vervang YourSubscriptionKey door uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio, zoals westus ofnortheurope. Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Belangrijk

    Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het beveiligingsartikel over Azure AI-services voor meer informatie.

Resultaten controleren

Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt. Tussenliggende resultaten worden weergegeven in de console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Verbindingsopties zijn onder andere:

  • --key: uw spraakresourcesleutel.
  • --region REGION: uw spraakresourceregio. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld: en-US,ja-JP. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.

Herkenningsopties zijn onder andere:

  • --recognizing: Resultaten van uitvoer Recognizing gebeurtenis. De standaarduitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: Uitvoerbijschriften naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK installeren. Het voorbeeld in deze quickstart werkt met de Microsoft Build van OpenJDK 17

  1. Installeer Apache Maven. Voer vervolgens uit mvn -v om de installatie te bevestigen.
  2. Maak een nieuw pom.xml bestand in de hoofdmap van uw project en kopieer het volgende erin:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.42.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installeer de Speech SDK en afhankelijkheden.
    mvn clean dependency:copy-dependencies
    
  4. U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

  1. Kopieer de scenario's/java/jre/captioning/ sample files van GitHub naar uw projectmap. Het pom.xml bestand dat u in de omgevingsinstallatie hebt gemaakt, moet zich ook in deze map bevinden.
  2. Open een opdrachtprompt en voer deze opdracht uit om de projectbestanden te compileren.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: java -cp ".;target\dependency\*" Captioning --input <input file>

Verbindingsopties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: Uitvoerbijschriften naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (npm) | Aanvullende voorbeelden in broncode van GitHub Library | |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK voor JavaScript installeren. Als u alleen de pakketnaam wilt installeren, voert u het volgende uit npm install microsoft-cognitiveservices-speech-sdk. Zie de SDK-installatiehandleiding voor begeleide installatie-instructies.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

  1. Kopieer de scenario's/javascript/node/captioning/ voorbeeldbestanden van GitHub naar uw projectmap.

  2. Open een opdrachtprompt in dezelfde map als Captioning.js.

  3. Installeer de Speech SDK voor JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Vervang YourSubscriptionKey door uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio, zoals westus ofnortheurope. Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Notitie

    De Speech SDK voor JavaScript biedt geen ondersteuning voor gecomprimeerde invoeraudio. U moet een WAV-bestand gebruiken, zoals wordt weergegeven in het voorbeeld.

    Belangrijk

    Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het beveiligingsartikel over Azure AI-services voor meer informatie.

Resultaten controleren

Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt. Tussenliggende resultaten worden weergegeven in de console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: node captioning.js --key <key> --region <region> --input <input file>

Verbindingsopties zijn onder andere:

  • --key: uw spraakresourcesleutel.
  • --region REGION: uw spraakresourceregio. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld: en-US,ja-JP. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.

Herkenningsopties zijn onder andere:

  • --recognizing: Resultaten van uitvoer Recognizing gebeurtenis. De standaarduitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: Uitvoerbijschriften naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (download) | Aanvullende voorbeelden op GitHub |

De Speech SDK voor Objective-C biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Objective-C-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.

Referentiedocumentatiepakket (download) | Aanvullende voorbeelden op GitHub |

De Speech SDK voor Swift biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Swift-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.

Referentiedocumentatiepakket (PyPi) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

De Speech SDK voor Python is beschikbaar als een PyPI-module (Python Package Index). De Speech SDK voor Python is compatibel met Windows, Linux en macOS.

  1. Installeer een versie van Python vanaf 3.10 of hoger. Controleer eerst de SDK-installatiehandleiding voor meer vereisten
  2. U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

  1. Download of kopieer de scenario's/python/console/captioning/ samplebestanden van GitHub naar een lokale map.
  2. Open een opdrachtprompt in dezelfde map als captioning.py.
  3. Voer deze opdracht uit om de Speech SDK te installeren:
    pip install azure-cognitiveservices-speech
    
  4. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: python captioning.py --input <input file>

Verbindingsopties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: Uitvoerbijschriften naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Tip

Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

  • Een Azure-abonnement. U kunt er gratis een maken.
  • Maak een spraakresource in Azure Portal.
  • Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Volg deze stappen en bekijk de quickstart voor Speech CLI voor andere vereisten voor uw platform.

  1. Voer de volgende .NET CLI-opdracht uit om de Speech CLI te installeren:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Voer de volgende opdrachten uit om uw Spraak-resourcesleutel en -regio te configureren. Vervang door SUBSCRIPTION-KEY uw Spraak-resourcesleutel en vervang deze door REGION de spraakresourceregio.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Bijschriften maken op basis van spraak

Met de Speech CLI kunt u zowel SRT-bijschriften (SubRip Text) als WebVTT (Web Video Text Tracks) uitvoeren vanaf elk type media dat audio bevat.

Als u audio van een bestand wilt herkennen en zowel WebVtt-bijschriften (vtt) als SRT-bijschriftensrt wilt uitvoeren, volgt u deze stappen.

  1. Zorg ervoor dat u een invoerbestand met de naam caption.this.mp4 in het pad hebt.

  2. Voer de volgende opdracht uit om bijschriften uit het videobestand uit te voeren:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    De SRT- en WebVTT-bijschriften worden uitgevoerd naar de console, zoals hier wordt weergegeven:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Gebruik en argumenten

Hier vindt u informatie over de optionele argumenten van de vorige opdracht:

  • --file caption.this.mp4 --format any: Audio van bestand invoeren. De standaardinvoer is de microfoon. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
  • --output vtt file - en --output srt file -: voert WebVTT- en SRT-bijschriften uit naar standaarduitvoer. Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen. Zie Speech CLI-uitvoeropties voor meer informatie over het --output argument.
  • @output.each.detailed: voert de resultaten van de gebeurtenis uit met tekst, offset en duur. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: U kunt aanvragen dat de Speech-service minder Recognizing gebeurtenissen retourneert die nauwkeuriger zijn. In dit voorbeeld moet de Speech-service de herkenning van een woord ten minste vijf keer bevestigen voordat de gedeeltelijke resultaten aan u worden geretourneerd. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
  • --profanity masked: U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven in herkenningsresultaten. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --phrases "Constoso;Jessie;Rehaan": U kunt een lijst opgeven met zinnen die moeten worden herkend, zoals Contoso, Jessie en Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Volgende stappen