Rychlé zprovoznění vytváření titulků s převodem řeči na text – služba Speech - Azure AI services

Referenční dokumentace | Package (NuGet) | Další ukázky na GitHubu

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Sada Speech SDK je k dispozici jako balíček NuGet a implementuje .NET Standard 2.0. Sadu Speech SDK nainstalujete později v této příručce, ale nejprve si projděte průvodce instalací sady SDK, kde najdete další požadavky.

Musíte také nainstalovat GStreamer pro komprimovaný vstupní zvuk.

Nastavení proměnných prostředí

Abyste mohli přistupovat ke službám Azure AI, musíte svou aplikaci ověřit. V tomto článku se dozvíte, jak pomocí proměnných prostředí ukládat přihlašovací údaje. Pak můžete přistupovat k proměnným prostředí z kódu, abyste aplikaci ověřili. V produkčním prostředí použijte bezpečnější způsob, jak ukládat přihlašovací údaje a přistupovat k němu.

Důležité

Doporučujeme ověřování Microsoft Entra ID se spravovanými identitami pro prostředky Azure, abyste se vyhnuli ukládání přihlašovacích údajů s aplikacemi, které běží v cloudu.

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Pokud chcete nastavit proměnné prostředí pro klíč a oblast prostředku služby Speech, otevřete okno konzoly a postupujte podle pokynů pro operační systém a vývojové prostředí.

Pokud chcete nastavit proměnnou SPEECH_KEY prostředí, nahraďte klíč jedním z klíčů vašeho prostředku.
Pokud chcete nastavit proměnnou SPEECH_REGION prostředí, nahraďte oblast jednou z oblastí vašeho prostředku.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Poznámka:

Pokud potřebujete přístup pouze k proměnným prostředí v aktuální konzole, můžete nastavit proměnnou prostředí namísto set setx.

Po přidání proměnných prostředí možná budete muset restartovat všechny programy, které potřebují číst proměnné prostředí, včetně okna konzoly. Pokud například jako editor používáte Sadu Visual Studio, restartujte sadu Visual Studio před spuštěním příkladu.

Bash

Upravte soubor .bashrc a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bashrc z okna konzoly, aby změny byly efektivní.

Bash

Upravte soubor .bash_profile a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bash_profile z okna konzoly, aby změny byly efektivní.

Xcode

Pro vývoj pro iOS a macOS nastavíte proměnné prostředí v Xcode. Například pomocí následujícího postupu nastavte proměnnou prostředí v Xcode 13.4.1.

Vyberte schéma úprav schématu> produktu.>
Na stránce Spustit (spustit ladění) vyberte argumenty.
V části Proměnné prostředí vyberte znaménko plus (+) a přidejte novou proměnnou prostředí.
Zadejte SPEECH_KEY název a jako hodnotu zadejte klíč prostředku služby Speech.

Pokud chcete nastavit proměnnou prostředí pro oblast prostředků služby Speech, postupujte podle stejných kroků. Nastavte SPEECH_REGION oblast vašeho prostředku. Například westus.

Další možnosti konfigurace najdete v dokumentaci k Xcode.

Vytváření titulků z řeči

Pomocí těchto kroků sestavte a spusťte příklad kódu rychlého startu titulků.

Zkopírujte scénáře/csharp/dotnetcore/captioning/ ukázkové soubory z GitHubu. Pokud máte nainstalovaný Git, otevřete příkazový řádek a spusťte git clone příkaz pro stažení úložiště ukázek sady Speech SDK.
```
git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
```

Otevřete příkazový řádek a přejděte do adresáře projektu.

cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/

Sestavte projekt pomocí .NET CLI.
```
dotnet build
```
Spusťte aplikaci s upřednostňovanými argumenty příkazového řádku. Dostupné možnosti najdete v tématu využití a argumenty . Tady je příklad:
```
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Důležité

Ujistěte se, že cesty zadané --input a --output jsou platné. Jinak je nutné změnit cesty.

Ujistěte se, že jste nastavili SPEECH_KEY proměnné prostředí a SPEECH_REGION jak je popsáno výše. V opačném případě použijte argumenty --key a --region argumenty.

Kontrola výsledků

Pokud použijete realTime možnost v předchozím příkladu, budou ve výstupu zahrnuty částečné výsledky z Recognizing událostí. V tomto příkladu obsahuje pouze poslední Recognized událost čárky. Čárky nejsou jedinými rozdíly mezi Recognizing událostmi a Recognized událostmi. Další informace najdete v tématu Získání částečných výsledků.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Při použití této --offline možnosti jsou výsledky stabilní z poslední Recognized události. Ve výstupu nejsou zahrnuté částečné výsledky:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Výstupní formát časového rozsahu SRT (SubRip Text) je hh:mm:ss,fff. Další informace naleznete v tématu Formát výstupu titulku.

Využití a argumenty

Použití: captioning --input <input file>

Mezi možnosti připojení patří:

--key: Váš klíč prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_KEY. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --key tuto možnost.
--region REGION: Oblast vašeho prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_REGION. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --region tuto možnost. Příklady: westus, northeurope

Důležité

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Mezi vstupní možnosti patří:

--input FILE: Vstup zvuku ze souboru. Výchozí vstup je mikrofon.
--format FORMAT: Použijte komprimovaný zvukový formát. Platné pouze s --file. Platné hodnoty jsou alaw, , flacany, mp3, mulawa ogg_opus. Výchozí hodnota je any. Pokud chcete použít wav soubor, nezadávejte formát. Tato možnost není k dispozici s ukázkou titulků v JavaScriptu. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.

Mezi jazykové možnosti patří:

--language LANG: Zadejte jazyk pomocí jednoho z odpovídajících podporovaných národních prostředí. Používá se při dělení titulků na řádky. Výchozí hodnota je en-US.

Mezi možnosti rozpoznávání patří:

--offline: Výstup offline výsledků. Přepisy --realTime. Výchozí výstupní režim je offline.
--realTime: Výstup výsledků v reálném čase

Výstup v reálném čase zahrnuje Recognizing výsledky událostí. Výchozí offline výstup je Recognized pouze výsledky událostí. Vždycky se zapisují do konzoly, nikdy do výstupního souboru. Tato --quiet možnost tuto možnost přepíše. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.

Mezi možnosti přesnosti patří:

--phrases PHRASE1;PHRASE2: Můžete zadat seznam frází, které se mají rozpoznat, například Contoso;Jessie;Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Mezi možnosti výstupu patří:

--help: Zobrazit tuto nápovědu a zastavit
--output FILE: Výstupní titulky zadaného file. Tento příznak je povinný.
--srt: Výstupní titulky ve formátu SRT (SubRip Text). Výchozí formát je WebVTT (Stopy textu webového videa). Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku.
--maxLineLength LENGTH: Nastavte maximální počet znaků na řádek pro titulek na DÉLKU. Minimum je 20. Výchozí hodnota je 37 (30 pro čínštinu).
--lines LINES: Nastavte počet řádků titulku na ŘÁDKY. Minimum je 1. Výchozí hodnota je 2.
--delay MILLISECONDS: Kolik milisekund pozdrží zobrazení jednotlivých titulků, aby napodobily prostředí v reálném čase. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Minimum je 0,0. Výchozí hodnota je 1000.
--remainTime MILLISECONDS: Kolik milisekund má titulek zůstat na obrazovce, pokud není nahrazen jiným. Minimum je 0,0. Výchozí hodnota je 1000.
--quiet: Potlačit výstup konzoly s výjimkou chyb.
--profanity OPTION: Platné hodnoty: raw, remove, mask. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--threshold NUMBER: Nastavte stabilní prahovou hodnotu částečného výsledku. Výchozí hodnota je 3. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Další informace najdete v tématu Získání konceptů částečných výsledků .

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

Referenční dokumentace | Package (NuGet) | Další ukázky na GitHubu

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Sada Speech SDK je k dispozici jako balíček NuGet a implementuje .NET Standard 2.0. Sadu Speech SDK nainstalujete později v této příručce, ale nejprve si projděte průvodce instalací sady SDK a zjistěte další požadavky.

Musíte také nainstalovat GStreamer pro komprimovaný vstupní zvuk.

Nastavení proměnných prostředí

Abyste mohli přistupovat ke službám Azure AI, musíte svou aplikaci ověřit. V tomto článku se dozvíte, jak pomocí proměnných prostředí ukládat přihlašovací údaje. Pak můžete přistupovat k proměnným prostředí z kódu, abyste aplikaci ověřili. V produkčním prostředí použijte bezpečnější způsob, jak ukládat přihlašovací údaje a přistupovat k němu.

Důležité

Doporučujeme ověřování Microsoft Entra ID se spravovanými identitami pro prostředky Azure, abyste se vyhnuli ukládání přihlašovacích údajů s aplikacemi, které běží v cloudu.

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Pokud chcete nastavit proměnné prostředí pro klíč a oblast prostředku služby Speech, otevřete okno konzoly a postupujte podle pokynů pro operační systém a vývojové prostředí.

Pokud chcete nastavit proměnnou SPEECH_KEY prostředí, nahraďte klíč jedním z klíčů vašeho prostředku.
Pokud chcete nastavit proměnnou SPEECH_REGION prostředí, nahraďte oblast jednou z oblastí vašeho prostředku.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Poznámka:

Pokud potřebujete přístup pouze k proměnným prostředí v aktuální konzole, můžete nastavit proměnnou prostředí namísto set setx.

Po přidání proměnných prostředí možná budete muset restartovat všechny programy, které potřebují číst proměnné prostředí, včetně okna konzoly. Pokud například jako editor používáte Sadu Visual Studio, restartujte sadu Visual Studio před spuštěním příkladu.

Bash

Upravte soubor .bashrc a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bashrc z okna konzoly, aby změny byly efektivní.

Bash

Upravte soubor .bash_profile a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bash_profile z okna konzoly, aby změny byly efektivní.

Xcode

Pro vývoj pro iOS a macOS nastavíte proměnné prostředí v Xcode. Například pomocí následujícího postupu nastavte proměnnou prostředí v Xcode 13.4.1.

Vyberte schéma úprav schématu> produktu.>
Na stránce Spustit (spustit ladění) vyberte argumenty.
V části Proměnné prostředí vyberte znaménko plus (+) a přidejte novou proměnnou prostředí.
Zadejte SPEECH_KEY název a jako hodnotu zadejte klíč prostředku služby Speech.

Pokud chcete nastavit proměnnou prostředí pro oblast prostředků služby Speech, postupujte podle stejných kroků. Nastavte SPEECH_REGION oblast vašeho prostředku. Například westus.

Další možnosti konfigurace najdete v dokumentaci k Xcode.

Vytváření titulků z řeči

Pomocí těchto kroků sestavte a spusťte příklad kódu rychlého startu titulků v sadě Visual Studio Community 2022 ve Windows.

Stáhněte nebo zkopírujte scénáře/cpp/windows/captioning/ ukázkové soubory z GitHubu do místního adresáře.
captioning.sln Otevřete soubor řešení v sadě Visual Studio Community 2022.
Nainstalujte sadu Speech SDK do projektu pomocí správce balíčků NuGet.
```
Install-Package Microsoft.CognitiveServices.Speech
```
Otevřete obecné vlastnosti>projektu.> Nastavte konfiguraci na All configurationshodnotu . Nastavte jazyk C++ Standard na ISO C++17 Standard (/std:c++17).
Otevřete Nástroj Build>Configuration Manager.
- Na 64bitové instalaci Systému Windows nastavte aktivní platformu řešení na x64.
- Na 32bitové instalaci Systému Windows nastavte aktivní platformu řešení na x86.
Otevřete ladění vlastností>projektu.> Do argumentů příkazového řádku zadejte upřednostňované argumenty příkazového řádku. Dostupné možnosti najdete v tématu využití a argumenty . Zde je příklad:
```
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Důležité

Ujistěte se, že cesty zadané --input a --output jsou platné. Jinak je nutné změnit cesty.

Ujistěte se, že jste nastavili SPEECH_KEY proměnné prostředí a SPEECH_REGION jak je popsáno výše. V opačném případě použijte argumenty --key a --region argumenty.
Sestavte a spusťte konzolovou aplikaci.

Kontrola výsledků

Pokud použijete realTime možnost v předchozím příkladu, budou ve výstupu zahrnuty částečné výsledky z Recognizing událostí. V tomto příkladu obsahuje pouze poslední Recognized událost čárky. Čárky nejsou jedinými rozdíly mezi Recognizing událostmi a Recognized událostmi. Další informace najdete v tématu Získání částečných výsledků.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Při použití této --offline možnosti jsou výsledky stabilní z poslední Recognized události. Ve výstupu nejsou zahrnuté částečné výsledky:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Výstupní formát časového rozsahu SRT (SubRip Text) je hh:mm:ss,fff. Další informace naleznete v tématu Formát výstupu titulku.

Využití a argumenty

Použití: captioning --input <input file>

Mezi možnosti připojení patří:

--key: Váš klíč prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_KEY. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --key tuto možnost.
--region REGION: Oblast vašeho prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_REGION. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --region tuto možnost. Příklady: westus, northeurope

Důležité

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Mezi vstupní možnosti patří:

--input FILE: Vstup zvuku ze souboru. Výchozí vstup je mikrofon.
--format FORMAT: Použijte komprimovaný zvukový formát. Platné pouze s --file. Platné hodnoty jsou alaw, , flacany, mp3, mulawa ogg_opus. Výchozí hodnota je any. Pokud chcete použít wav soubor, nezadávejte formát. Tato možnost není k dispozici s ukázkou titulků v JavaScriptu. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.

Mezi jazykové možnosti patří:

--language LANG: Zadejte jazyk pomocí jednoho z odpovídajících podporovaných národních prostředí. Používá se při dělení titulků na řádky. Výchozí hodnota je en-US.

Mezi možnosti rozpoznávání patří:

--offline: Výstup offline výsledků. Přepisy --realTime. Výchozí výstupní režim je offline.
--realTime: Výstup výsledků v reálném čase

Výstup v reálném čase zahrnuje Recognizing výsledky událostí. Výchozí offline výstup je Recognized pouze výsledky událostí. Vždycky se zapisují do konzoly, nikdy do výstupního souboru. Tato --quiet možnost tuto možnost přepíše. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.

Mezi možnosti přesnosti patří:

--phrases PHRASE1;PHRASE2: Můžete zadat seznam frází, které se mají rozpoznat, například Contoso;Jessie;Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Mezi možnosti výstupu patří:

--help: Zobrazit tuto nápovědu a zastavit
--output FILE: Výstupní titulky zadaného file. Tento příznak je povinný.
--srt: Výstupní titulky ve formátu SRT (SubRip Text). Výchozí formát je WebVTT (Stopy textu webového videa). Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku.
--maxLineLength LENGTH: Nastavte maximální počet znaků na řádek pro titulek na DÉLKU. Minimum je 20. Výchozí hodnota je 37 (30 pro čínštinu).
--lines LINES: Nastavte počet řádků titulku na ŘÁDKY. Minimum je 1. Výchozí hodnota je 2.
--delay MILLISECONDS: Kolik milisekund pozdrží zobrazení jednotlivých titulků, aby napodobily prostředí v reálném čase. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Minimum je 0,0. Výchozí hodnota je 1000.
--remainTime MILLISECONDS: Kolik milisekund má titulek zůstat na obrazovce, pokud není nahrazen jiným. Minimum je 0,0. Výchozí hodnota je 1000.
--quiet: Potlačit výstup konzoly s výjimkou chyb.
--profanity OPTION: Platné hodnoty: raw, remove, mask. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--threshold NUMBER: Nastavte stabilní prahovou hodnotu částečného výsledku. Výchozí hodnota je 3. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Další informace najdete v tématu Získání konceptů částečných výsledků .

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

Referenční dokumentace | Package (Go) | Další ukázky na GitHubu

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Zkontrolujte, jestli existují nějaké kroky instalace specifické pro platformu.

Musíte také nainstalovat GStreamer pro komprimovaný vstupní zvuk.

Vytváření titulků z řeči

Pomocí těchto kroků sestavte a spusťte příklad kódu rychlého startu titulků.

Stáhněte nebo zkopírujte scénáře,go/captioning/ ukázkové soubory z GitHubu do místního adresáře.
Otevřete příkazový řádek ve stejném adresáři jako captioning.go.
Spuštěním následujících příkazů vytvořte go.mod soubor, který odkazuje na komponenty sady Speech SDK hostované na GitHubu:
```
go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Sestavte modul GO.
```
go build
```
Spusťte aplikaci s upřednostňovanými argumenty příkazového řádku. Dostupné možnosti najdete v tématu využití a argumenty . Zde je příklad:
```
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Nahraďte YourSubscriptionKey svým klíčem prostředku služby Speech a nahraďte YourServiceRegion oblastí prostředků služby Speech, například westus nebo northeurope. Ujistěte se, že cesty zadané --input a --output jsou platné. Jinak je nutné změnit cesty.

Důležité

Nezapomeňte klíč z kódu odebrat, až to budete hotovi, a nikdy ho veřejně neposílejte. V produkčním prostředí použijte bezpečný způsob ukládání přihlašovacích údajů a přístupu k vašim přihlašovacím údajům, jako je Azure Key Vault. Další informace najdete v článku zabezpečení služeb Azure AI.

Kontrola výsledků

Výstupní soubor s úplnými titulky je zapsán do caption.output.txt. Průběžné výsledky se zobrazují v konzole:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Výstupní formát časového rozsahu SRT (SubRip Text) je hh:mm:ss,fff. Další informace naleznete v tématu Formát výstupu titulku.

Využití a argumenty

Použití: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Mezi možnosti připojení patří:

--key: Váš klíč prostředku služby Speech.
--region REGION: Oblast vašeho prostředku služby Speech. Příklady: westus, northeurope

Mezi vstupní možnosti patří:

--input FILE: Vstup zvuku ze souboru. Výchozí vstup je mikrofon.
--format FORMAT: Použijte komprimovaný zvukový formát. Platné pouze s --file. Platné hodnoty jsou alaw, , flacany, mp3, mulawa ogg_opus. Výchozí hodnota je any. Pokud chcete použít wav soubor, nezadávejte formát. Tato možnost není k dispozici s ukázkou titulků v JavaScriptu. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.

Mezi jazykové možnosti patří:

--languages LANG1,LANG2: Povolte identifikaci jazyka pro zadané jazyky. Například: en-US,ja-JP. Tato možnost je dostupná jenom s ukázkami titulků C++, C# a Pythonu. Další informace naleznete v tématu Identifikace jazyka.

Mezi možnosti rozpoznávání patří:

--recognizing: Výsledky výstupní Recognizing události. Výchozí výstup je Recognized pouze výsledky událostí. Vždycky se zapisují do konzoly, nikdy do výstupního souboru. Tato --quiet možnost tuto možnost přepíše. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.

Mezi možnosti přesnosti patří:

--phrases PHRASE1;PHRASE2: Můžete zadat seznam frází, které se mají rozpoznat, například Contoso;Jessie;Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Mezi možnosti výstupu patří:

--help: Zobrazit tuto nápovědu a zastavit
--output FILE: Výstupní titulky zadaného file. Tento příznak je povinný.
--srt: Výstupní titulky ve formátu SRT (SubRip Text). Výchozí formát je WebVTT (Stopy textu webového videa). Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku.
--quiet: Potlačit výstup konzoly s výjimkou chyb.
--profanity OPTION: Platné hodnoty: raw, remove, mask. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--threshold NUMBER: Nastavte stabilní prahovou hodnotu částečného výsledku. Výchozí hodnota je 3. Další informace najdete v tématu Získání konceptů částečných výsledků .

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

Referenční dokumentace | Další ukázky na GitHubu

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Než budete moct cokoli udělat, musíte nainstalovat sadu Speech SDK. Ukázka v tomto rychlém startu funguje s microsoft buildem OpenJDK 17.

Nainstalujte Apache Maven. Pak spusťte a potvrďte mvn -v úspěšnou instalaci.

V kořenovém adresáři projektu vytvořte nový pom.xml soubor a zkopírujte do něj následující:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.42.0</version>
        </dependency>
    </dependencies>
</project>

Nainstalujte sadu Speech SDK a závislosti.
```
mvn clean dependency:copy-dependencies
```
Musíte také nainstalovat GStreamer pro komprimovaný vstupní zvuk.

Nastavení proměnných prostředí

Abyste mohli přistupovat ke službám Azure AI, musíte svou aplikaci ověřit. V tomto článku se dozvíte, jak pomocí proměnných prostředí ukládat přihlašovací údaje. Pak můžete přistupovat k proměnným prostředí z kódu, abyste aplikaci ověřili. V produkčním prostředí použijte bezpečnější způsob, jak ukládat přihlašovací údaje a přistupovat k němu.

Důležité

Doporučujeme ověřování Microsoft Entra ID se spravovanými identitami pro prostředky Azure, abyste se vyhnuli ukládání přihlašovacích údajů s aplikacemi, které běží v cloudu.

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Pokud chcete nastavit proměnné prostředí pro klíč a oblast prostředku služby Speech, otevřete okno konzoly a postupujte podle pokynů pro operační systém a vývojové prostředí.

Pokud chcete nastavit proměnnou SPEECH_KEY prostředí, nahraďte klíč jedním z klíčů vašeho prostředku.
Pokud chcete nastavit proměnnou SPEECH_REGION prostředí, nahraďte oblast jednou z oblastí vašeho prostředku.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Poznámka:

Pokud potřebujete přístup pouze k proměnným prostředí v aktuální konzole, můžete nastavit proměnnou prostředí namísto set setx.

Po přidání proměnných prostředí možná budete muset restartovat všechny programy, které potřebují číst proměnné prostředí, včetně okna konzoly. Pokud například jako editor používáte Sadu Visual Studio, restartujte sadu Visual Studio před spuštěním příkladu.

Bash

Upravte soubor .bashrc a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bashrc z okna konzoly, aby změny byly efektivní.

Bash

Upravte soubor .bash_profile a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bash_profile z okna konzoly, aby změny byly efektivní.

Xcode

Pro vývoj pro iOS a macOS nastavíte proměnné prostředí v Xcode. Například pomocí následujícího postupu nastavte proměnnou prostředí v Xcode 13.4.1.

Vyberte schéma úprav schématu> produktu.>
Na stránce Spustit (spustit ladění) vyberte argumenty.
V části Proměnné prostředí vyberte znaménko plus (+) a přidejte novou proměnnou prostředí.
Zadejte SPEECH_KEY název a jako hodnotu zadejte klíč prostředku služby Speech.

Pokud chcete nastavit proměnnou prostředí pro oblast prostředků služby Speech, postupujte podle stejných kroků. Nastavte SPEECH_REGION oblast vašeho prostředku. Například westus.

Další možnosti konfigurace najdete v dokumentaci k Xcode.

Vytváření titulků z řeči

Pomocí těchto kroků sestavte a spusťte příklad kódu rychlého startu titulků.

Zkopírujte scénáře/java/jre/captioning/ ukázkové soubory z GitHubu do adresáře projektu. Soubor pom.xml , který jste vytvořili v instalačním programu prostředí, musí být také v tomto adresáři.
Otevřete příkazový řádek a spusťte tento příkaz pro kompilaci souborů projektu.
```
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
```
Spusťte aplikaci s upřednostňovanými argumenty příkazového řádku. Dostupné možnosti najdete v tématu využití a argumenty . Tady je příklad:
```
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Důležité

Ujistěte se, že cesty zadané --input a --output jsou platné. Jinak je nutné změnit cesty.

Ujistěte se, že jste nastavili SPEECH_KEY proměnné prostředí a SPEECH_REGION jak je popsáno výše. V opačném případě použijte argumenty --key a --region argumenty.

Kontrola výsledků

Pokud použijete realTime možnost v předchozím příkladu, budou ve výstupu zahrnuty částečné výsledky z Recognizing událostí. V tomto příkladu obsahuje pouze poslední Recognized událost čárky. Čárky nejsou jedinými rozdíly mezi Recognizing událostmi a Recognized událostmi. Další informace najdete v tématu Získání částečných výsledků.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Při použití této --offline možnosti jsou výsledky stabilní z poslední Recognized události. Ve výstupu nejsou zahrnuté částečné výsledky:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Výstupní formát časového rozsahu SRT (SubRip Text) je hh:mm:ss,fff. Další informace naleznete v tématu Formát výstupu titulku.

Využití a argumenty

Použití: java -cp ".;target\dependency\*" Captioning --input <input file>

Mezi možnosti připojení patří:

--key: Váš klíč prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_KEY. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --key tuto možnost.
--region REGION: Oblast vašeho prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_REGION. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --region tuto možnost. Příklady: westus, northeurope

Důležité

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Mezi vstupní možnosti patří:

--input FILE: Vstup zvuku ze souboru. Výchozí vstup je mikrofon.
--format FORMAT: Použijte komprimovaný zvukový formát. Platné pouze s --file. Platné hodnoty jsou alaw, , flacany, mp3, mulawa ogg_opus. Výchozí hodnota je any. Pokud chcete použít wav soubor, nezadávejte formát. Tato možnost není k dispozici s ukázkou titulků v JavaScriptu. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.

Mezi jazykové možnosti patří:

--language LANG: Zadejte jazyk pomocí jednoho z odpovídajících podporovaných národních prostředí. Používá se při dělení titulků na řádky. Výchozí hodnota je en-US.

Mezi možnosti rozpoznávání patří:

--offline: Výstup offline výsledků. Přepisy --realTime. Výchozí výstupní režim je offline.
--realTime: Výstup výsledků v reálném čase

Výstup v reálném čase zahrnuje Recognizing výsledky událostí. Výchozí offline výstup je Recognized pouze výsledky událostí. Vždycky se zapisují do konzoly, nikdy do výstupního souboru. Tato --quiet možnost tuto možnost přepíše. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.

Mezi možnosti přesnosti patří:

--phrases PHRASE1;PHRASE2: Můžete zadat seznam frází, které se mají rozpoznat, například Contoso;Jessie;Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Mezi možnosti výstupu patří:

--help: Zobrazit tuto nápovědu a zastavit
--output FILE: Výstupní titulky zadaného file. Tento příznak je povinný.
--srt: Výstupní titulky ve formátu SRT (SubRip Text). Výchozí formát je WebVTT (Stopy textu webového videa). Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku.
--maxLineLength LENGTH: Nastavte maximální počet znaků na řádek pro titulek na DÉLKU. Minimum je 20. Výchozí hodnota je 37 (30 pro čínštinu).
--lines LINES: Nastavte počet řádků titulku na ŘÁDKY. Minimum je 1. Výchozí hodnota je 2.
--delay MILLISECONDS: Kolik milisekund pozdrží zobrazení jednotlivých titulků, aby napodobily prostředí v reálném čase. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Minimum je 0,0. Výchozí hodnota je 1000.
--remainTime MILLISECONDS: Kolik milisekund má titulek zůstat na obrazovce, pokud není nahrazen jiným. Minimum je 0,0. Výchozí hodnota je 1000.
--quiet: Potlačit výstup konzoly s výjimkou chyb.
--profanity OPTION: Platné hodnoty: raw, remove, mask. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--threshold NUMBER: Nastavte stabilní prahovou hodnotu částečného výsledku. Výchozí hodnota je 3. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Další informace najdete v tématu Získání konceptů částečných výsledků .

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

Referenční dokumentace | Balíček (npm) | Další ukázky ve zdrojovém kódu knihovny GitHub |

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Než budete moct cokoli udělat, musíte nainstalovat sadu Speech SDK pro JavaScript. Pokud chcete, aby se název balíčku nainstaloval, spusťte npm install microsoft-cognitiveservices-speech-sdkpříkaz . Pokyny k instalaci s asistencí najdete v průvodci instalací sady SDK.

Vytváření titulků z řeči

Pomocí těchto kroků sestavte a spusťte příklad kódu rychlého startu titulků.

Zkopírujte scénáře/javascript/node/captioning/ ukázkové soubory z GitHubu do adresáře projektu.
Otevřete příkazový řádek ve stejném adresáři jako Captioning.js.

Nainstalujte sadu Speech SDK pro JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Spusťte aplikaci s upřednostňovanými argumenty příkazového řádku. Dostupné možnosti najdete v tématu využití a argumenty . Zde je příklad:
```
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Nahraďte YourSubscriptionKey svým klíčem prostředku služby Speech a nahraďte YourServiceRegion oblastí prostředků služby Speech, například westus nebo northeurope. Ujistěte se, že cesty zadané --input a --output jsou platné. Jinak je nutné změnit cesty.

Poznámka:

Sada Speech SDK pro JavaScript nepodporuje komprimovaný vstup zvuku. Musíte použít soubor WAV, jak je znázorněno v příkladu.

Důležité

Nezapomeňte klíč z kódu odebrat, až to budete hotovi, a nikdy ho veřejně neposílejte. V produkčním prostředí použijte bezpečný způsob ukládání přihlašovacích údajů a přístupu k vašim přihlašovacím údajům, jako je Azure Key Vault. Další informace najdete v článku zabezpečení služeb Azure AI.

Kontrola výsledků

Výstupní soubor s úplnými titulky je zapsán do caption.output.txt. Průběžné výsledky se zobrazují v konzole:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Výstupní formát časového rozsahu SRT (SubRip Text) je hh:mm:ss,fff. Další informace naleznete v tématu Formát výstupu titulku.

Využití a argumenty

Použití: node captioning.js --key <key> --region <region> --input <input file>

Mezi možnosti připojení patří:

--key: Váš klíč prostředku služby Speech.
--region REGION: Oblast vašeho prostředku služby Speech. Příklady: westus, northeurope

Mezi vstupní možnosti patří:

--input FILE: Vstup zvuku ze souboru. Výchozí vstup je mikrofon.
--format FORMAT: Použijte komprimovaný zvukový formát. Platné pouze s --file. Platné hodnoty jsou alaw, , flacany, mp3, mulawa ogg_opus. Výchozí hodnota je any. Pokud chcete použít wav soubor, nezadávejte formát. Tato možnost není k dispozici s ukázkou titulků v JavaScriptu. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.

Mezi jazykové možnosti patří:

--languages LANG1,LANG2: Povolte identifikaci jazyka pro zadané jazyky. Například: en-US,ja-JP. Tato možnost je dostupná jenom s ukázkami titulků C++, C# a Pythonu. Další informace naleznete v tématu Identifikace jazyka.

Mezi možnosti rozpoznávání patří:

--recognizing: Výsledky výstupní Recognizing události. Výchozí výstup je Recognized pouze výsledky událostí. Vždycky se zapisují do konzoly, nikdy do výstupního souboru. Tato --quiet možnost tuto možnost přepíše. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.

Mezi možnosti přesnosti patří:

--phrases PHRASE1;PHRASE2: Můžete zadat seznam frází, které se mají rozpoznat, například Contoso;Jessie;Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Mezi možnosti výstupu patří:

--help: Zobrazit tuto nápovědu a zastavit
--output FILE: Výstupní titulky zadaného file. Tento příznak je povinný.
--srt: Výstupní titulky ve formátu SRT (SubRip Text). Výchozí formát je WebVTT (Stopy textu webového videa). Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku.
--quiet: Potlačit výstup konzoly s výjimkou chyb.
--profanity OPTION: Platné hodnoty: raw, remove, mask. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--threshold NUMBER: Nastavte stabilní prahovou hodnotu částečného výsledku. Výchozí hodnota je 3. Další informace najdete v tématu Získání konceptů částečných výsledků .

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu

Sada Speech SDK pro Objective-C podporuje získání výsledků rozpoznávání řeči pro titulkování, ale zatím jsme tu nezahrnuli průvodce. Začněte výběrem jiného programovacího jazyka a seznamte se s koncepty nebo si projděte referenční informace k Objective-C a ukázky propojené od začátku tohoto článku.

Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu

Sada Speech SDK pro Swift podporuje získávání výsledků rozpoznávání řeči pro titulkování, ale zatím jsme tu nezahrnuli průvodce. Začněte výběrem jiného programovacího jazyka a seznamte se s koncepty nebo si prohlédněte referenční informace a ukázky Swiftu, které jsou propojené od začátku tohoto článku.

Referenční dokumentace | Package (PyPi) | Další ukázky na GitHubu

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Sada Speech SDK pro Python je k dispozici jako modul PyPI (Python Package Index). Sada Speech SDK pro Python je kompatibilní s Windows, Linuxem a macOS.

Musíte nainstalovat Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017, 2019 a 2022 pro vaši platformu. První instalace tohoto balíčku může vyžadovat restartování.
V Linuxu musíte použít cílovou architekturu x64.

Nainstalujte verzi Pythonu z verze 3.10 nebo novější. Nejprve si projděte průvodce instalací sady SDK a zjistěte další požadavky.
Musíte také nainstalovat GStreamer pro komprimovaný vstupní zvuk.

Nastavení proměnných prostředí

Abyste mohli přistupovat ke službám Azure AI, musíte svou aplikaci ověřit. V tomto článku se dozvíte, jak pomocí proměnných prostředí ukládat přihlašovací údaje. Pak můžete přistupovat k proměnným prostředí z kódu, abyste aplikaci ověřili. V produkčním prostředí použijte bezpečnější způsob, jak ukládat přihlašovací údaje a přistupovat k němu.

Důležité

Doporučujeme ověřování Microsoft Entra ID se spravovanými identitami pro prostředky Azure, abyste se vyhnuli ukládání přihlašovacích údajů s aplikacemi, které běží v cloudu.

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Pokud chcete nastavit proměnné prostředí pro klíč a oblast prostředku služby Speech, otevřete okno konzoly a postupujte podle pokynů pro operační systém a vývojové prostředí.

Pokud chcete nastavit proměnnou SPEECH_KEY prostředí, nahraďte klíč jedním z klíčů vašeho prostředku.
Pokud chcete nastavit proměnnou SPEECH_REGION prostředí, nahraďte oblast jednou z oblastí vašeho prostředku.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Poznámka:

Pokud potřebujete přístup pouze k proměnným prostředí v aktuální konzole, můžete nastavit proměnnou prostředí namísto set setx.

Po přidání proměnných prostředí možná budete muset restartovat všechny programy, které potřebují číst proměnné prostředí, včetně okna konzoly. Pokud například jako editor používáte Sadu Visual Studio, restartujte sadu Visual Studio před spuštěním příkladu.

Bash

Upravte soubor .bashrc a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bashrc z okna konzoly, aby změny byly efektivní.

Bash

Upravte soubor .bash_profile a přidejte proměnné prostředí:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po přidání proměnných prostředí spusťte source ~/.bash_profile z okna konzoly, aby změny byly efektivní.

Xcode

Pro vývoj pro iOS a macOS nastavíte proměnné prostředí v Xcode. Například pomocí následujícího postupu nastavte proměnnou prostředí v Xcode 13.4.1.

Vyberte schéma úprav schématu> produktu.>
Na stránce Spustit (spustit ladění) vyberte argumenty.
V části Proměnné prostředí vyberte znaménko plus (+) a přidejte novou proměnnou prostředí.
Zadejte SPEECH_KEY název a jako hodnotu zadejte klíč prostředku služby Speech.

Pokud chcete nastavit proměnnou prostředí pro oblast prostředků služby Speech, postupujte podle stejných kroků. Nastavte SPEECH_REGION oblast vašeho prostředku. Například westus.

Další možnosti konfigurace najdete v dokumentaci k Xcode.

Vytváření titulků z řeči

Pomocí těchto kroků sestavte a spusťte příklad kódu rychlého startu titulků.

Stáhněte nebo zkopírujte scénáře,python/console/captioning/ ukázkové soubory z GitHubu do místního adresáře.
Otevřete příkazový řádek ve stejném adresáři jako captioning.py.
Spuštěním tohoto příkazu nainstalujte sadu Speech SDK:
```
pip install azure-cognitiveservices-speech
```
Spusťte aplikaci s upřednostňovanými argumenty příkazového řádku. Dostupné možnosti najdete v tématu využití a argumenty . Tady je příklad:
```
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Důležité

Ujistěte se, že cesty zadané --input a --output jsou platné. Jinak je nutné změnit cesty.

Ujistěte se, že jste nastavili SPEECH_KEY proměnné prostředí a SPEECH_REGION jak je popsáno výše. V opačném případě použijte argumenty --key a --region argumenty.

Kontrola výsledků

Pokud použijete realTime možnost v předchozím příkladu, budou ve výstupu zahrnuty částečné výsledky z Recognizing událostí. V tomto příkladu obsahuje pouze poslední Recognized událost čárky. Čárky nejsou jedinými rozdíly mezi Recognizing událostmi a Recognized událostmi. Další informace najdete v tématu Získání částečných výsledků.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Při použití této --offline možnosti jsou výsledky stabilní z poslední Recognized události. Ve výstupu nejsou zahrnuté částečné výsledky:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Výstupní formát časového rozsahu SRT (SubRip Text) je hh:mm:ss,fff. Další informace naleznete v tématu Formát výstupu titulku.

Využití a argumenty

Použití: python captioning.py --input <input file>

Mezi možnosti připojení patří:

--key: Váš klíč prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_KEY. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --key tuto možnost.
--region REGION: Oblast vašeho prostředku služby Speech. Přepíše proměnnou prostředí SPEECH_REGION. Musíte nastavit proměnnou prostředí (doporučeno) nebo použít --region tuto možnost. Příklady: westus, northeurope

Důležité

Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Mezi vstupní možnosti patří:

--input FILE: Vstup zvuku ze souboru. Výchozí vstup je mikrofon.
--format FORMAT: Použijte komprimovaný zvukový formát. Platné pouze s --file. Platné hodnoty jsou alaw, , flacany, mp3, mulawa ogg_opus. Výchozí hodnota je any. Pokud chcete použít wav soubor, nezadávejte formát. Tato možnost není k dispozici s ukázkou titulků v JavaScriptu. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.

Mezi jazykové možnosti patří:

--language LANG: Zadejte jazyk pomocí jednoho z odpovídajících podporovaných národních prostředí. Používá se při dělení titulků na řádky. Výchozí hodnota je en-US.

Mezi možnosti rozpoznávání patří:

--offline: Výstup offline výsledků. Přepisy --realTime. Výchozí výstupní režim je offline.
--realTime: Výstup výsledků v reálném čase

Výstup v reálném čase zahrnuje Recognizing výsledky událostí. Výchozí offline výstup je Recognized pouze výsledky událostí. Vždycky se zapisují do konzoly, nikdy do výstupního souboru. Tato --quiet možnost tuto možnost přepíše. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.

Mezi možnosti přesnosti patří:

--phrases PHRASE1;PHRASE2: Můžete zadat seznam frází, které se mají rozpoznat, například Contoso;Jessie;Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Mezi možnosti výstupu patří:

--help: Zobrazit tuto nápovědu a zastavit
--output FILE: Výstupní titulky zadaného file. Tento příznak je povinný.
--srt: Výstupní titulky ve formátu SRT (SubRip Text). Výchozí formát je WebVTT (Stopy textu webového videa). Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku.
--maxLineLength LENGTH: Nastavte maximální počet znaků na řádek pro titulek na DÉLKU. Minimum je 20. Výchozí hodnota je 37 (30 pro čínštinu).
--lines LINES: Nastavte počet řádků titulku na ŘÁDKY. Minimum je 1. Výchozí hodnota je 2.
--delay MILLISECONDS: Kolik milisekund pozdrží zobrazení jednotlivých titulků, aby napodobily prostředí v reálném čase. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Minimum je 0,0. Výchozí hodnota je 1000.
--remainTime MILLISECONDS: Kolik milisekund má titulek zůstat na obrazovce, pokud není nahrazen jiným. Minimum je 0,0. Výchozí hodnota je 1000.
--quiet: Potlačit výstup konzoly s výjimkou chyb.
--profanity OPTION: Platné hodnoty: raw, remove, mask. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--threshold NUMBER: Nastavte stabilní prahovou hodnotu částečného výsledku. Výchozí hodnota je 3. Tato možnost se dá použít jenom v případě, že použijete realTime příznak. Další informace najdete v tématu Získání konceptů částečných výsledků .

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

V tomto rychlém startu spustíte konzolovou aplikaci, která vytvoří titulky s řečí na text.

Tip

Vyzkoušejte Si Speech Studio a zvolte ukázkový videoklip, abyste viděli výsledky titulků v reálném čase nebo offline.

Tip

Vyzkoušejte sadu Azure AI Speech Toolkit, abyste mohli snadno vytvářet a spouštět ukázky titulků v editoru Visual Studio Code.

Požadavky

Předplatné Azure. Můžete si ho zdarma vytvořit.
Na webu Azure Portal vytvořte prostředek služby Speech.
Získejte klíč prostředku a oblast služby Speech. Po nasazení prostředku služby Speech vyberte Přejít k prostředku a zobrazte a spravujte klíče.

Nastavení prostředí

Postupujte podle těchtokrokůch

Spuštěním následujícího příkazu .NET CLI nainstalujte Rozhraní příkazového řádku služby Speech:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Spuštěním následujících příkazů nakonfigurujte klíč prostředku a oblast služby Speech. Nahraďte SUBSCRIPTION-KEY klíčem prostředku služby Speech a nahraďte REGION oblastí prostředků služby Speech.
- Terminál
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

Musíte také nainstalovat GStreamer pro komprimovaný vstupní zvuk.

Vytváření titulků z řeči

Pomocí rozhraní příkazového řádku služby Speech můžete vypsat titulky SRT (SubRip Text) i WebVTT (Web Video Text Track) z libovolného typu média, které obsahuje zvuk.

Pokud chcete rozpoznat zvuk ze souboru a výstup titulků WebVtt (vtt) i SRT (srt), postupujte takto.

Ujistěte se, že máte vstupní soubor pojmenovaný caption.this.mp4 v cestě.

Spuštěním následujícího příkazu zobrazte titulky z videosouboru:

spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"

Titulky SRT a WebVTT jsou výstupem konzoly, jak je znázorněno tady:

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "561a0ea00cc14bb09bd294357df3270f",
  "Duration": "00:00:03.0500000"
}

Využití a argumenty

Tady jsou podrobnosti o volitelných argumentech z předchozího příkazu:

--file caption.this.mp4 --format any: Vstup zvuku ze souboru. Výchozí vstup je mikrofon. U komprimovaných zvukových souborů, jako je MP4, nainstalujte GStreamer a podívejte se, jak používat komprimovaný vstupní zvuk.
--output vtt file - a --output srt file -: Výstupy titulků WebVTT a SRT do standardního výstupu. Další informace o formátech souborů titulků SRT a WebVTT naleznete v tématu Výstupní formát titulku. Další informace o argumentu najdete v tématu Možnosti výstupu rozhraní příkazového --output řádku služby Speech.
@output.each.detailed: Výstupy výsledků události s textem, posunem a dobou trvání. Další informace najdete v tématu Získání výsledků rozpoznávání řeči.
--property SpeechServiceResponse_StablePartialResultThreshold=5: Můžete požádat, aby služba Speech vrátila méně Recognizing událostí, které jsou přesnější. V tomto příkladu musí služba Speech potvrdit rozpoznávání slova alespoň pětkrát, než vám vrátí částečné výsledky. Další informace najdete v tématu Získání konceptů částečných výsledků .
--profanity masked: Můžete určit, jestli se má maskovat, odebírat nebo zobrazovat vulgární výrazy ve výsledcích rozpoznávání. Další informace najdete v tématu Koncepty filtru vulgárních výrazů.
--phrases "Constoso;Jessie;Rehaan": Můžete zadat seznam frází, které se mají rozpoznat, například Contoso, Jessie a Rehaan. Další informace najdete v tématu Vylepšení rozpoznávání pomocí seznamu frází.

Vyčištění prostředků

Prostředek služby Speech, který jste vytvořili, můžete odebrat pomocí webu Azure Portal nebo rozhraní příkazového řádku Azure (CLI ).

Sdílet prostřednictvím

Rychlý start: Vytvoření titulků s převodem řeči na text

Požadavky

Nastavení prostředí

Nastavení proměnných prostředí

Vytváření titulků z řeči

Kontrola výsledků

Využití a argumenty

Vyčištění prostředků

Požadavky

Nastavení prostředí

Nastavení proměnných prostředí

Vytváření titulků z řeči

Kontrola výsledků

Využití a argumenty

Vyčištění prostředků

Požadavky

Nastavení prostředí

Vytváření titulků z řeči

Kontrola výsledků

Využití a argumenty

Vyčištění prostředků

Požadavky

Nastavení prostředí

Nastavení proměnných prostředí

Vytváření titulků z řeči

Kontrola výsledků

Využití a argumenty

Vyčištění prostředků

Požadavky

Nastavení prostředí

Vytváření titulků z řeči

Kontrola výsledků

Využití a argumenty

Vyčištění prostředků

Požadavky

Nastavení prostředí

Nastavení proměnných prostředí

Vytváření titulků z řeči

Kontrola výsledků

Využití a argumenty

Vyčištění prostředků

Požadavky

Nastavení prostředí

Vytváření titulků z řeči

Využití a argumenty

Vyčištění prostředků

Další kroky

Váš názor

Další materiály