Guia de início rápido: criar legendas com conversão de fala em texto
Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
O SDK de fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instala o SDK de fala mais adiante neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos.
Você também deve instalar o GStreamer para áudio de entrada compactada.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente, substitua
SPEECH_KEY
sua chave por uma das chaves do seu recurso. - Para definir a variável de ambiente, substitua
SPEECH_REGION
sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set
em vez de setx
.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Criar legendas a partir da fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.
- Copie os arquivos de exemplo scenarios/csharp/dotnetcore/captioning/ do GitHub. Se você tiver o Git instalado, abra um prompt de comando e execute o
git clone
comando para baixar o repositório de exemplos do Speech SDK.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Abra um prompt de comando e mude para o diretório do projeto.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Crie o projeto com a CLI do .NET.
dotnet build
- Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Certifique-se de que os caminhos especificados por
--input
e--output
são válidos. Caso contrário, você deve mudar os caminhos.Certifique-se de definir as
SPEECH_KEY
variáveis eSPEECH_REGION
de ambiente conforme descrito acima. Caso contrário, use os--key
argumentos e--region
.
Ver resultados
Quando você usa a realTime
opção no exemplo acima, os resultados parciais dos Recognizing
eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized
inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing
os Recognized
eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando você usa a --offline
opção, os resultados são estáveis a partir do evento final Recognized
. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff
. Para obter mais informações, consulte Formato de saída de legenda.
Uso e argumentos
Utilização: captioning --input <input file>
As opções de conexão incluem:
--key
: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a--key
opção.--region REGION
: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a--region
opção. Exemplos:westus
,northeurope
Importante
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
As opções de entrada incluem:
--input FILE
: Entrada de áudio do arquivo. A entrada padrão é o microfone.--format FORMAT
: Use o formato de áudio comprimido. Válido apenas com--file
. Os valores válidos sãoalaw
,any
, ,mp3
flac
,mulaw
eogg_opus
. O valor predefinido éany
. Para usar umwav
arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
As opções linguísticas incluem:
--language LANG
: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido éen-US
.
As opções de reconhecimento incluem:
--offline
: Saída de resultados offline. Substitui--realTime
. O modo de saída padrão está offline.--realTime
: Saída de resultados em tempo real.
A saída em tempo real inclui Recognizing
resultados de eventos. A saída offline padrão é Recognized
apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet
opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
--phrases PHRASE1;PHRASE2
: Você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan
. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
--help
: Mostrar esta ajuda e parar--output FILE
: Legendas de saída para o especificadofile
. Este sinalizador é obrigatório.--srt
: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.--maxLineLength LENGTH
: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).--lines LINES
: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.--delay MILLISECONDS
: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa orealTime
sinalizador. O mínimo é 0,0. O padrão é 1000.--remainTime MILLISECONDS
: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.--quiet
: Suprima a saída do console, exceto erros.--profanity OPTION
: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.--threshold NUMBER
: Defina um limite de resultado parcial estável. O valor predefinido é3
. Esta opção só é aplicável quando você usa orealTime
sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.
Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
O SDK de fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instala o SDK de fala posteriormente neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos
Você também deve instalar o GStreamer para áudio de entrada compactada.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente, substitua
SPEECH_KEY
sua chave por uma das chaves do seu recurso. - Para definir a variável de ambiente, substitua
SPEECH_REGION
sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set
em vez de setx
.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Criar legendas a partir da fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem com o Visual Studio Community 2022 no Windows.
Baixe ou copie os arquivos de exemplo scenarios/cpp/windows/captioning/ do GitHub para um diretório local.
Abra o
captioning.sln
arquivo de solução no Visual Studio Community 2022.Instale o SDK de fala em seu projeto com o gerenciador de pacotes NuGet.
Install-Package Microsoft.CognitiveServices.Speech
Abra Propriedades gerais do> projeto.> Defina Configuração como
All configurations
. Defina C++ Language Standard comoISO C++17 Standard (/std:c++17)
.Abra o Build>Configuration Manager.
- Em uma instalação do Windows de 64 bits, defina Ative solution platform como
x64
. - Em uma instalação do Windows de 32 bits, defina Ative solution platform como
x86
.
- Em uma instalação do Windows de 64 bits, defina Ative solution platform como
Abra a depuração de propriedades>do projeto.> Insira seus argumentos de linha de comando preferidos em Argumentos de comando. Consulte o uso e os argumentos para as opções disponíveis. Segue-se um exemplo:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Certifique-se de que os caminhos especificados por
--input
e--output
são válidos. Caso contrário, você deve mudar os caminhos.Certifique-se de definir as
SPEECH_KEY
variáveis eSPEECH_REGION
de ambiente conforme descrito acima. Caso contrário, use os--key
argumentos e--region
.Crie e execute o aplicativo de console.
Ver resultados
Quando você usa a realTime
opção no exemplo acima, os resultados parciais dos Recognizing
eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized
inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing
os Recognized
eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando você usa a --offline
opção, os resultados são estáveis a partir do evento final Recognized
. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff
. Para obter mais informações, consulte Formato de saída de legenda.
Uso e argumentos
Utilização: captioning --input <input file>
As opções de conexão incluem:
--key
: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a--key
opção.--region REGION
: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a--region
opção. Exemplos:westus
,northeurope
Importante
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
As opções de entrada incluem:
--input FILE
: Entrada de áudio do arquivo. A entrada padrão é o microfone.--format FORMAT
: Use o formato de áudio comprimido. Válido apenas com--file
. Os valores válidos sãoalaw
,any
, ,mp3
flac
,mulaw
eogg_opus
. O valor predefinido éany
. Para usar umwav
arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
As opções linguísticas incluem:
--language LANG
: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido éen-US
.
As opções de reconhecimento incluem:
--offline
: Saída de resultados offline. Substitui--realTime
. O modo de saída padrão está offline.--realTime
: Saída de resultados em tempo real.
A saída em tempo real inclui Recognizing
resultados de eventos. A saída offline padrão é Recognized
apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet
opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
--phrases PHRASE1;PHRASE2
: Você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan
. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
--help
: Mostrar esta ajuda e parar--output FILE
: Legendas de saída para o especificadofile
. Este sinalizador é obrigatório.--srt
: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.--maxLineLength LENGTH
: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).--lines LINES
: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.--delay MILLISECONDS
: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa orealTime
sinalizador. O mínimo é 0,0. O padrão é 1000.--remainTime MILLISECONDS
: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.--quiet
: Suprima a saída do console, exceto erros.--profanity OPTION
: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.--threshold NUMBER
: Defina um limite de resultado parcial estável. O valor predefinido é3
. Esta opção só é aplicável quando você usa orealTime
sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.
Pacote de documentação | de referência (Go) | Amostras adicionais no GitHub
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
Verifique se existem etapas de instalação específicas da plataforma.
Você também deve instalar o GStreamer para áudio de entrada compactada.
Criar legendas a partir da fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.
Baixe ou copie os arquivos de exemplo scenarios/go/captioning/ do GitHub para um diretório local.
Abra um prompt de comando no mesmo diretório que
captioning.go
.Execute os seguintes comandos para criar um
go.mod
arquivo vinculado aos componentes do SDK de fala hospedados no GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Construa o módulo GO.
go build
Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Segue-se um exemplo:
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Substitua
YourSubscriptionKey
pela chave de recurso Fala e substituaYourServiceRegion
pela região de recurso Fala, comowestus
ounortheurope
. Certifique-se de que os caminhos especificados por--input
e--output
são válidos. Caso contrário, você deve mudar os caminhos.Importante
Lembre-se de remover a chave do seu código quando terminar e nunca publicá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como o Azure Key Vault. Consulte o artigo de segurança dos serviços de IA do Azure para obter mais informações.
Ver resultados
O arquivo de saída com legendas completas é gravado em caption.output.txt
. Os resultados intermediários são mostrados no console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff
. Para obter mais informações, consulte Formato de saída de legenda.
Uso e argumentos
Utilização: go run captioning.go helper.go --key <key> --region <region> --input <input file>
As opções de conexão incluem:
--key
: Sua chave de recurso de fala.--region REGION
: Sua região de recurso de fala. Exemplos:westus
,northeurope
As opções de entrada incluem:
--input FILE
: Entrada de áudio do arquivo. A entrada padrão é o microfone.--format FORMAT
: Use o formato de áudio comprimido. Válido apenas com--file
. Os valores válidos sãoalaw
,any
, ,mp3
flac
,mulaw
eogg_opus
. O valor predefinido éany
. Para usar umwav
arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
As opções linguísticas incluem:
--languages LANG1,LANG2
: Habilite a identificação de idioma para idiomas especificados. Por exemplo:en-US,ja-JP
. Esta opção só está disponível com os exemplos de legendas C++, C# e Python. Para obter mais informações, consulte Identificação de idioma.
As opções de reconhecimento incluem:
--recognizing
: Resultados do evento de saídaRecognizing
. A saída padrão éRecognized
apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A--quiet
opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
--phrases PHRASE1;PHRASE2
: Você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan
. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
--help
: Mostrar esta ajuda e parar--output FILE
: Legendas de saída para o especificadofile
. Este sinalizador é obrigatório.--srt
: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.--quiet
: Suprima a saída do console, exceto erros.--profanity OPTION
: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.--threshold NUMBER
: Defina um limite de resultado parcial estável. O valor predefinido é3
. Para obter mais informações, consulte Obter conceitos de resultados parciais.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.
Documentação | de referência Exemplos adicionais no GitHub
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
Antes de poder fazer qualquer coisa, você precisa instalar o SDK de fala. O exemplo neste guia de início rápido funciona com o Microsoft Build do OpenJDK 17
- Instale o Apache Maven. Em seguida, execute
mvn -v
para confirmar a instalação bem-sucedida. - Crie um novo
pom.xml
arquivo na raiz do seu projeto e copie o seguinte para ele:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.42.0</version> </dependency> </dependencies> </project>
- Instale o SDK de fala e as dependências.
mvn clean dependency:copy-dependencies
- Você também deve instalar o GStreamer para áudio de entrada compactada.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente, substitua
SPEECH_KEY
sua chave por uma das chaves do seu recurso. - Para definir a variável de ambiente, substitua
SPEECH_REGION
sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set
em vez de setx
.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Criar legendas a partir da fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.
- Copie os arquivos de exemplo scenarios/java/jre/captioning/ do GitHub para o diretório do projeto. O
pom.xml
arquivo que você criou na configuração do ambiente também deve estar neste diretório. - Abra um prompt de comando e execute esse comando para compilar os arquivos de projeto.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Certifique-se de que os caminhos especificados por
--input
e--output
são válidos. Caso contrário, você deve mudar os caminhos.Certifique-se de definir as
SPEECH_KEY
variáveis eSPEECH_REGION
de ambiente conforme descrito acima. Caso contrário, use os--key
argumentos e--region
.
Ver resultados
Quando você usa a realTime
opção no exemplo acima, os resultados parciais dos Recognizing
eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized
inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing
os Recognized
eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando você usa a --offline
opção, os resultados são estáveis a partir do evento final Recognized
. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff
. Para obter mais informações, consulte Formato de saída de legenda.
Uso e argumentos
Utilização: java -cp ".;target\dependency\*" Captioning --input <input file>
As opções de conexão incluem:
--key
: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a--key
opção.--region REGION
: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a--region
opção. Exemplos:westus
,northeurope
Importante
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
As opções de entrada incluem:
--input FILE
: Entrada de áudio do arquivo. A entrada padrão é o microfone.--format FORMAT
: Use o formato de áudio comprimido. Válido apenas com--file
. Os valores válidos sãoalaw
,any
, ,mp3
flac
,mulaw
eogg_opus
. O valor predefinido éany
. Para usar umwav
arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
As opções linguísticas incluem:
--language LANG
: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido éen-US
.
As opções de reconhecimento incluem:
--offline
: Saída de resultados offline. Substitui--realTime
. O modo de saída padrão está offline.--realTime
: Saída de resultados em tempo real.
A saída em tempo real inclui Recognizing
resultados de eventos. A saída offline padrão é Recognized
apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet
opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
--phrases PHRASE1;PHRASE2
: Você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan
. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
--help
: Mostrar esta ajuda e parar--output FILE
: Legendas de saída para o especificadofile
. Este sinalizador é obrigatório.--srt
: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.--maxLineLength LENGTH
: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).--lines LINES
: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.--delay MILLISECONDS
: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa orealTime
sinalizador. O mínimo é 0,0. O padrão é 1000.--remainTime MILLISECONDS
: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.--quiet
: Suprima a saída do console, exceto erros.--profanity OPTION
: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.--threshold NUMBER
: Defina um limite de resultado parcial estável. O valor predefinido é3
. Esta opção só é aplicável quando você usa orealTime
sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.
Pacote de documentação | de referência (npm) | Exemplos adicionais no código-fonte da Biblioteca GitHub |
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
Antes de poder fazer qualquer coisa, você precisa instalar o SDK de fala para JavaScript. Se você quiser apenas que o nome do pacote seja instalado, execute npm install microsoft-cognitiveservices-speech-sdk
. Para obter instruções de instalação guiadas, consulte o guia de instalação do SDK.
Criar legendas a partir da fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.
Copie os arquivos de exemplo scenarios/javascript/node/captioning/ do GitHub para o diretório do projeto.
Abra um prompt de comando no mesmo diretório que
Captioning.js
.Instale o SDK de fala para JavaScript:
npm install microsoft-cognitiveservices-speech-sdk
Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Segue-se um exemplo:
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Substitua
YourSubscriptionKey
pela chave de recurso Fala e substituaYourServiceRegion
pela região de recurso Fala, comowestus
ounortheurope
. Certifique-se de que os caminhos especificados por--input
e--output
são válidos. Caso contrário, você deve mudar os caminhos.Nota
O SDK de Fala para JavaScript não suporta áudio de entrada compactado. Você deve usar um arquivo WAV como mostrado no exemplo.
Importante
Lembre-se de remover a chave do seu código quando terminar e nunca publicá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como o Azure Key Vault. Consulte o artigo de segurança dos serviços de IA do Azure para obter mais informações.
Ver resultados
O arquivo de saída com legendas completas é gravado em caption.output.txt
. Os resultados intermediários são mostrados no console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff
. Para obter mais informações, consulte Formato de saída de legenda.
Uso e argumentos
Utilização: node captioning.js --key <key> --region <region> --input <input file>
As opções de conexão incluem:
--key
: Sua chave de recurso de fala.--region REGION
: Sua região de recurso de fala. Exemplos:westus
,northeurope
As opções de entrada incluem:
--input FILE
: Entrada de áudio do arquivo. A entrada padrão é o microfone.--format FORMAT
: Use o formato de áudio comprimido. Válido apenas com--file
. Os valores válidos sãoalaw
,any
, ,mp3
flac
,mulaw
eogg_opus
. O valor predefinido éany
. Para usar umwav
arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
As opções linguísticas incluem:
--languages LANG1,LANG2
: Habilite a identificação de idioma para idiomas especificados. Por exemplo:en-US,ja-JP
. Esta opção só está disponível com os exemplos de legendas C++, C# e Python. Para obter mais informações, consulte Identificação de idioma.
As opções de reconhecimento incluem:
--recognizing
: Resultados do evento de saídaRecognizing
. A saída padrão éRecognized
apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A--quiet
opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
--phrases PHRASE1;PHRASE2
: Você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan
. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
--help
: Mostrar esta ajuda e parar--output FILE
: Legendas de saída para o especificadofile
. Este sinalizador é obrigatório.--srt
: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.--quiet
: Suprima a saída do console, exceto erros.--profanity OPTION
: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.--threshold NUMBER
: Defina um limite de resultado parcial estável. O valor predefinido é3
. Para obter mais informações, consulte Obter conceitos de resultados parciais.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.
Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub
O SDK de Fala para Objective-C oferece suporte à obtenção de resultados de reconhecimento de fala para legendas, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou veja a referência Objective-C e exemplos vinculados desde o início deste artigo.
Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub
O SDK de Fala para Swift suporta a obtenção de resultados de reconhecimento de fala para legendas, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou veja a referência Swift e exemplos vinculados desde o início deste artigo.
Pacote de documentação | de referência (PyPi) | Amostras adicionais no GitHub
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
O Speech SDK for Python está disponível como um módulo Python Package Index (PyPI). O Speech SDK for Python é compatível com Windows, Linux e macOS.
- Você deve instalar o Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 e 2022 para sua plataforma. A instalação deste pacote pela primeira vez pode exigir uma reinicialização.
- No Linux, você deve usar a arquitetura de destino x64.
- Instale uma versão do Python a partir da versão 3.10 ou posterior. Primeiro, verifique o guia de instalação do SDK para mais requisitos
- Você também deve instalar o GStreamer para áudio de entrada compactada.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente, substitua
SPEECH_KEY
sua chave por uma das chaves do seu recurso. - Para definir a variável de ambiente, substitua
SPEECH_REGION
sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set
em vez de setx
.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Criar legendas a partir da fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.
- Baixe ou copie os arquivos de exemplo scenarios/python/console/captioning/ do GitHub para um diretório local.
- Abra um prompt de comando no mesmo diretório que
captioning.py
. - Execute este comando para instalar o SDK de fala:
pip install azure-cognitiveservices-speech
- Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Importante
Certifique-se de que os caminhos especificados por
--input
e--output
são válidos. Caso contrário, você deve mudar os caminhos.Certifique-se de definir as
SPEECH_KEY
variáveis eSPEECH_REGION
de ambiente conforme descrito acima. Caso contrário, use os--key
argumentos e--region
.
Ver resultados
Quando você usa a realTime
opção no exemplo acima, os resultados parciais dos Recognizing
eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized
inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing
os Recognized
eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando você usa a --offline
opção, os resultados são estáveis a partir do evento final Recognized
. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff
. Para obter mais informações, consulte Formato de saída de legenda.
Uso e argumentos
Utilização: python captioning.py --input <input file>
As opções de conexão incluem:
--key
: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a--key
opção.--region REGION
: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a--region
opção. Exemplos:westus
,northeurope
Importante
Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.
Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.
As opções de entrada incluem:
--input FILE
: Entrada de áudio do arquivo. A entrada padrão é o microfone.--format FORMAT
: Use o formato de áudio comprimido. Válido apenas com--file
. Os valores válidos sãoalaw
,any
, ,mp3
flac
,mulaw
eogg_opus
. O valor predefinido éany
. Para usar umwav
arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
As opções linguísticas incluem:
--language LANG
: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido éen-US
.
As opções de reconhecimento incluem:
--offline
: Saída de resultados offline. Substitui--realTime
. O modo de saída padrão está offline.--realTime
: Saída de resultados em tempo real.
A saída em tempo real inclui Recognizing
resultados de eventos. A saída offline padrão é Recognized
apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet
opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
--phrases PHRASE1;PHRASE2
: Você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan
. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
--help
: Mostrar esta ajuda e parar--output FILE
: Legendas de saída para o especificadofile
. Este sinalizador é obrigatório.--srt
: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.--maxLineLength LENGTH
: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).--lines LINES
: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.--delay MILLISECONDS
: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa orealTime
sinalizador. O mínimo é 0,0. O padrão é 1000.--remainTime MILLISECONDS
: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.--quiet
: Suprima a saída do console, exceto erros.--profanity OPTION
: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.--threshold NUMBER
: Defina um limite de resultado parcial estável. O valor predefinido é3
. Esta opção só é aplicável quando você usa orealTime
sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.
Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.
Gorjeta
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.
Gorjeta
Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Você pode criar um gratuitamente.
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.
Configurar o ambiente
Siga estas etapas e consulte o início rápido da CLI de fala para obter outros requisitos para sua plataforma.
Execute o seguinte comando da CLI do .NET para instalar a CLI de fala:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Execute os comandos a seguir para configurar sua chave de recurso de fala e região. Substitua
SUBSCRIPTION-KEY
pela chave de recurso de Fala e substituaREGION
pela região de recurso de Fala.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Você também deve instalar o GStreamer para áudio de entrada compactada.
Criar legendas a partir da fala
Com a CLI de fala, você pode produzir legendas SRT (SubRip Text) e WebVTT (Web Video Text Tracks) de qualquer tipo de mídia que contenha áudio.
Para reconhecer o áudio de um arquivo e gerar legendas WebVtt (vtt
) e SRT (srt
), siga estas etapas.
Verifique se você tem um arquivo de entrada nomeado
caption.this.mp4
no caminho.Execute o seguinte comando para gerar legendas do arquivo de vídeo:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
As legendas SRT e WebVTT são saídas para o console, conforme mostrado aqui:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Uso e argumentos
Aqui estão os detalhes sobre os argumentos opcionais do comando anterior:
--file caption.this.mp4 --format any
: Entrada de áudio do arquivo. A entrada padrão é o microfone. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.--output vtt file -
e--output srt file -
: Saídas WebVTT e SRT legendas para saída padrão. Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda. Para obter mais informações sobre o argumento, consulte Opções de saída da--output
CLI de fala.@output.each.detailed
: Produz resultados de eventos com texto, deslocamento e duração. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.--property SpeechServiceResponse_StablePartialResultThreshold=5
: Você pode solicitar que o serviço de Fala retorne menosRecognizing
eventos que sejam mais precisos. Neste exemplo, o serviço de Fala deve afirmar o reconhecimento de uma palavra pelo menos cinco vezes antes de retornar os resultados parciais para você. Para obter mais informações, consulte Obter conceitos de resultados parciais.--profanity masked
: Você pode especificar se deseja mascarar, remover ou mostrar palavrões nos resultados de reconhecimento. Para obter mais informações, consulte Conceitos de filtro de palavrões.--phrases "Constoso;Jessie;Rehaan"
: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso, Jessie e Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
Clean up resources (Limpar recursos)
Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.