Partilhar via


Guia de início rápido: criar legendas com conversão de fala em texto

Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

O SDK de fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instala o SDK de fala mais adiante neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos.

Você também deve instalar o GStreamer para áudio de entrada compactada.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

  • Para definir a variável de ambiente, substitua SPEECH_KEY sua chave por uma das chaves do seu recurso.
  • Para definir a variável de ambiente, substitua SPEECH_REGION sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Criar legendas a partir da fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.

  1. Copie os arquivos de exemplo scenarios/csharp/dotnetcore/captioning/ do GitHub. Se você tiver o Git instalado, abra um prompt de comando e execute o git clone comando para baixar o repositório de exemplos do Speech SDK.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Abra um prompt de comando e mude para o diretório do projeto.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Crie o projeto com a CLI do .NET.
    dotnet build
    
  4. Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, você deve mudar os caminhos.

    Certifique-se de definir as SPEECH_KEY variáveis e SPEECH_REGION de ambiente conforme descrito acima. Caso contrário, use os --key argumentos e --region .

Ver resultados

Quando você usa a realTime opção no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing os Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando você usa a --offline opção, os resultados são estáveis a partir do evento final Recognized . Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff. Para obter mais informações, consulte Formato de saída de legenda.

Uso e argumentos

Utilização: captioning --input <input file>

As opções de conexão incluem:

  • --key: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a --key opção.
  • --region REGION: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
  • --format FORMAT: Use o formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, , mp3flac, mulawe ogg_opus. O valor predefinido é any. Para usar um wav arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.

As opções linguísticas incluem:

  • --language LANG: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido é en-US.

As opções de reconhecimento incluem:

  • --offline: Saída de resultados offline. Substitui --realTime. O modo de saída padrão está offline.
  • --realTime: Saída de resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é Recognized apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

  • --phrases PHRASE1;PHRASE2: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

  • --help: Mostrar esta ajuda e parar
  • --output FILE: Legendas de saída para o especificado file. Este sinalizador é obrigatório.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).
  • --lines LINES: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprima a saída do console, exceto erros.
  • --profanity OPTION: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --threshold NUMBER: Defina um limite de resultado parcial estável. O valor predefinido é 3. Esta opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

O SDK de fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instala o SDK de fala posteriormente neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos

Você também deve instalar o GStreamer para áudio de entrada compactada.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

  • Para definir a variável de ambiente, substitua SPEECH_KEY sua chave por uma das chaves do seu recurso.
  • Para definir a variável de ambiente, substitua SPEECH_REGION sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Criar legendas a partir da fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem com o Visual Studio Community 2022 no Windows.

  1. Baixe ou copie os arquivos de exemplo scenarios/cpp/windows/captioning/ do GitHub para um diretório local.

  2. Abra o captioning.sln arquivo de solução no Visual Studio Community 2022.

  3. Instale o SDK de fala em seu projeto com o gerenciador de pacotes NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Abra Propriedades gerais do> projeto.> Defina Configuração como All configurations. Defina C++ Language Standard como ISO C++17 Standard (/std:c++17).

  5. Abra o Build>Configuration Manager.

    • Em uma instalação do Windows de 64 bits, defina Ative solution platform como x64.
    • Em uma instalação do Windows de 32 bits, defina Ative solution platform como x86.
  6. Abra a depuração de propriedades>do projeto.> Insira seus argumentos de linha de comando preferidos em Argumentos de comando. Consulte o uso e os argumentos para as opções disponíveis. Segue-se um exemplo:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, você deve mudar os caminhos.

    Certifique-se de definir as SPEECH_KEY variáveis e SPEECH_REGION de ambiente conforme descrito acima. Caso contrário, use os --key argumentos e --region .

  7. Crie e execute o aplicativo de console.

Ver resultados

Quando você usa a realTime opção no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing os Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando você usa a --offline opção, os resultados são estáveis a partir do evento final Recognized . Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff. Para obter mais informações, consulte Formato de saída de legenda.

Uso e argumentos

Utilização: captioning --input <input file>

As opções de conexão incluem:

  • --key: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a --key opção.
  • --region REGION: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
  • --format FORMAT: Use o formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, , mp3flac, mulawe ogg_opus. O valor predefinido é any. Para usar um wav arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.

As opções linguísticas incluem:

  • --language LANG: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido é en-US.

As opções de reconhecimento incluem:

  • --offline: Saída de resultados offline. Substitui --realTime. O modo de saída padrão está offline.
  • --realTime: Saída de resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é Recognized apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

  • --phrases PHRASE1;PHRASE2: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

  • --help: Mostrar esta ajuda e parar
  • --output FILE: Legendas de saída para o especificado file. Este sinalizador é obrigatório.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).
  • --lines LINES: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprima a saída do console, exceto erros.
  • --profanity OPTION: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --threshold NUMBER: Defina um limite de resultado parcial estável. O valor predefinido é 3. Esta opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Pacote de documentação | de referência (Go) | Amostras adicionais no GitHub

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

Verifique se existem etapas de instalação específicas da plataforma.

Você também deve instalar o GStreamer para áudio de entrada compactada.

Criar legendas a partir da fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.

  1. Baixe ou copie os arquivos de exemplo scenarios/go/captioning/ do GitHub para um diretório local.

  2. Abra um prompt de comando no mesmo diretório que captioning.go.

  3. Execute os seguintes comandos para criar um go.mod arquivo vinculado aos componentes do SDK de fala hospedados no GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Construa o módulo GO.

    go build
    
  5. Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Segue-se um exemplo:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Substitua YourSubscriptionKey pela chave de recurso Fala e substitua YourServiceRegion pela região de recurso Fala, como westus ou northeurope. Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, você deve mudar os caminhos.

    Importante

    Lembre-se de remover a chave do seu código quando terminar e nunca publicá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como o Azure Key Vault. Consulte o artigo de segurança dos serviços de IA do Azure para obter mais informações.

Ver resultados

O arquivo de saída com legendas completas é gravado em caption.output.txt. Os resultados intermediários são mostrados no console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff. Para obter mais informações, consulte Formato de saída de legenda.

Uso e argumentos

Utilização: go run captioning.go helper.go --key <key> --region <region> --input <input file>

As opções de conexão incluem:

  • --key: Sua chave de recurso de fala.
  • --region REGION: Sua região de recurso de fala. Exemplos: westus, northeurope

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
  • --format FORMAT: Use o formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, , mp3flac, mulawe ogg_opus. O valor predefinido é any. Para usar um wav arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.

As opções linguísticas incluem:

  • --languages LANG1,LANG2: Habilite a identificação de idioma para idiomas especificados. Por exemplo: en-US,ja-JP. Esta opção só está disponível com os exemplos de legendas C++, C# e Python. Para obter mais informações, consulte Identificação de idioma.

As opções de reconhecimento incluem:

  • --recognizing: Resultados do evento de saída Recognizing . A saída padrão é Recognized apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

  • --phrases PHRASE1;PHRASE2: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

  • --help: Mostrar esta ajuda e parar
  • --output FILE: Legendas de saída para o especificado file. Este sinalizador é obrigatório.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.
  • --quiet: Suprima a saída do console, exceto erros.
  • --profanity OPTION: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --threshold NUMBER: Defina um limite de resultado parcial estável. O valor predefinido é 3. Para obter mais informações, consulte Obter conceitos de resultados parciais.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Documentação | de referência Exemplos adicionais no GitHub

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

Antes de poder fazer qualquer coisa, você precisa instalar o SDK de fala. O exemplo neste guia de início rápido funciona com o Microsoft Build do OpenJDK 17

  1. Instale o Apache Maven. Em seguida, execute mvn -v para confirmar a instalação bem-sucedida.
  2. Crie um novo pom.xml arquivo na raiz do seu projeto e copie o seguinte para ele:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.42.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instale o SDK de fala e as dependências.
    mvn clean dependency:copy-dependencies
    
  4. Você também deve instalar o GStreamer para áudio de entrada compactada.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

  • Para definir a variável de ambiente, substitua SPEECH_KEY sua chave por uma das chaves do seu recurso.
  • Para definir a variável de ambiente, substitua SPEECH_REGION sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Criar legendas a partir da fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.

  1. Copie os arquivos de exemplo scenarios/java/jre/captioning/ do GitHub para o diretório do projeto. O pom.xml arquivo que você criou na configuração do ambiente também deve estar neste diretório.
  2. Abra um prompt de comando e execute esse comando para compilar os arquivos de projeto.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, você deve mudar os caminhos.

    Certifique-se de definir as SPEECH_KEY variáveis e SPEECH_REGION de ambiente conforme descrito acima. Caso contrário, use os --key argumentos e --region .

Ver resultados

Quando você usa a realTime opção no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing os Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando você usa a --offline opção, os resultados são estáveis a partir do evento final Recognized . Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff. Para obter mais informações, consulte Formato de saída de legenda.

Uso e argumentos

Utilização: java -cp ".;target\dependency\*" Captioning --input <input file>

As opções de conexão incluem:

  • --key: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a --key opção.
  • --region REGION: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
  • --format FORMAT: Use o formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, , mp3flac, mulawe ogg_opus. O valor predefinido é any. Para usar um wav arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.

As opções linguísticas incluem:

  • --language LANG: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido é en-US.

As opções de reconhecimento incluem:

  • --offline: Saída de resultados offline. Substitui --realTime. O modo de saída padrão está offline.
  • --realTime: Saída de resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é Recognized apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

  • --phrases PHRASE1;PHRASE2: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

  • --help: Mostrar esta ajuda e parar
  • --output FILE: Legendas de saída para o especificado file. Este sinalizador é obrigatório.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).
  • --lines LINES: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprima a saída do console, exceto erros.
  • --profanity OPTION: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --threshold NUMBER: Defina um limite de resultado parcial estável. O valor predefinido é 3. Esta opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Pacote de documentação | de referência (npm) | Exemplos adicionais no código-fonte da Biblioteca GitHub |

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

Antes de poder fazer qualquer coisa, você precisa instalar o SDK de fala para JavaScript. Se você quiser apenas que o nome do pacote seja instalado, execute npm install microsoft-cognitiveservices-speech-sdk. Para obter instruções de instalação guiadas, consulte o guia de instalação do SDK.

Criar legendas a partir da fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.

  1. Copie os arquivos de exemplo scenarios/javascript/node/captioning/ do GitHub para o diretório do projeto.

  2. Abra um prompt de comando no mesmo diretório que Captioning.js.

  3. Instale o SDK de fala para JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Segue-se um exemplo:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Substitua YourSubscriptionKey pela chave de recurso Fala e substitua YourServiceRegion pela região de recurso Fala, como westus ou northeurope. Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, você deve mudar os caminhos.

    Nota

    O SDK de Fala para JavaScript não suporta áudio de entrada compactado. Você deve usar um arquivo WAV como mostrado no exemplo.

    Importante

    Lembre-se de remover a chave do seu código quando terminar e nunca publicá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como o Azure Key Vault. Consulte o artigo de segurança dos serviços de IA do Azure para obter mais informações.

Ver resultados

O arquivo de saída com legendas completas é gravado em caption.output.txt. Os resultados intermediários são mostrados no console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff. Para obter mais informações, consulte Formato de saída de legenda.

Uso e argumentos

Utilização: node captioning.js --key <key> --region <region> --input <input file>

As opções de conexão incluem:

  • --key: Sua chave de recurso de fala.
  • --region REGION: Sua região de recurso de fala. Exemplos: westus, northeurope

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
  • --format FORMAT: Use o formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, , mp3flac, mulawe ogg_opus. O valor predefinido é any. Para usar um wav arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.

As opções linguísticas incluem:

  • --languages LANG1,LANG2: Habilite a identificação de idioma para idiomas especificados. Por exemplo: en-US,ja-JP. Esta opção só está disponível com os exemplos de legendas C++, C# e Python. Para obter mais informações, consulte Identificação de idioma.

As opções de reconhecimento incluem:

  • --recognizing: Resultados do evento de saída Recognizing . A saída padrão é Recognized apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

  • --phrases PHRASE1;PHRASE2: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

  • --help: Mostrar esta ajuda e parar
  • --output FILE: Legendas de saída para o especificado file. Este sinalizador é obrigatório.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.
  • --quiet: Suprima a saída do console, exceto erros.
  • --profanity OPTION: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --threshold NUMBER: Defina um limite de resultado parcial estável. O valor predefinido é 3. Para obter mais informações, consulte Obter conceitos de resultados parciais.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub

O SDK de Fala para Objective-C oferece suporte à obtenção de resultados de reconhecimento de fala para legendas, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou veja a referência Objective-C e exemplos vinculados desde o início deste artigo.

Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub

O SDK de Fala para Swift suporta a obtenção de resultados de reconhecimento de fala para legendas, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou veja a referência Swift e exemplos vinculados desde o início deste artigo.

Pacote de documentação | de referência (PyPi) | Amostras adicionais no GitHub

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

O Speech SDK for Python está disponível como um módulo Python Package Index (PyPI). O Speech SDK for Python é compatível com Windows, Linux e macOS.

  1. Instale uma versão do Python a partir da versão 3.10 ou posterior. Primeiro, verifique o guia de instalação do SDK para mais requisitos
  2. Você também deve instalar o GStreamer para áudio de entrada compactada.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar os serviços de IA do Azure. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure para evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de fala e região, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

  • Para definir a variável de ambiente, substitua SPEECH_KEY sua chave por uma das chaves do seu recurso.
  • Para definir a variável de ambiente, substitua SPEECH_REGION sua região por uma das regiões do seu recurso.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Criar legendas a partir da fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendas.

  1. Baixe ou copie os arquivos de exemplo scenarios/python/console/captioning/ do GitHub para um diretório local.
  2. Abra um prompt de comando no mesmo diretório que captioning.py.
  3. Execute este comando para instalar o SDK de fala:
    pip install azure-cognitiveservices-speech
    
  4. Execute o aplicativo com seus argumentos de linha de comando preferidos. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, você deve mudar os caminhos.

    Certifique-se de definir as SPEECH_KEY variáveis e SPEECH_REGION de ambiente conforme descrito acima. Caso contrário, use os --key argumentos e --region .

Ver resultados

Quando você usa a realTime opção no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. As vírgulas não são as únicas diferenças entre Recognizing os Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando você usa a --offline opção, os resultados são estáveis a partir do evento final Recognized . Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída de período de tempo SRT (SubRip Text) é hh:mm:ss,fff. Para obter mais informações, consulte Formato de saída de legenda.

Uso e argumentos

Utilização: python captioning.py --input <input file>

As opções de conexão incluem:

  • --key: Sua chave de recurso de fala. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a --key opção.
  • --region REGION: Sua região de recurso de fala. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Se você usar uma chave de API, armazene-a com segurança em outro lugar, como no Cofre de Chaves do Azure. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente.

Para obter mais informações sobre segurança de serviços de IA, consulte Autenticar solicitações para serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
  • --format FORMAT: Use o formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, , mp3flac, mulawe ogg_opus. O valor predefinido é any. Para usar um wav arquivo, não especifique o formato. Esta opção não está disponível com o exemplo de legenda JavaScript. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.

As opções linguísticas incluem:

  • --language LANG: Especifique um idioma usando uma das localidades suportadas correspondentes. Isso é usado ao dividir legendas em linhas. O valor predefinido é en-US.

As opções de reconhecimento incluem:

  • --offline: Saída de resultados offline. Substitui --realTime. O modo de saída padrão está offline.
  • --realTime: Saída de resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é Recognized apenas resultados de eventos. Estes são sempre gravados no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

  • --phrases PHRASE1;PHRASE2: Você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

  • --help: Mostrar esta ajuda e parar
  • --output FILE: Legendas de saída para o especificado file. Este sinalizador é obrigatório.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha para uma legenda como COMPRIMENTO. O mínimo é 20. O padrão é 37 (30 para chinês).
  • --lines LINES: Defina o número de linhas de uma legenda como LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos milissegundos atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos milissegundos uma legenda deve permanecer na tela se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprima a saída do console, exceto erros.
  • --profanity OPTION: Valores válidos: bruto, remover, máscara. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --threshold NUMBER: Defina um limite de resultado parcial estável. O valor predefinido é 3. Esta opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte Obter conceitos de resultados parciais.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Neste início rápido, você executa um aplicativo de console para criar legendas com conversão de fala em texto.

Gorjeta

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processadas em tempo real ou offline.

Gorjeta

Experimente o Kit de Ferramentas de Fala do Azure AI para criar e executar facilmente exemplos de legendagem no Visual Studio Code.

Pré-requisitos

  • Uma subscrição do Azure. Você pode criar um gratuitamente.
  • Crie um recurso de Fala no portal do Azure.
  • Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves.

Configurar o ambiente

Siga estas etapas e consulte o início rápido da CLI de fala para obter outros requisitos para sua plataforma.

  1. Execute o seguinte comando da CLI do .NET para instalar a CLI de fala:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Execute os comandos a seguir para configurar sua chave de recurso de fala e região. Substitua SUBSCRIPTION-KEY pela chave de recurso de Fala e substitua REGION pela região de recurso de Fala.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Você também deve instalar o GStreamer para áudio de entrada compactada.

Criar legendas a partir da fala

Com a CLI de fala, você pode produzir legendas SRT (SubRip Text) e WebVTT (Web Video Text Tracks) de qualquer tipo de mídia que contenha áudio.

Para reconhecer o áudio de um arquivo e gerar legendas WebVtt (vtt) e SRT (srt), siga estas etapas.

  1. Verifique se você tem um arquivo de entrada nomeado caption.this.mp4 no caminho.

  2. Execute o seguinte comando para gerar legendas do arquivo de vídeo:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    As legendas SRT e WebVTT são saídas para o console, conforme mostrado aqui:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Uso e argumentos

Aqui estão os detalhes sobre os argumentos opcionais do comando anterior:

  • --file caption.this.mp4 --format any: Entrada de áudio do arquivo. A entrada padrão é o microfone. Para ficheiros de áudio comprimido, como MP4, instale o GStreamer e consulte Como utilizar áudio de entrada comprimido.
  • --output vtt file - e --output srt file -: Saídas WebVTT e SRT legendas para saída padrão. Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte Formato de saída de legenda. Para obter mais informações sobre o argumento, consulte Opções de saída da --output CLI de fala.
  • @output.each.detailed: Produz resultados de eventos com texto, deslocamento e duração. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Você pode solicitar que o serviço de Fala retorne menos Recognizing eventos que sejam mais precisos. Neste exemplo, o serviço de Fala deve afirmar o reconhecimento de uma palavra pelo menos cinco vezes antes de retornar os resultados parciais para você. Para obter mais informações, consulte Obter conceitos de resultados parciais.
  • --profanity masked: Você pode especificar se deseja mascarar, remover ou mostrar palavrões nos resultados de reconhecimento. Para obter mais informações, consulte Conceitos de filtro de palavrões.
  • --phrases "Constoso;Jessie;Rehaan": Você pode especificar uma lista de frases a serem reconhecidas, como Contoso, Jessie e Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

Clean up resources (Limpar recursos)

Você pode usar o portal do Azure ou a CLI (Interface de Linha de Comando) do Azure para remover o recurso de Fala criado.

Próximos passos