Conversão de texto em fala com a ferramenta Criação de Conteúdo de Áudio

Artigo
09/09/2024

Você pode usar a ferramenta Criação de Conteúdo de Áudio no Speech Studio para conversão de texto em fala sem gravar nenhum código. A ferramenta Criação de Conteúdo de Áudio pode fornecer o áudio de fala final desejado. Você pode usar o áudio de saída como está ou como ponto de partida para personalização adicional.

Compile conteúdo de áudio altamente natural para vários cenários, como audiolivros, transmissão de notícias, narrações de vídeos e bots de bate papo. Com a Criação de Conteúdo de Áudio, é possível ajustar de maneira eficiente as vozes de conversão de texto em fala e criar experiências de áudio personalizadas.

A ferramenta é baseada em SSML (Linguagem de Marcação de Síntese de Fala). Portanto, permite ajustar os atributos de saída de conversão de texto em fala em síntese em tempo real ou em lote, como caracteres de voz, estilos de voz, velocidade de fala, pronúncia e prosódia.

Abordagem sem código: você pode usar a ferramenta de Criação de Conteúdo de Áudio para sintetização de conversão de texto em fala, sem gravar nenhum código. O áudio de saída pode ser o resultado final desejado. Por exemplo, você pode usar o áudio de saída para um podcast ou uma narração de vídeo.
Developer-friendly: você pode ouvir o áudio de saída e ajustar o SSML para melhorar a sintetização de fala. Você pode usar o SDK de Fala ou a CLI de Fala para integrar o SSML aos seus aplicativos. Por exemplo, você pode usar o SSML para criar um chat bot.

Você tem acesso fácil a um amplo portfólio de idiomas e vozes. Essas vozes incluem vozes neurais pré-compiladas de última geração e a sua voz neural personalizada, se você tiver compilado uma.

Para saber mais, veja o vídeo tutorial de Criação de Conteúdo de Áudio no YouTube.

Introdução

A ferramenta de Criação de Conteúdo de Áudio no Speech Studio é de acesso gratuito, mas você paga pelo uso do serviço de Fala. Para trabalhar com a ferramenta, é preciso fazer logon com uma conta do Azure e criar um recurso de Fala. Para cada conta do Azure, você tem cotas de fala mensais gratuitas que incluem meio milhão de caracteres para vozes neurais pré-construídas (conhecidas como Neural na página de preços). Normalmente, a quantidade alocada mensal é suficiente para uma pequena equipe de conteúdo de cerca de 3 a 5 pessoas.

As próximas seções abrangem como criar uma conta do Azure e obter um recurso de Fala.

Etapa 1: Criar uma conta do Azure

Para trabalhar com a Criação de Conteúdo de Áudio, é preciso ter uma conta Microsoft e uma conta do Azure.

O portal do Azure é a central de gerenciamento da conta do Azure. É possível criar o recurso de Fala, gerenciar o acesso ao produto e monitorar tudo, desde aplicativos Web simples a implantações de nuvem complexas.

Etapa 2: Criar um recurso de Fala

Depois de criar uma conta do Azure, é preciso criar um recurso de Fala nela para acessar os serviços de Fala. Crie um recurso de Fala no portal do Azure. Para obter mais informações, consulte Criar um recurso de serviços de IA do Azure.

São necessários alguns instantes para a implantação do novo recurso de Fala. Depois que a implantação estiver concluída, é possível começar a usar a ferramenta de Criação de Conteúdo de Áudio.

Observação

Se você planeja usar vozes neurais, crie o recurso em uma região compatível com vozes neurais.

Depois de obter a conta do Azure e o recurso de Fala, entre no Speech Studio e selecione Criação de Conteúdo de Áudio.
Selecione a assinatura do Azure e o recurso de Fala com o qual você deseja trabalhar e, em seguida, selecione Usar recurso.

Na próxima vez que entrar na Criação de Conteúdo de Áudio, você será vinculado diretamente aos arquivos de trabalho de áudio no recurso de Fala atual. Você pode verificar os detalhes de suas assinaturas do Azure e o status no portal do Azure.

Se você não tiver o recurso de Fala disponível e for o proprietário ou administrador de uma assinatura do Azure, também poderá criar um novo recurso de Fala no Speech Studio selecionando Criar um novo recurso.

Se você tiver uma função de usuário para uma determinada assinatura do Azure, talvez não tenha permissão para criar um novo recurso de Fala. Para obter acesso, entre em contato com seu administrador.

Para trocar o recurso de Fala a qualquer momento, selecione Configurações na parte superior da página.

Para alternar diretórios, selecione Configurações ou vá para seu perfil.

Usar a ferramenta

O diagrama a seguir exibe o processo para ajustar as saídas da conversão de texto em fala.

Diagrama da sequência de etapas para ajustar as saídas de conversão de texto em fala.

Cada etapa no diagrama anterior é descrita aqui:

Escolha o recurso de Fala no qual você deseja trabalhar.
Crie um arquivo de ajuste de áudio usando texto sem formatação ou scripts de SSML. Insira ou faça upload do conteúdo na Criação de Conteúdo de Áudio.
Escolha a voz e a linguagem do conteúdo do script. A Criação de Conteúdo de Áudio inclui todas as vozes predefinidas de conversão de texto em fala. Você pode usar vozes neurais pré-criadas ou uma voz neural personalizada.

Observação

O acesso restrito está disponível para a sintetização de voz personalizada, que permite criar vozes de alta definição semelhantes à fala natural. Para obter mais informações, consulte Processo de restrição.
Escolha o conteúdo que você deseja visualizar e selecione Reproduzir (por meio do ícone em forma de triângulo) para visualizar a saída de síntese padrão.

Se você fizer alterações no texto, selecione o ícone Parar e, em seguida, selecione Reproduzir novamente para regenerar o áudio com scripts de alteração.

Aprimore a saída ajustando a pronúncia, a interrupção, o tom, a taxa, a entonação, o estilo da voz e muito mais. Para ver uma lista completa de opções, confira Linguagem de Marcação de Síntese de Fala.

Para obter mais informações sobre como ajustar a saída de fala, consulte Vídeo como converter texto em fala no YouTube. No entanto, o vídeo pode não estar disponível em todas as regiões e estar desatualizado no momento em que você o assistir.
Salve e exporte o áudio ajustado.

Quando você salva faixa de ajuste no sistema, pode continuar trabalhando e iterando na saída. Quando a saída estiver pronta, gere uma tarefa de criação de áudio com o recurso de exportação. É possível observar o status da tarefa de exportação e baixar a saída para usar com seus aplicativos e produtos.

Criar um arquivo de ajuste de áudio

Você pode colocar seu conteúdo na ferramenta Criação de Conteúdo de Áudio de duas maneiras:

Opção 1: Criar um novo arquivo de ajuste de áudio

Selecione Novo>Arquivo de texto para criar um novo arquivo de ajuste de áudio.
Insira ou cole o conteúdo na janela de edição. O número de caracteres para cada arquivo é de 20.000 ou menos. Se o script tiver mais que isso, use a Opção 2 para dividir automaticamente o conteúdo em vários arquivos.
Selecione Salvar.

Opção 2: Carregar um arquivo de ajuste de áudio

Selecione Carregar>Arquivo de texto para importar um ou mais arquivos de texto. Há compatibilidade com texto sem formatação e SSML.

Se o arquivo de script tiver mais de 20 mil caracteres, faça a divisão do conteúdo por parágrafos, por caracteres ou por expressões regulares.

Ao carregar os arquivos de texto, verifique se eles estão de acordo com estes requisitos:

Propriedade	Descrição
Formato de arquivo	Texto sem formatação (.txt) ou SSML (.txt) Não há compatibilidade com arquivos zip.
Formato de codificação	UTF-8
Nome do arquivo	Cada arquivo precisa ter um nome exclusivo. Não há suporte para arquivos duplicados.
Tamanho do texto	O limite de caracteres é de 20.000. Se os arquivos excederem o limite, divida-os de acordo com as instruções na ferramenta.
Restrições de SSML	Cada arquivo SSML só pode conter uma única parte de SSML.

Aqui está um exemplo de texto sem formatação:

Welcome to use Audio Content Creation to customize audio output for your products.

Aqui está um exemplo de SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

Exportar áudio ajustado

Depois de revisar sua saída de áudio e ficar satisfeito com a sintonia e o ajuste, você poderá exportar o áudio.

Selecione Exportar para criar uma tarefa de criação de áudio.

Recomendamos Exportar para a biblioteca de áudio para armazenar, localizar e pesquisar facilmente a saída de áudio na nuvem. Você pode se integrar melhor aos seus aplicativos por meio do armazenamento de blobs do Azure. Você também pode baixar o áudio diretamente no disco local.

Escolha o formato de saída do áudio ajustado. Os formatos de áudio e as taxas de amostragem com suporte estão listados na tabela a seguir:

Formatar	Taxa de amostragem de 8 kHz	Taxa de amostragem de 16 kHz	Taxa de amostragem de 24 kHz	Taxa de amostragem de 48 kHz
WAV	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/D	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Para exibir o status da tarefa, selecione a guia Lista de tarefas.

Se a tarefa falhar, consulte a página de informações detalhadas para obter um relatório completo.
Quando a tarefa for concluída, o áudio ficará disponível para download no painel Biblioteca de Áudio.
Selecione o arquivo que deseja baixar e Baixar.

Agora você pode usar o áudio ajustado personalizado em aplicativos ou produtos.

Configurar o BYOS e o acesso de leitura público anônimo para blobs

Se você perder a permissão de acesso ao seu Traga Seu Próprio Armazenamento (BYOS), não poderá visualizar, criar, editar ou excluir arquivos. Para retomar seu acesso, você precisa remover o armazenamento atual e reconfigurar o BYOS no Portal do Azure. Para saber mais sobre como configurar o BYOS, consulte Montar o Armazenamento do Microsoft Azure como um compartilhamento local no Serviço de Aplicativo.

Depois de configurar a permissão BYOS, você precisa de configurar o acesso de leitura pública anônimo para os contêineres e blobs relacionados. Caso contrário, os dados do blob não estarão disponíveis para acesso público e seu arquivo léxico no blob ficará inacessível. Por padrão, a configuração de acesso público de um contêiner está desabilitada. Para conceder aos usuários anônimos acesso de leitura a um contêiner e seus blobs, primeiro defina Permitir acesso público ao Blob como Habilitado para permitir o acesso público à conta de armazenamento e, em seguida, defina o nível de acesso público (denominado acc-public-files) do contêiner (acesso de leitura anônimo somente para blobs). Para saber mais sobre como configurar o acesso de leitura público, consulte Configurar o acesso de leitura público anônimo para contêineres e blobs.

Adicionar ou remover usuários da Criação de Conteúdo de Áudio

Se mais de um usuário quiser usar a Criação de Conteúdo de Áudio, é possível permitir o acesso dele à assinatura do Azure e ao recurso de Fala. Se você adicionar um usuário a uma assinatura do Azure, ele poderá acessar todos os recursos nela. Mas se você adicionar usuários apenas a um recurso de Fala, eles só terão acesso ao recurso de Fala e não a outros recursos dessa assinatura do Azure. Usuários com acesso ao recurso de fala podem usar a Criação de Conteúdo de Áudio.

Os usuários aos quais você concede acesso precisam configurar uma conta Microsoft. Se eles não tiverem uma conta Microsoft, poderão criar uma em apenas alguns minutos. Eles podem usar seus emails existentes e vinculá-lo a uma conta Microsoft, ou podem criar e usar um endereço de email do Outlook como uma conta Microsoft.

Adicionar usuários a um recurso de fala

Para adicionar usuários a um recurso de fala para que possam usar a Criação de Conteúdo de Áudio, faça o seguinte:

No portal do Azure, selecione Todos os serviços no painel de navegação esquerdo e pesquise por serviços de IA do Azure ou Fala.
Selecione o recurso de Fala.

Observação

Você também pode configurar o RBAC do Azure para grupos de recursos, assinaturas ou grupos de gerenciamento inteiros. Faça isso selecionando o nível de escopo desejado e, em seguida, navegando até o item desejado (por exemplo, selecionando Grupos de recursos e, em seguida, selecionando o seu grupo de recursos).
Selecione Controle de acesso (IAM) no painel de navegação à esquerda.
Selecione Adicionar>Adicionar atribuição de função.
Na guia Função na próxima tela, selecione uma função (como Proprietário) que você deseja adicionar.
Na guia Membros, digite o endereço de email de um usuário e selecione o nome do usuário no diretório. O endereço de email deve estar vinculado a uma conta Microsoft de confiança do Microsoft Entra ID. Os usuários podem criar facilmente uma conta da Microsoft usando um endereço de email pessoal.
Na guia Examinar + atribuir, selecione Examinar + atribuir para atribuir a função.

Veja o que acontece em seguida:

Um convite por email é enviado automaticamente aos usuários.

Observação

Se os usuários não receberem o email de convite, você poderá pesquisar a conta deles em Atribuições de função e entrar nos perfis. Procure Identidade>Convite aceito, e selecione (gerenciar) para reenviar o convite por email. Você também pode copiar e enviar o link de convite para eles.
Eles podem aceitá-lo selecionando Aceitar convite>Aceitar para ingressar no Azure no email.
Eles, então, serão redirecionado para o portal do Azure. Eles não precisam realizar mais ações no portal do Azure.
Após alguns instantes, os usuários recebem a função no escopo de recursos de fala, o que lhes dá acesso a esse recurso de fala.

Agora, o usuário visita ou atualiza a página do produto Criação de Conteúdo de Áudio e entra com a conta da Microsoft dele. Eles selecionam o bloco Criação de Conteúdo de Áudio entre todos os produtos de fala. Eles escolhem o recurso de fala na janela pop-up ou nas configurações no canto superior direito.

Se não conseguirem localizar o recurso de fala disponível, eles poderão verificar se estão no diretório certo. Para fazer isso, selecione o perfil de conta no canto superior direito e selecione Alternar ao lado de Diretório atual. Se houver mais de um diretório disponível, significa que eles têm acesso a vários diretórios. Eles poderão alternar entre os diferentes diretórios e acessar as Configurações para ver se o recurso de fala correto está disponível.

Os usuários que estão no mesmo recurso de Fala veem o trabalho uns dos outros na ferramenta de Criação de Conteúdo de Áudio. Se você quiser que cada usuário tenha um local de trabalho exclusivo e particular na Criação de Conteúdo de Áudio, crie um recurso de fala para cada usuário e dê a ele acesso exclusivo ao recurso de fala.

Remover usuários de um recurso de fala

Para remover a permissão de um usuário de um recurso de Fala, faça o seguinte:

Pesquise Serviços de IA do Azure no portal do Azure e selecione o recurso de fala em que você quer remover usuários.
Selecione Controle de acesso (IAM) e, em seguida, selecione a guia Atribuições de função para exibir todas as atribuições de função para este recurso de fala.
Selecione os usuários que você deseja remover, selecione Remover e, em seguida, selecione OK.

Permitir que os usuários concedam acesso a outros

Se você quiser que um usuário permita o acesso de outros usuários, precisará atribuir a ele a função de proprietário do recurso de fala e defini-lo como leitor do diretório do Azure.

Adicione o usuário como proprietário do recurso de fala. Para obter mais informações, consulte Adicionar usuários a um recurso de fala.
No portal do Azure, selecione o menu recolhido no canto superior esquerdo, selecione Microsoft Entra ID e, em seguida, Usuários.
Procure a conta Microsoft do usuário, acesse sua página de detalhes e selecione Funções atribuídas.
Selecione Adicionar atribuições>Leitores de Diretório. Se o botão Adicionar atribuições não estiver disponível, significa que você não tem acesso. Você deve ter a função de Proprietário ou Administrador de acesso do usuário para atribuir funções aos usuários.

Compartilhar via

Conversão de texto em fala com a ferramenta Criação de Conteúdo de Áudio