Como criar um texto personalizado para o avatar de conversão de texto em fala
Começar a usar um avatar de texto personalizado para a fala é um processo simples. Você só precisa de alguns clipes de vídeo do seu ator. Se você quiser treinar uma voz personalizada para o mesmo ator, poderá fazê-lo separadamente.
Observação
O acesso ao avatar personalizado é limitado de acordo com critérios de qualificação e uso. Solicite acesso no formulário de entrada.
Pré-requisitos
Você precisa de um recurso de Fala em uma das regiões com suporte ao treinamento de avatar personalizado. O avatar personalizado só dá suporte a recursos de Fala padrão (S0).
Você precisa de uma gravação em vídeo do talento lendo uma declaração de consentimento reconhecendo o uso de sua imagem e voz. Você carrega esse vídeo quando configura o talento do avatar. Para obter mais informações, consulte Adicionar consentimento de talento do avatar.
Você precisa de gravações de vídeo do talento do avatar como dados de treinamento. Você carrega esses vídeos ao preparar dados de treinamento. Para obter mais informações, confira Adicionar dados de treinamento.
Etapa 1: criar um projeto de avatar personalizado
Para criar um projeto de avatar personalizado, siga estas etapas:
Entre no Speech Studio e selecione sua assinatura e recurso de Fala.
Selecione Avatar personalizado (versão prévia).
Selecione + Criar um projeto.
Siga as instruções fornecidas pelo assistente para criar seu projeto.
Dica
Não misture dados de avatares diferentes em um projeto. Sempre crie um novo projeto para um novo avatar.
Selecione o novo projeto pelo nome. Você verá esses itens de menu no painel esquerdo: Configurar talento de avatar, Preparar dados de treinamento, Treinar modelo e Implantar modelo.
Etapa 2: adicionar consentimento do talento do avatar
Um talento avatar é um ator de destino ou individual cujo vídeo de falar é gravado e usado para criar modelos de avatar neural. Você deve obter consentimento suficiente de acordo com todas as leis e regulamentos relevantes do talento avatar para usar seu vídeo para criar o texto personalizado para avatar de fala.
Você deve fornecer um arquivo de vídeo com uma declaração gravada do seu talento avatar, reconhecendo o uso de sua imagem e voz. A Microsoft verifica se o conteúdo na gravação corresponde ao script predefinido fornecido pela Microsoft. A Microsoft compara o rosto do talento do avatar no arquivo de declaração de vídeo gravado com vídeos aleatórios dos conjuntos de dados de treinamento para garantir que o talento do avatar em gravações de vídeo e o talento avatar no arquivo de vídeo de declaração sejam da mesma pessoa.
Você pode encontrar a declaração de consentimento verbal em vários idiomas pelo repositório Azure-Samples/cognitive-services-speech-sdk do GitHub. O idioma da instrução verbal deve ser o mesmo da gravação. Consulte também a Divulgação para talento de voz.
Para obter mais informações sobre a gravação do vídeo de consentimento, consulte Como gravar exemplos de vídeo.
Para adicionar um perfil de talento de avatar e carregar a declaração de consentimento no seu projeto, siga estas etapas:
Entre no Speech Studio.
Selecione Avatar personalizado> O nome do seu projeto >Configurar o talento do avatar>Carregar vídeo de consentimento.
Na página Carregar vídeo de consentimento, siga as instruções para carregar o vídeo de consentimento do talento do avatar que você gravou anteriormente.
- Selecione o idioma de fala da declaração de consentimento verbal gravada pelo talento do avatar.
- Insira o nome do talento do avatar e o nome da sua empresa no mesmo idioma que a declaração gravada.
- O nome do talento do avatar deverá ser o nome da pessoa que gravou a declaração de consentimento.
- O nome da empresa deverá corresponder ao nome da empresa que foi falado na declaração gravada.
- Você pode optar por carregar seus dados de arquivos locais ou de um armazenamento compartilhado com o Armazenamento de Blobs do Azure.
Escolha Carregar.
Depois que o upload do consentimento do talento do avatar for bem-sucedido, você poderá continuar a treinar seu modelo de avatar personalizado.
Etapa 3: adicionar dados de treinamento
O serviço de Fala usa seus dados de treinamento para criar um avatar exclusivo ajustado para corresponder à aparência da pessoa nas gravações. Depois de treinar o modelo do avatar, você pode começar a sintetizar vídeos de avatar ou usá-lo para chats ao vivo em seus aplicativos.
Todos os dado carregado deve atender aos requisitos do tipo de dados escolhido. Para garantir que o serviço de Fala processe seus dados com precisão, é importante formatar corretamente seus dados antes do upload. Para confirmar se os dados estão formatados corretamente, consulte Requisitos de dados.
Upload de dados
Quando tudo estiver pronto para carregar os dados, vá para a guia Preparar dados de treinamento para adicionar seus dados.
Para carregar os dados de treinamento, siga estas etapas:
Entre no Speech Studio.
Selecione Avatar personalizado> Nome do seu projeto >Preparar dados de treinamento>Carregar dados.
No assistente Carregar dados, escolha um tipo de dados e, em seguida, selecione Avançar. Para obter mais informações sobre os tipos de dados (incluindo Fala natural, Silencioso, Gestos e Fala de status 0), consulte Quais clipes de vídeo gravar.
Selecione os arquivos locais do computador ou insira a URL de Armazenamento de Blobs do Azure onde seus dados estão armazenados.
Selecione Avançar.
Examine os detalhes de carregamento e selecione Enviar.
Os arquivos de dados são validados automaticamente quando você seleciona Enviar. A validação de dados inclui uma série de verificações nos arquivos de vídeo para verificar o formato, o tamanho e o volume total do arquivo. Se houver erros, corrija-os e envie novamente.
Depois de carregar os dados, você pode verificar a visão geral dos dados que indica se você forneceu dados suficientes para iniciar o treinamento. Essa captura de tela mostra um exemplo de dados suficientes adicionados para treinar um avatar sem outros gestos.
Etapa 4: treinar seu modelo de avatar
Importante
Todos os dados de treinamento do projeto estão incluídos no treinamento. A qualidade do modelo depende muito dos dados fornecidos e você é responsável pela qualidade do vídeo. Registre os vídeos de treinamento de acordo com guia como gravar exemplos de vídeo.
Para criar um avatar personalizado no Speech Studio, siga estas etapas para um dos seguintes métodos:
Entre no Speech Studio.
Selecione Avatar personalizado> Nome do seu projeto >Treinar modelo>Treinar modelo.
Insira um nome para ajudar a identificar o modelo. Escolha um nome com cuidado. O nome do modelo é usado como o nome do avatar em sua solicitação de síntese pela entrada do SDK e SSML. Somente letras, números, hifens e sublinhados são permitidos. Use um nome exclusivo para cada modelo.
Importante
O nome do modelo de avatar deve ser exclusivo no mesmo recurso de Fala ou Serviços de IA.
Selecione Treinar para começar a treinar o modelo.
A duração do treinamento varia dependendo da quantidade de dados que você usa. Normalmente, leva de 20 a 40 horas de computação em média para treinar um avatar personalizado. Verifique a observação de preço sobre como o treinamento é cobrado.
Copiar seu modelo de avatar personalizado para outro projeto (opcional)
O treinamento do avatar personalizado só está disponível em algumas regiões. Depois que seu modelo de avatar estiver treinado em uma região com suporte, você pode copiá-lo para um recurso de Fala em outra região, conforme necessário. Para obter mais informações, confira as notas de rodapé na tabela regiões.
Para copiar seu modelo de avatar personalizado para outro projeto:
- Na guia Treinar modelo, selecione um modelo de avatar que você deseja copiar e, em seguida, selecione Copiar para projeto.
- Selecione a assinatura, a região, o recurso de Fala e o projeto para onde você deseja copiar o modelo. Você deve ter um recurso de fala e um projeto na região de destino, caso contrário, você precisa criá-los primeiro.
- Selecione Enviar para copiar o modelo.
Depois que o modelo for copiado, você verá uma notificação no Speech Studio.
Navegue até o projeto em que você copiou o modelo para implantar a cópia do modelo.
Etapa 5: implantar e usar seu modelo de avatar
Após criar e treinar com sucesso seu modelo de avatar, implante-o no ponto de extremidade.
Para implantar seu avatar:
- Entre no Speech Studio.
- Selecione Avatar personalizado> O nome do seu projeto >Implantar modelo.
- Selecione Implantar modelo e selecione um modelo que você deseja implantar.
- Selecione Implantar para iniciar a implantação.
Importante
Quando um modelo é implantado, você paga pelo tempo de atividade contínuo do ponto de extremidade, independentemente da interação com esse ponto de extremidade. Verifique a observação de preço sobre como a implantação de modelo é cobrada. Você pode excluir uma implantação quando o modelo não estiver em uso para reduzir os gastos e conservar recursos.
Depois de implantar seu avatar personalizado, ele estará disponível para uso no Speech Studio ou por meio da API:
- O avatar aparece na lista de avatares de avatar de conversão de texto em fala no Speech Studio.
- O avatar aparece na lista de avatares de Avatares de chat ao vivo através do Speech Studio.
- Você pode chamar o avatar da entrada de SDK e SSML especificando o nome do modelo de avatar. Para obter mais informações, confira Propriedades do avatar.
Remove uma implantação
Para remover a implantação, siga estas etapas:
- Entre no Speech Studio.
- Navegue até Avatar Personalizado> Nome do seu projeto >Implantar modelo.
- Selecione a implantação na página Implantar modelo. O modelo será hospedado ativamente se o status for "Bem-sucedido".
- Você pode selecionar o botão Excluir implantação e confirmar a exclusão para remover a hospedagem.
Dica
Quando uma implantação é removida, você não paga mais pela sua hospedagem. Excluir uma implantação não causa nenhuma exclusão do modelo. Se você quiser usar o modelo novamente, crie uma nova implantação.
Usar uma voz personalizada (opcional)
Se você também estiver criando uma voz neural personalizada (CNV) para o ator, o avatar pode ser altamente realista. Para obter mais informações, consulte O que é o avatar de conversão de texto em fala personalizado.
Voz personalizada e avatar personalizado de conversão de texto em fala são recursos separados. Você pode usá-los independentemente ou juntos.
Se você criou uma voz personalizada e deseja usá-la junto com o avatar personalizado, observe aos seguintes pontos:
- Verifique se o ponto de extremidade da voz personalizada é criado no mesmo recurso de Fala que o ponto de extremidade do avatar personalizado. Conforme necessário, consulte Treinar seu modelo de voz profissional para copiar o modelo de voz personalizado para o mesmo recurso de Fala que o ponto de extremidade do avatar personalizado.
- Você pode ver a opção de voz personalizada na lista de vozes da página de geração de conteúdo do avatar e das configurações de voz de chat ao vivo.
- Se você estiver usando a síntese em lote para a API de avatar, adicione a propriedade
"customVoices"
para associar a ID de implantação do modelo de voz personalizada ao nome da voz na solicitação. Para obter mais informações, consulte a Propriedades de conversão de texto em fala. - Se você estiver usando a síntese em tempo real para a API de avatar, consulte nosso código de exemplo no GitHub para definir a voz personalizada.