Como criar um avatar personalizado de texto para fala
Começar com um avatar de texto para fala personalizado é um processo simples. Tudo o que é preciso são alguns clipes de vídeo do seu ator. Se você quiser treinar uma voz personalizada para o mesmo ator, você pode fazê-lo separadamente.
Nota
O acesso personalizado ao avatar é limitado com base nos critérios de elegibilidade e utilização. Solicite acesso no formulário de admissão.
Pré-requisitos
Você precisa de um recurso de fala em uma das regiões que oferece suporte ao treinamento personalizado de avatares. O avatar personalizado suporta apenas recursos de Fala padrão (S0).
Você precisa de uma gravação de vídeo do talento lendo uma declaração de consentimento reconhecendo o uso de sua imagem e voz. Você carrega este vídeo quando configura o talento do avatar. Para obter mais informações, consulte Adicionar consentimento de talento de avatar.
Você precisa de gravações de vídeo do seu talento avatar como dados de treinamento. Você carrega esses vídeos quando prepara dados de treinamento. Para obter mais informações, consulte Adicionar dados de treinamento.
Etapa 1: Criar um projeto de avatar personalizado
Para criar um projeto de avatar personalizado, siga estas etapas:
Inicie sessão no Speech Studio e selecione a sua subscrição e o recurso de Voz.
Selecione Avatar personalizado (visualização).
Selecione +Criar um projeto.
Siga as instruções fornecidas pelo assistente para criar seu projeto.
Gorjeta
Não misture dados para diferentes avatares em um projeto. Crie sempre um novo projeto para um novo avatar.
Selecione o novo projeto pelo nome. Em seguida, você verá estes itens de menu no painel esquerdo: Configurar talento de avatar, Preparar dados de treinamento, Treinar modelo e Implantar modelo.
Etapa 2: adicionar consentimento de talento de avatar
Um talento avatar é um indivíduo ou ator alvo cujo vídeo de fala é gravado e usado para criar modelos de avatar neural. Você deve obter consentimento suficiente, sob todas as leis e regulamentos relevantes, do talento do avatar para usar seu vídeo para criar o avatar de texto para fala personalizado.
Você deve fornecer um arquivo de vídeo com uma declaração gravada de seu talento avatar, reconhecendo o uso de sua imagem e voz. A Microsoft verifica se o conteúdo da gravação corresponde ao script predefinido fornecido pela Microsoft. A Microsoft compara o rosto do talento do avatar no arquivo de declaração de vídeo gravado com vídeos aleatórios dos conjuntos de dados de treinamento para garantir que o talento do avatar em gravações de vídeo e o talento do avatar no arquivo de vídeo de declaração sejam da mesma pessoa.
Você pode encontrar a declaração de consentimento verbal em vários idiomas por meio do repositório GitHub Azure-Samples/cognitive-services-speech-sdk . O idioma da declaração verbal deve ser o mesmo da sua gravação. Veja também a Divulgação para talentos de voz.
Para obter mais informações sobre como gravar o vídeo de consentimento, consulte Como gravar amostras de vídeo.
Para adicionar um perfil de talento avatar e carregar a declaração de consentimento no seu projeto, siga estes passos:
Inicie sessão no Speech Studio.
Selecione Avatar> personalizado O nome> do seu projeto Configurar talento>de avatar Carregue o vídeo de consentimento.
Na página Carregar vídeo de consentimento, siga as instruções para carregar o vídeo de consentimento de talento de avatar que você gravou previamente.
- Selecione o idioma falado da declaração de consentimento verbal gravada pelo talento do avatar.
- Insira o nome do talento do avatar e o nome da sua empresa no mesmo idioma da declaração gravada.
- O nome do talento do avatar deve ser o nome da pessoa que gravou a declaração de consentimento.
- O nome da empresa deve corresponder ao nome da empresa que foi falado na declaração gravada.
- Você pode optar por carregar seus dados de arquivos locais ou de um armazenamento compartilhado com o Blob do Azure.
Selecione Carregar.
Depois que o upload do consentimento de talento do avatar for bem-sucedido, você poderá continuar a treinar seu modelo de avatar personalizado.
Etapa 3: Adicionar dados de treinamento
O serviço de Fala usa seus dados de treinamento para criar um avatar exclusivo ajustado para corresponder à aparência da pessoa nas gravações. Depois de treinar o modelo de avatar, você pode começar a sintetizar vídeos de avatar ou usá-lo para bate-papos ao vivo em seus aplicativos.
Todos os dados carregados devem atender aos requisitos para o tipo de dados escolhido. Para garantir que o serviço de Fala processe seus dados com precisão, é importante formatá-los corretamente antes de carregá-los. Para confirmar se os dados estão formatados corretamente, consulte Requisitos de dados.
Carregue os seus dados
Quando estiver pronto para carregar seus dados, vá para a guia Preparar dados de treinamento para adicionar seus dados.
Para carregar dados de treinamento, siga estas etapas:
Inicie sessão no Speech Studio.
Selecione Avatar> personalizado Seu nome> de projeto Preparar dados>de treinamento Carregar dados.
No assistente Carregar dados, escolha um tipo de dados e, em seguida, selecione Avançar. Para obter mais informações sobre os tipos de dados (incluindo Naturalmente falando, Silencioso, Gesto e Status 0 falando), consulte quais clipes de vídeo gravar.
Selecione arquivos locais do seu computador ou insira a URL de armazenamento de Blob do Azure onde seus dados estão armazenados.
Selecione Seguinte.
Reveja os detalhes do carregamento e selecione Submeter.
Os arquivos de dados são validados automaticamente quando você seleciona Enviar. A validação de dados inclui uma série de verificações nos arquivos de vídeo para verificar seu formato, tamanho e volume total. Se houver erros, corrija-os e envie novamente.
Depois de carregar os dados, você pode verificar a visão geral dos dados que indica se você forneceu dados suficientes para iniciar o treinamento. Esta captura de tela mostra um exemplo de dados suficientes adicionados para treinar um avatar sem outros gestos.
Passo 4: Treine o seu modelo de avatar
Importante
Todos os dados de formação do projeto estão incluídos na formação. A qualidade do modelo depende muito dos dados fornecidos e você é responsável pela qualidade do vídeo. Certifique-se de gravar os vídeos de treinamento de acordo com o guia de como gravar amostras de vídeo.
Para criar um avatar personalizado no Speech Studio, siga estas etapas para um dos seguintes métodos:
Inicie sessão no Speech Studio.
Selecione Avatar> personalizado Seu nome >de projeto Modelo de trem>Modelo de trem.
Insira um Nome para ajudá-lo a identificar o modelo. Escolha um nome cuidadosamente. O nome do modelo é usado como o nome do avatar em sua solicitação de síntese pela entrada SDK e SSML. Apenas letras, números, hífenes e sublinhados são permitidos. Use um nome exclusivo para cada modelo.
Importante
O nome do modelo de avatar deve ser exclusivo dentro do mesmo recurso de Serviços de Fala ou IA.
Selecione Treinar para começar a treinar o modelo.
A duração do treinamento varia de acordo com a quantidade de dados que você usa. Normalmente, leva de 20 a 40 horas de computação, em média, para treinar um avatar personalizado. Consulte a nota de preços sobre como a formação é cobrada.
Copie seu modelo de avatar personalizado para outro projeto (opcional)
Atualmente, o treinamento personalizado para avatares está disponível apenas em algumas regiões. Depois que seu modelo de avatar for treinado em uma região suportada, você poderá copiá-lo para um recurso de Fala em outra região, conforme necessário. Para obter mais informações, consulte notas de rodapé na tabela de regiões.
Para copiar seu modelo de avatar personalizado para outro projeto:
- No separador Modelo de comboio , selecione um modelo de avatar que pretende copiar e, em seguida, selecione Copiar para projeto.
- Selecione a assinatura, a região, o recurso de fala e o projeto para o qual deseja copiar o modelo. Você deve ter um recurso de fala e um projeto na região de destino, caso contrário, você precisa criá-los primeiro.
- Selecione Enviar para copiar o modelo.
Depois que o modelo for copiado, você verá uma notificação no Speech Studio.
Navegue até o projeto onde você copiou o modelo para implantar a cópia do modelo.
Etapa 5: Implantar e usar seu modelo de avatar
Depois de criar e treinar com sucesso seu modelo de avatar, você o implanta em seu ponto de extremidade.
Para implantar seu avatar:
- Inicie sessão no Speech Studio.
- Selecione Avatar> personalizado Seu nome >de projeto Implantar modelo.
- Selecione Implantar modelo e selecione um modelo que você deseja implantar.
- Selecione Implantar para iniciar a implantação.
Importante
Quando um modelo é implantado, você paga pelo tempo de atividade contínua do ponto de extremidade, independentemente da sua interação com esse ponto de extremidade. Verifique a nota de preços sobre como a implantação do modelo é cobrada. Você pode excluir uma implantação quando o modelo não estiver em uso para reduzir gastos e conservar recursos.
Depois de implantar seu avatar personalizado, ele estará disponível para uso no Speech Studio ou via API:
- O avatar aparece na lista de avatares de texto para fala no Speech Studio.
- O avatar aparece na lista de avatares de bate-papo ao vivo via Speech Studio.
- Você pode chamar o avatar a partir da entrada SDK e SSML especificando o nome do modelo do avatar. Para obter mais informações, consulte as propriedades do avatar.
Remover uma implantação
Para remover a implantação, siga estas etapas:
- Inicie sessão no Speech Studio.
- Navegue até Avatar personalizado> Seu nome >de projeto Implantar modelo.
- Selecione a implantação na página Implantar modelo . O modelo é hospedado ativamente se o status for "Bem-sucedido".
- Você pode selecionar o botão Excluir implantação e confirmar a exclusão para remover a hospedagem.
Gorjeta
Depois que uma implantação é removida, você não paga mais por sua hospedagem. A exclusão de uma implantação não causa nenhuma exclusão do seu modelo. Se você quiser usar o modelo novamente, crie uma nova implantação.
Usar uma voz personalizada (opcional)
Se você também estiver criando uma voz neural personalizada (CNV) para o ator, o avatar pode ser altamente realista. Para obter mais informações, consulte O que é avatar personalizado de texto para fala.
Voz personalizada e avatar de texto para fala personalizado são recursos separados. Você pode usá-los de forma independente ou em conjunto.
Se você criou uma voz personalizada e deseja usá-la junto com o avatar personalizado, preste atenção aos seguintes pontos:
- Certifique-se de que o ponto de extremidade de voz personalizado seja criado no mesmo recurso de Fala que o ponto de extremidade de avatar personalizado. Conforme necessário, consulte Treinar seu modelo de voz profissional para copiar o modelo de voz personalizado para o mesmo recurso de fala que o ponto de extremidade de avatar personalizado.
- Você pode ver a opção de voz personalizada na lista de vozes da página de geração de conteúdo do avatar e nas configurações de voz do bate-papo ao vivo.
- Se você estiver usando a síntese em lote para a API de avatar, adicione a
"customVoices"
propriedade para associar a ID de implantação do modelo de voz personalizado ao nome da voz na solicitação. Para obter mais informações, consulte as propriedades de conversão de texto em fala. - Se você estiver usando a síntese em tempo real para a API do avatar, consulte nosso código de exemplo no GitHub para definir a voz personalizada.