Personalizar um modelo de fala

Artigo
10/09/2024

Nota

A personalização do modelo de fala, incluindo o treinamento de pronúncia, só é suportada nas contas de avaliação do Azure do Indexador de Vídeo e nas contas do Gerenciador de Recursos. Não é suportado em contas clássicas. Para obter orientação sobre como atualizar seu tipo de conta gratuitamente, consulte Atualizar sua conta do Azure AI Video Indexer. Para obter orientação sobre como usar a experiência de idioma personalizada, consulte Personalizar um modelo de idioma.

O Azure AI Video Indexer permite-lhe criar modelos de voz personalizados para personalizar o reconhecimento de voz carregando conjuntos de dados que são utilizados para criar um modelo de voz. Este artigo passa pelas etapas para fazê-lo através do site Video Indexer. Você também pode usar a API, conforme descrito em Personalizar modelo de fala usando API.

Para obter uma visão geral detalhada e práticas recomendadas para modelos de fala personalizados, consulte Personalizar um modelo de fala com o Azure AI Video Indexer.

Pré-requisitos

Leia o guia de práticas recomendadas de treinamento para modelo de fala.
Uma conta do Azure
Uma conta do Azure AI Video Indexer

Portal Web
API

Criar um conjunto de dados

Como todos os modelos personalizados devem conter um conjunto de dados, começaremos com o processo de como criar e gerenciar conjuntos de dados.

Selecione o botão Personalização do modelo.
Selecione a guia Fala (novo).
Selecione Carregar conjunto de dados.
Selecione Texto sem formatação ou Pronúncia no menu suspenso Tipo de conjunto de dados. Cada modelo de fala deve ter um conjunto de dados de texto simples e, opcionalmente, pode ter um conjunto de dados de pronúncia.
Selecione Procurar e selecione o arquivo do conjunto de dados. Você pode escolher apenas um.
Selecione um idioma para o modelo. Escolha o idioma falado nos arquivos de mídia que você planeja indexar com este modelo. O nome do conjunto de dados é pré-preenchido com o nome do arquivo, mas você pode modificar o nome.
Opcionalmente, você pode adicionar uma descrição do conjunto de dados. Isso pode ser útil para distinguir cada conjunto de dados se você espera ter vários conjuntos de dados.
Selecione Carregar. Quando a criação do conjunto de dados estiver concluída, você poderá usá-lo para treinamento e criação de novos modelos.

Rever e atualizar um conjunto de dados

Você pode exibir um conjunto de dados e suas propriedades da seguinte forma:

Clicar no nome do conjunto de dados
Passando o mouse sobre o conjunto de dados
Seleção das reticências

Em seguida, selecione Exibir conjunto de dados.

Em seguida, você pode exibir o nome, a descrição, o idioma e o status do conjunto de dados, além das seguintes propriedades:

Número de linhas: indica o número de linhas carregadas com êxito do número total de linhas no arquivo. Se o arquivo inteiro for carregado com sucesso, os números corresponderão (por exemplo, 10 de 10 normalizados). Se os números não corresponderem (por exemplo, 7 de 10 normalizados), isso significa que apenas algumas das linhas foram carregadas com êxito e o resto teve erros. As causas comuns de erros são problemas de formatação com uma linha, como não espaçar uma guia entre cada palavra em um arquivo de pronúncia. Revisar o texto simples e os dados de pronúncia para artigos de treinamento deve ser útil para encontrar o problema. Para solucionar a causa, revise os detalhes do erro, contidos no relatório. Selecione Exibir relatório para exibir os detalhes do erro sobre as linhas que não foram carregadas com êxito (errorKind). Isso também pode ser visualizado selecionando a guia Relatório .

ID do conjunto de dados: cada conjunto de dados tem um GUID exclusivo, que é necessário ao usar a API para operações que fazem referência ao conjunto de dados.

Texto simples (normalizado): contém o texto normalizado do arquivo de conjunto de dados carregado. Texto normalizado é o texto reconhecido em forma simples sem formatação.

Editar detalhes: para editar o nome ou a descrição de um conjunto de dados, ao passar o mouse sobre o conjunto de dados, selecione as reticências e, em seguida, selecione Editar detalhes. Em seguida, você pode editar o nome e a descrição do conjunto de dados.

Nota

Os dados em um conjunto de dados não podem ser editados ou atualizados depois que o conjunto de dados for carregado. Se você precisar editar ou atualizar os dados em um conjunto de dados, baixe o conjunto de dados, execute as edições, salve o arquivo e carregue o novo arquivo de conjunto de dados.

Download: Para baixar um arquivo de conjunto de dados, ao passar o mouse sobre o conjunto de dados, selecione as reticências e, em seguida, selecione Download. Como alternativa, ao visualizar o conjunto de dados, você pode selecionar Download e, em seguida, ter a opção de baixar o arquivo do conjunto de dados ou o relatório de upload no formulário JSON.

Excluir: para excluir um conjunto de dados, ao passar o mouse sobre o conjunto de dados, selecione as reticências e, em seguida, selecione Excluir.

Criar um modelo de fala personalizado

Os conjuntos de dados são usados na criação e treinamento de modelos. Depois de criar um conjunto de dados de texto sem formatação, você pode criar e começar a usar um modelo de fala personalizado.

Tenha em mente o seguinte ao criar e usar modelos de fala personalizados:

Um novo modelo deve incluir pelo menos um conjunto de dados de texto sem formatação e pode ter vários conjuntos de dados de texto sem formatação.
É opcional incluir um conjunto de dados de pronúncia e não mais do que um pode ser incluído.
Depois que um modelo é criado, você não pode adicionar conjuntos de dados adicionais a ele ou executar quaisquer modificações em seus conjuntos de dados. Se você precisar adicionar ou modificar conjuntos de dados, crie um novo modelo.
Se você tiver indexado um vídeo usando um modelo de fala personalizado e, em seguida, excluir o modelo, a transcrição não será afetada, a menos que você execute uma reindexação.
Se você excluiu um conjunto de dados que foi usado para treinar um modelo personalizado, como o modelo de fala já foi treinado pelo conjunto de dados, ele continuará a usá-lo até que o modelo de fala seja excluído.
Se você excluir um modelo personalizado, isso não terá impacto da transcrição de vídeos que já foram indexados usando o modelo.

Preparar um modelo

Nota

Depois que um modelo é criado, os conjuntos de dados não podem ser adicionados. Um modelo só pode conter conjuntos de dados da mesma linguagem.

Há duas maneiras de treinar um modelo – por meio da guia do conjunto de dados e da guia do modelo.

Treinar um modelo através da guia Conjuntos de dados

Exiba a lista de conjuntos de dados.
Selecione um conjunto de dados de texto sem formatação. O ícone Treinar novo modelo acima pode ser selecionado.
Selecione Treinar novo modelo.
Insira um nome para o modelo, um idioma e, opcionalmente, adicione uma descrição.
Selecione a guia Conjuntos de dados
Selecione os conjuntos de dados que deseja incluir no modelo.
Selecione Criar e treinar.

Treinar um modelo através da guia Modelos

Selecione a guia Modelos .
Selecione Treinar novo ícone de modelo .
Selecione os conjuntos de dados que você deseja que façam parte do modelo.
Insira um nome para o modelo, um idioma e, opcionalmente, adicione uma descrição.
Selecione a guia Conjuntos de dados.
Selecione os conjuntos de dados que deseja incluir no modelo.
Selecione Criar e treinar.

Rever e atualizar um modelo

Exibir modelo: você pode visualizar um modelo e suas propriedades clicando no nome do modelo ou ao passar o mouse sobre o modelo, clicando nas reticências e selecionando Exibir modelo.

Em seguida, você verá na guia Detalhes o nome, a descrição, o idioma e o status do modelo, além das seguintes propriedades:

ID do modelo: cada modelo tem um GUID exclusivo, que é necessário ao usar a API para operações que fazem referência ao modelo.

Criado em: A data em que o modelo foi criado.

Editar detalhes: para editar o nome ou a descrição de um modelo, ao passar o mouse sobre o modelo, selecione as reticências e, em seguida, selecione Editar detalhes. Em seguida, você pode editar o nome e a descrição do modelo.

Nota

Apenas o nome e a descrição do modelo podem ser editados. Se você quiser fazer alterações em seus conjuntos de dados ou adicionar conjuntos de dados, um novo modelo deve ser criado.

Excluir: para excluir um modelo, ao passar o mouse sobre o conjunto de dados, selecione as reticências e, em seguida, selecione Excluir.

Conjuntos de dados incluídos: Selecione na guia Conjuntos de dados incluídos para exibir os conjuntos de dados do modelo.

Usar um modelo de idioma personalizado ao indexar um vídeo

Um modelo de idioma personalizado não é usado por padrão para trabalhos de indexação, portanto, deve ser selecionado durante o processo de carregamento de índice.

Durante o processo de carregamento, selecione a origem do modelo de idioma personalizado no menu suspenso de idioma .
Selecione Carregar.

As mesmas etapas se aplicam quando você deseja reindexar um vídeo com um modelo personalizado.

Nota

A seguir está uma tabela de descrições de alguns dos parâmetros usados com as solicitações de modelo de fala:

Designação	Escreva	Descrição
`displayName`	string	O nome desejado do conjunto de dados/modelo.
`locale`	string	O código de idioma do conjunto de dados/modelo. Para obter a lista completa, consulte Suporte a idiomas.
`kind`	integer	0 para um conjunto de dados de texto simples, 1 para um conjunto de dados de pronúncia.
`description`	string	Descrição opcional do conjunto de dados/modelo.
`contentUrl`	URI	URL do arquivo de origem usado na criação do conjunto de dados.
`customProperties`	objeto	Propriedades opcionais do conjunto de dados/modelo.

Criar um conjunto de dados de fala

A solicitação Create Speech Dataset cria um conjunto de dados para treinar um modelo de fala. Carregue um arquivo usado para criar um conjunto de dados com essa solicitação. O conteúdo de um conjunto de dados não pode ser modificado após a sua criação.

Defina os parâmetros no corpo da solicitação, incluindo uma URL para o arquivo de texto a ser carregado. Os campos de descrição e propriedades personalizadas são opcionais. Este é um exemplo de um corpo de solicitação:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Resposta de exemplo

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Criar um modelo de fala

A solicitação Criar modelo de fala cria e treina um modelo de fala personalizado que pode ser usado para melhorar a precisão da transcrição de seus vídeos. Ele deve conter pelo menos um conjunto de dados de texto sem formatação. Opcionalmente, pode ter conjuntos de dados de pronúncia. Crie-o com todos os arquivos de conjunto de dados relevantes, pois os conjuntos de dados de um modelo não podem ser adicionados ou atualizados após sua criação.

Defina os parâmetros no corpo da solicitação, incluindo uma lista de cadeias de caracteres que o conjunto de dados ou conjuntos de dados para o modelo incluir. Os campos de descrição e propriedades personalizadas são opcionais. Este é um exemplo de um corpo de solicitação:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Resposta de exemplo

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obter conjunto de dados de fala

A API Get Speech Dataset retorna informações sobre o conjunto de dados especificado.

Resposta de exemplo

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Obter arquivos de conjuntos de dados de fala

A solicitação Get Speech Dataset Files retorna os arquivos e metadados do conjunto de dados especificado.

Resposta de exemplo

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Obter os conjuntos de dados de conta especificados

A solicitação Obter conjuntos de dados de fala retorna informações sobre todos os conjuntos de dados de contas especificados.

Resposta de exemplo

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Obter o modelo de fala especificado

A API Get Speech Model retorna informações sobre o modelo especificado.

Resposta de exemplo

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obter os modelos de fala de conta especificados

A API Get Speech Models retorna informações sobre todos os modelos na conta especificada.

Resposta de exemplo

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Excluir conjunto de dados de fala

A API Delete Speech Dataset exclui o conjunto de dados especificado. Qualquer modelo que foi treinado com o conjunto de dados excluído continua disponível até que o modelo seja excluído. Não é possível excluir um conjunto de dados enquanto ele estiver em uso para indexação ou treinamento.

Resposta de exemplo

Não há conteúdo retornado quando o conjunto de dados é excluído com êxito.

Excluir um modelo de fala

A API Excluir Modelo de Fala exclui o modelo de fala especificado. Não é possível excluir um modelo enquanto ele estiver em uso para indexação ou treinamento.

Response

Não há conteúdo retornado quando o modelo de fala é excluído com êxito.

Partilhar via

Personalizar um modelo de fala

Pré-requisitos

Criar um conjunto de dados

Rever e atualizar um conjunto de dados

Criar um modelo de fala personalizado

Preparar um modelo

Treinar um modelo através da guia Conjuntos de dados

Treinar um modelo através da guia Modelos

Rever e atualizar um modelo

Usar um modelo de idioma personalizado ao indexar um vídeo

Criar um conjunto de dados de fala

Resposta de exemplo

Criar um modelo de fala

Resposta de exemplo

Obter conjunto de dados de fala

Resposta de exemplo

Obter arquivos de conjuntos de dados de fala

Resposta de exemplo

Obter os conjuntos de dados de conta especificados

Resposta de exemplo

Obter o modelo de fala especificado

Resposta de exemplo

Obter os modelos de fala de conta especificados

Resposta de exemplo

Excluir conjunto de dados de fala

Resposta de exemplo

Excluir um modelo de fala

Response

Comentários

Recursos adicionais