Como criar transcrições rotuladas por humanos

Artigo
02/25/2025

Transcrições rotuladas por humanos são transcrições palavra a palavra de um arquivo de áudio. Você usa transcrições rotuladas por humanos para avaliar a precisão do modelo e melhorar a precisão do reconhecimento, especialmente quando as palavras são excluídas ou substituídas incorretamente. Este guia pode ajudá-lo a criar transcrições de alta qualidade.

Uma amostra representativa de dados de transcrição é recomendada para avaliar a precisão do modelo. Os dados devem abranger vários alto-falantes e enunciados que são representativos do que os usuários dizem para o aplicativo. Para dados de teste, a duração máxima de cada arquivo de áudio individual é de 2 horas.

É necessária uma grande amostra de dados de transcrição para melhorar o reconhecimento. Sugerimos fornecer entre 1 e 100 horas de dados de áudio. O serviço de Fala usa até 100 horas de áudio para treinamento (até 20 horas para modelos mais antigos que não cobram pelo treinamento). Cada arquivo de áudio individual não deve ter mais de 40 segundos (até 30 segundos para personalização do Whisper).

Este guia tem seções para as localidades em inglês dos EUA, chinês mandarim e alemão.

As transcrições para todos os arquivos WAV estão contidas em um único arquivo de texto simples (.txt ou .tsv). Cada linha do arquivo de transcrição contém o nome de um dos arquivos de áudio, seguido pela transcrição correspondente. O nome do arquivo e a transcrição são separados por uma guia (\t).

Por exemplo:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

As transcrições são normalizadas por texto para que o sistema possa processá-las. No entanto, você deve fazer algumas normalizações importantes antes de carregar o conjunto de dados.

As transcrições rotuladas por humanos para idiomas diferentes do inglês e do chinês mandarim devem ser codificadas em UTF-8 com um marcador de ordem de bytes. Para outros requisitos de transcrição de localidades, consulte as seções a seguir.

en-US

As transcrições com rótulo humano para áudio em inglês devem ser fornecidas como texto simples, usando apenas caracteres ASCII. Evite o uso de caracteres de pontuação latino-1 ou Unicode. Esses caracteres geralmente são adicionados inadvertidamente ao copiar texto de um aplicativo de processamento de texto ou raspar dados de páginas da Web. Se esses caracteres estiverem presentes, certifique-se de atualizá-los com a substituição ASCII apropriada.

Eis alguns exemplos:

Personagens a evitar	Substituição	Notas
"Hello world"	"Hello world"	As aspas de abertura e fechamento são substituídas por caracteres ASCII apropriados.
Dia de João	Dia de João	O apóstrofo é substituído pelo caráter ASCII apropriado.
Foi bom, não, foi ótimo!	foi bom - não, foi ótimo!	O travessão é substituído por dois hífenes.

Normalização de texto para inglês dos EUA

A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente, no entanto, recomendamos o uso destas diretrizes ao preparar seus dados de transcrição rotulados por humanos:

Escreva abreviaturas em palavras.
Escreva cadeias numéricas não padronizadas em palavras (como termos contábeis).
Caracteres não alfabéticos ou caracteres alfanuméricos mistos devem ser transcritos como pronunciados.
Abreviaturas que são pronunciadas como palavras não devem ser editadas (como "radar", "laser", "RAM" ou "NATO").
Escreva abreviaturas que são pronunciadas como letras separadas com cada letra separada por um espaço.
Se você usar áudio, transcreva números como palavras que correspondem ao áudio (por exemplo, "101" pode ser pronunciado como "um oh um" ou "cento e um").
Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como "sim sim sim sim". O serviço de Fala pode soltar linhas com essa repetição.

Aqui estão alguns exemplos de normalização que você deve executar na transcrição:

Original text	Texto após normalização (humano)
Dr. Bruce Banner	Doutor Bruce Banner
James Bond, 007	James Bond, duplo oh sete
Ke$ha	Kesha
Quanto tempo dura o 2x4	Quanto tempo é o dois por quatro
O encontro vai das 13h às 15h	O encontro vai da uma às três da tarde
O meu tipo sanguíneo é O+	O meu tipo sanguíneo é O positivo
A água é H20	A água é H 2 O
Jogar OU812 por Van Halen	Jogar O U 8 1 2 por Van Halen
UTF-8 com BOM	U T F 8 com BOM
Custa $3.14	Custa três catorze

As seguintes regras de normalização são aplicadas automaticamente às transcrições:

Use letras minúsculas.
Remova toda a pontuação, exceto apóstrofos dentro das palavras.
Expanda números em palavras/forma falada, como valores em dólares.

Aqui estão alguns exemplos de normalização realizada automaticamente na transcrição:

Original text	Texto após normalização (automático)
"Vaca santa!", disse Batman.	vaca sagrada disse batman
"O quê?", disse o ajudante de Batman, Robin.	O que disse o ajudante de Batman Robin
Vá buscar -em!	ir buscar em
Eu sou duplamente articulado	Sou duplamente articulado
Rua Elm, 104	um oh quatro Elm rua
Sintonize o 102.7	sintonize um oh dois pontos sete
Pi é cerca de 3,14	pi é cerca de três vírgula um quatro

de-DE

As transcrições rotuladas por humanos para áudio alemão devem ser codificadas em UTF-8 com um marcador de ordem de bytes.

Normalização de texto para alemão

Escreva pontos decimais como "," e não ".".
Escreva separadores de tempo como ":" e não "." (por exemplo: 12:00 Uhr).
Abreviaturas como "ca." não são substituídas. Recomendamos que utilize o formulário oral completo.
Os quatro principais operadores matemáticos (+, -, * e /) são removidos. Recomendamos substituí-los pela forma escrita: "mais", "menos", "mal" e "geteilt".
Os operadores de comparação são removidos (=, <e >). Recomendamos substituí-los por "gleich", "kleiner als" e "grösser als".
Escreva frações, como 3/4, na forma escrita (por exemplo: "drei viertel" em vez de 3/4).
Substitua o símbolo "€" pela forma escrita "Euro".

Aqui estão alguns exemplos de normalização que você deve executar na transcrição:

Original text	Texto após normalização do usuário	Texto após a normalização do sistema
Es ist 12,23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	Zwölf komma vier fünf
2 + 3 - 4	2 mais 3 menos 4	zwei mais drei menos vier

As seguintes regras de normalização são aplicadas automaticamente às transcrições:

Use letras minúsculas para todo o texto.
Remova toda a pontuação, incluindo vários tipos de aspas ("teste", 'teste', "teste" e «teste» estão OK).
Descarte linhas com quaisquer caracteres especiais deste conjunto: ¢ ¢ ¥ ¦ § © ª ¬ ® ° ± ² μ × ÿ Ø¬¬.
Expanda os números para a forma falada, incluindo valores em dólares ou euros.
Aceite elogios apenas por um, o e você. Outros são substituídos por "th" ou descartados.

Aqui estão alguns exemplos de normalização realizada automaticamente na transcrição:

Original text	Texto após normalização
Anel Frankfurter	Anel Frankfurter
¡Eine Frage!	Eine Frage
Wir, haben	Wir Haben

ja-JP

Em japonês (ja-JP), há um comprimento máximo de 90 caracteres para cada frase. Linhas com frases mais longas são descartadas. Para adicionar texto mais longo, insira um ponto intermediário.

zh-CN

As transcrições rotuladas por humanos para áudio em chinês mandarim devem ser codificadas em UTF-8 com um marcador de ordem de bytes. Evite o uso de caracteres de pontuação de meia largura. Esses caracteres podem ser incluídos inadvertidamente quando você prepara os dados em um programa de processamento de texto ou raspa dados de páginas da Web. Se esses caracteres estiverem presentes, atualize-os com a substituição de largura total apropriada.

Eis alguns exemplos:

Personagens a evitar	Substituição	Notas
"你好"	"你好"	As aspas de abertura e fechamento são substituídas por caracteres apropriados.
需要什么帮助?	需要什么帮助？	O ponto de interrogação é substituído pelo caractere apropriado.

Normalização de texto para chinês mandarim

Escreva abreviaturas em palavras.
Escreva cadeias numéricas na forma falada.

Aqui estão alguns exemplos de normalização que você deve executar na transcrição:

Original text	Texto após normalização
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

As seguintes regras de normalização são aplicadas automaticamente às transcrições:

Remova toda a pontuação.
Expanda os números para a forma falada.
Converta letras de largura total em letras de meia largura.
Usando letras maiúsculas para todas as palavras em inglês.

Aqui estão alguns exemplos de normalização automática da transcrição:

Original text	Texto após normalização
3.1415	三点一四一五
¥ 3,5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Partilhar via

Como criar transcrições rotuladas por humanos

en-US

Normalização de texto para inglês dos EUA

de-DE

Normalização de texto para alemão

ja-JP

zh-CN

Normalização de texto para chinês mandarim

Passos Seguintes

Comentários

Recursos adicionais