Como criar transcrições rotuladas por humanos
Transcrições rotuladas por humanos são transcrições palavra a palavra de um arquivo de áudio. Você usa transcrições rotuladas por humanos para avaliar a precisão do modelo e melhorar a precisão do reconhecimento, especialmente quando as palavras são excluídas ou substituídas incorretamente. Este guia pode ajudá-lo a criar transcrições de alta qualidade.
Uma amostra representativa de dados de transcrição é recomendada para avaliar a precisão do modelo. Os dados devem abranger vários alto-falantes e enunciados que são representativos do que os usuários dizem para o aplicativo. Para dados de teste, a duração máxima de cada arquivo de áudio individual é de 2 horas.
É necessária uma grande amostra de dados de transcrição para melhorar o reconhecimento. Sugerimos fornecer entre 1 e 100 horas de dados de áudio. O serviço de Fala usa até 100 horas de áudio para treinamento (até 20 horas para modelos mais antigos que não cobram pelo treinamento). Cada arquivo de áudio individual não deve ter mais de 40 segundos (até 30 segundos para personalização do Whisper).
Este guia tem seções para as localidades em inglês dos EUA, chinês mandarim e alemão.
As transcrições para todos os arquivos WAV estão contidas em um único arquivo de texto simples (.txt ou .tsv). Cada linha do arquivo de transcrição contém o nome de um dos arquivos de áudio, seguido pela transcrição correspondente. O nome do arquivo e a transcrição são separados por uma guia (\t
).
Por exemplo:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
As transcrições são normalizadas por texto para que o sistema possa processá-las. No entanto, você deve fazer algumas normalizações importantes antes de carregar o conjunto de dados.
As transcrições rotuladas por humanos para idiomas diferentes do inglês e do chinês mandarim devem ser codificadas em UTF-8 com um marcador de ordem de bytes. Para outros requisitos de transcrição de localidades, consulte as seções a seguir.
en-US
As transcrições com rótulo humano para áudio em inglês devem ser fornecidas como texto simples, usando apenas caracteres ASCII. Evite o uso de caracteres de pontuação latino-1 ou Unicode. Esses caracteres geralmente são adicionados inadvertidamente ao copiar texto de um aplicativo de processamento de texto ou raspar dados de páginas da Web. Se esses caracteres estiverem presentes, certifique-se de atualizá-los com a substituição ASCII apropriada.
Eis alguns exemplos:
Personagens a evitar | Substituição | Notas |
---|---|---|
"Hello world" | "Hello world" | As aspas de abertura e fechamento são substituídas por caracteres ASCII apropriados. |
Dia de João | Dia de João | O apóstrofo é substituído pelo caráter ASCII apropriado. |
Foi bom, não, foi ótimo! | foi bom - não, foi ótimo! | O travessão é substituído por dois hífenes. |
Normalização de texto para inglês dos EUA
A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente, no entanto, recomendamos o uso destas diretrizes ao preparar seus dados de transcrição rotulados por humanos:
- Escreva abreviaturas em palavras.
- Escreva cadeias numéricas não padronizadas em palavras (como termos contábeis).
- Caracteres não alfabéticos ou caracteres alfanuméricos mistos devem ser transcritos como pronunciados.
- Abreviaturas que são pronunciadas como palavras não devem ser editadas (como "radar", "laser", "RAM" ou "NATO").
- Escreva abreviaturas que são pronunciadas como letras separadas com cada letra separada por um espaço.
- Se você usar áudio, transcreva números como palavras que correspondem ao áudio (por exemplo, "101" pode ser pronunciado como "um oh um" ou "cento e um").
- Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como "sim sim sim sim". O serviço de Fala pode soltar linhas com essa repetição.
Aqui estão alguns exemplos de normalização que você deve executar na transcrição:
Original text | Texto após normalização (humano) |
---|---|
Dr. Bruce Banner | Doutor Bruce Banner |
James Bond, 007 | James Bond, duplo oh sete |
Ke$ha | Kesha |
Quanto tempo dura o 2x4 | Quanto tempo é o dois por quatro |
O encontro vai das 13h às 15h | O encontro vai da uma às três da tarde |
O meu tipo sanguíneo é O+ | O meu tipo sanguíneo é O positivo |
A água é H20 | A água é H 2 O |
Jogar OU812 por Van Halen | Jogar O U 8 1 2 por Van Halen |
UTF-8 com BOM | U T F 8 com BOM |
Custa $3.14 | Custa três catorze |
As seguintes regras de normalização são aplicadas automaticamente às transcrições:
- Use letras minúsculas.
- Remova toda a pontuação, exceto apóstrofos dentro das palavras.
- Expanda números em palavras/forma falada, como valores em dólares.
Aqui estão alguns exemplos de normalização realizada automaticamente na transcrição:
Original text | Texto após normalização (automático) |
---|---|
"Vaca santa!", disse Batman. | vaca sagrada disse batman |
"O quê?", disse o ajudante de Batman, Robin. | O que disse o ajudante de Batman Robin |
Vá buscar -em! | ir buscar em |
Eu sou duplamente articulado | Sou duplamente articulado |
Rua Elm, 104 | um oh quatro Elm rua |
Sintonize o 102.7 | sintonize um oh dois pontos sete |
Pi é cerca de 3,14 | pi é cerca de três vírgula um quatro |
de-DE
As transcrições rotuladas por humanos para áudio alemão devem ser codificadas em UTF-8 com um marcador de ordem de bytes.
Normalização de texto para alemão
A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente, no entanto, recomendamos o uso destas diretrizes ao preparar seus dados de transcrição rotulados por humanos:
- Escreva pontos decimais como "," e não ".".
- Escreva separadores de tempo como ":" e não "." (por exemplo: 12:00 Uhr).
- Abreviaturas como "ca." não são substituídas. Recomendamos que utilize o formulário oral completo.
- Os quatro principais operadores matemáticos (+, -, * e /) são removidos. Recomendamos substituí-los pela forma escrita: "mais", "menos", "mal" e "geteilt".
- Os operadores de comparação são removidos (=, <e >). Recomendamos substituí-los por "gleich", "kleiner als" e "grösser als".
- Escreva frações, como 3/4, na forma escrita (por exemplo: "drei viertel" em vez de 3/4).
- Substitua o símbolo "€" pela forma escrita "Euro".
Aqui estão alguns exemplos de normalização que você deve executar na transcrição:
Original text | Texto após normalização do usuário | Texto após a normalização do sistema |
---|---|---|
Es ist 12,23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | Zwölf komma vier fünf |
2 + 3 - 4 | 2 mais 3 menos 4 | zwei mais drei menos vier |
As seguintes regras de normalização são aplicadas automaticamente às transcrições:
- Use letras minúsculas para todo o texto.
- Remova toda a pontuação, incluindo vários tipos de aspas ("teste", 'teste', "teste" e «teste» estão OK).
- Descarte linhas com quaisquer caracteres especiais deste conjunto: ¢ ¢ ¥ ¦ § © ª ¬ ® ° ± ² μ × ÿ ج¬.
- Expanda os números para a forma falada, incluindo valores em dólares ou euros.
- Aceite elogios apenas por um, o e você. Outros são substituídos por "th" ou descartados.
Aqui estão alguns exemplos de normalização realizada automaticamente na transcrição:
Original text | Texto após normalização |
---|---|
Anel Frankfurter | Anel Frankfurter |
¡Eine Frage! | Eine Frage |
Wir, haben | Wir Haben |
ja-JP
Em japonês (ja-JP), há um comprimento máximo de 90 caracteres para cada frase. Linhas com frases mais longas são descartadas. Para adicionar texto mais longo, insira um ponto intermediário.
zh-CN
As transcrições rotuladas por humanos para áudio em chinês mandarim devem ser codificadas em UTF-8 com um marcador de ordem de bytes. Evite o uso de caracteres de pontuação de meia largura. Esses caracteres podem ser incluídos inadvertidamente quando você prepara os dados em um programa de processamento de texto ou raspa dados de páginas da Web. Se esses caracteres estiverem presentes, atualize-os com a substituição de largura total apropriada.
Eis alguns exemplos:
Personagens a evitar | Substituição | Notas |
---|---|---|
"你好" | "你好" | As aspas de abertura e fechamento são substituídas por caracteres apropriados. |
需要什么帮助? | 需要什么帮助? | O ponto de interrogação é substituído pelo caractere apropriado. |
Normalização de texto para chinês mandarim
A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente, no entanto, recomendamos o uso destas diretrizes ao preparar seus dados de transcrição rotulados por humanos:
- Escreva abreviaturas em palavras.
- Escreva cadeias numéricas na forma falada.
Aqui estão alguns exemplos de normalização que você deve executar na transcrição:
Original text | Texto após normalização |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
As seguintes regras de normalização são aplicadas automaticamente às transcrições:
- Remova toda a pontuação.
- Expanda os números para a forma falada.
- Converta letras de largura total em letras de meia largura.
- Usando letras maiúsculas para todas as palavras em inglês.
Aqui estão alguns exemplos de normalização automática da transcrição:
Original text | Texto após normalização |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3,5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |