Integrar e utilizar o reconhecimento e transcrição de voz

2 minutos

O serviço de Fala é a unificação de conversão de fala em texto, texto em fala e tradução de fala numa única subscrição do Azure. É fácil ativar o reconhecimento de voz nos seus aplicativos, ferramentas e dispositivos com as APIs Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio ou APIs REST.

Reconhecimento de fala

O serviço de reconhecimento de alto-falantes fornece algoritmos que verificam e identificam os alto-falantes por suas características únicas de voz usando a biometria de voz. É usado para responder à pergunta "quem está falando?" Primeiro, você fornece dados de treinamento de áudio para um único alto-falante, o que cria um perfil de inscrição com base nas características exclusivas da voz do orador. Em seguida, você pode cruzar amostras de voz de áudio com esse perfil para verificar se o alto-falante é a mesma pessoa (verificação de alto-falante) ou pode cruzar amostras de voz de áudio com um grupo de perfis de alto-falante inscritos para ver se ele corresponde a algum perfil no grupo (identificação do alto-falante). Em contraste, a Diarização de alto-falantes usa uma operação em lote para agrupar fluxos de áudio por identidade de alto-falante, o que significa que alto-falantes diferentes teriam seus próprios segmentos de áudio.

Transcrição

A transcrição é um conjunto de operações da API REST que permite transcrever áudio no armazenamento. Você pode apontar para arquivos de áudio com um URI de assinatura de acesso compartilhado (SAS) e receber resultados de transcrição de forma assíncrona.

Comandos de fala MRTK

Como a Entrada de Fala do Windows, os provedores de entrada de fala não criam controladores, mas permitem que você defina palavras-chave que aumentarão os eventos de entrada de fala quando reconhecidos. Você configurará as palavras-chave para reconhecimento no Perfil de Comandos de Fala no Perfil do Sistema de Entrada. Para cada comando, você também pode:

Selecione uma ação de entrada para mapear ao comando. Dessa forma, você pode, por exemplo, fazer com que a Seleção de Palavras-chave tenha o mesmo efeito que um clique esquerdo do mouse, mapeando ambas para a mesma ação.
Especifique um código de tecla que produza o mesmo evento de fala ao ser pressionado.
Adicione uma chave de localização usada em aplicativos UWP para obter a palavra-chave localizada dos recursos do aplicativo.

SDK de fala

O SDK (Software Development Kit, kit de desenvolvimento de software) de fala expõe muitos recursos de serviço de fala para capacitá-lo a desenvolver aplicativos habilitados para fala. O Speech SDK está disponível em muitas linguagens de programação e em todas as plataformas. O SDK de Fala expõe muitos recursos (embora não todos) do serviço de Fala. Os recursos do SDK de fala são frequentemente associados a cenários. O SDK de Fala é ideal para cenários em tempo real e em tempo não real, usando dispositivos locais, arquivos, armazenamento de blobs na Azure e até mesmo fluxos de entrada e saída. Quando um cenário não for possível com o SDK de fala, procure uma alternativa de API REST.

Perceção espacial

A perceção espacial fornece acesso programático a dados de mapeamento espacial, fornecendo aos aplicativos de realidade mista informações sobre superfícies em regiões do espaço especificadas pelo aplicativo perto do usuário. Declare o recurso de perceção espacial somente quando seu aplicativo usar explicitamente essas malhas de superfície. O recurso não é necessário para aplicativos de realidade mista executarem renderização holográfica com base na pose da cabeça do usuário.

Servidor cliente Internet

O servidor cliente da Internet permite cenários peer-to-peer (P2P) em que o aplicativo precisa escutar as conexões de rede de entrada.

Servidor cliente de rede privada

O servidor cliente de rede privada fornece acesso de entrada e saída a redes domésticas e de trabalho através do firewall. Esta funcionalidade é normalmente utilizada para jogos que comunicam através da rede local (LAN) e para aplicações que partilham dados entre vários dispositivos locais.