O que há de novo no Azure AI Speech?
O Azure AI Speech é atualizado continuamente. Para se manter atualizado com os desenvolvimentos recentes, este artigo fornece informações sobre novas versões e recursos.
Destaques recentes
- A transcrição rápida está agora geralmente disponível. Ele pode transcrever áudio muito mais rápido do que a duração real do áudio. Para obter mais informações, consulte o guia da API de transcrição rápida.
- A extensão do Kit de Ferramentas de Fala do Azure AI agora está disponível para usuários do Visual Studio Code. Ele contém uma lista de fala de inícios rápidos e exemplos de cenários que podem ser facilmente criados e executados com cliques simples. Para obter mais informações, consulte Azure AI Speech Toolkit no Visual Studio Code Marketplace.
- As vozes de alta definição (HD) de fala da IA do Azure estão disponíveis na pré-visualização pública. As vozes HD podem compreender o conteúdo, detetar automaticamente emoções no texto de entrada e ajustar o tom de fala em tempo real para corresponder ao sentimento. Para obter mais informações, consulte O que são vozes de alta definição (HD) do Azure AI Speech?.
- A tradução de vídeo está agora disponível no serviço Azure AI Speech. Para obter mais informações, consulte O que é tradução de vídeo?.
- O serviço Azure AI Speech dá suporte a vozes de texto para fala do OpenAI. Para obter mais informações, consulte O que são vozes de texto para fala do OpenAI?.
- A API de voz personalizada está disponível para criar e gerenciar modelos de voz neural personalizados profissionais e pessoais .
Notas de versão
Escolha um serviço ou recurso
Speech SDK 1.42.0: versão de 2024 a dezembro
Novas funcionalidades
- Java: Adicionadas APIs de log de diagnóstico usando classes de FileLogger, MemoryLogger, EventLogger e SpxTrace.
- Suporte ao envio de "detalhes" da propriedade JSON do participante da reunião para o serviço
- Go: Adicionado ID de propriedade pública SpeechServiceConnection_ProxyHostBypass para especificar hosts para os quais o proxy não é usado.
- JavaScript, Go: Adicionado Speech_SegmentationStrategy de id de propriedade pública para determinar quando uma frase falada terminou e um resultado final reconhecido deve ser gerado (incluindo segmentação semântica)
- JavaScript, Go: Adicionado id de propriedade pública Speech_SegmentationMaximumTimeMs determinar o fim de uma frase falada com base no tempo em Java, Python, C#, C++
Correções de erros
- Voz TTS incorporada fixa (re)carregada para cada síntese se o nome da voz não estiver definido.
- Corrigidos problemas de cálculo de deslocamento ao usar o MeetingTranscriber em alguns cenários.
- Corrigido o possível impasse ao registrar vários ouvintes de eventos de diagnóstico em paralelo.
- (JavaScript) Corrigidos possíveis resultados NoMatch perdidos quando no final do áudio. Essa correção também alinha o comportamento no final da fala com os outros idiomas do SDK e pode resultar em alguns eventos vazios que não estão mais sendo gerados.
- (JavaScript) Corrigir deslocamentos no JSON de resultado para alinhar com o deslocamento em objetos de resultado. Anteriormente, apenas a propriedade offset do objeto de resultado era fixada para levar em conta as reconexões de serviço.
- Idioma Go: Corrigido um erro de compilação https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
- Compensações de resultado fixas na transcrição da reunião quando ocorre uma reconexão com o serviço.
- Corrigido um impasse no registro.
Exemplos
- Exemplos de C# atualizados para usar o .NET 8.0.
- Exemplo de Java usa API de log de diagnóstico mostrando o uso das novas classes de log de diagnóstico.
Versão de 2024-novembro
Extensão do Azure AI Speech Toolkit para Visual Studio Code
A extensão do Kit de Ferramentas de Fala do Azure AI agora está disponível para usuários do Visual Studio Code. Ele contém uma lista de fala de inícios rápidos e exemplos de cenários que podem ser facilmente criados e executados com cliques simples. Para obter mais informações, consulte Azure AI Speech Toolkit no Visual Studio Code Marketplace.
Exemplos de código de avatar de texto para fala
Adicionámos exemplos de código de avatar de texto a voz para Android e iOS. Esses exemplos demonstram como usar avatares de texto para fala em tempo real em seus aplicativos móveis.
Speech SDK 1.41.1: versão de outubro de 2024
Novos recursos
- Adicionado suporte para Amazon Linux 2023 e Azure Linux 3.0.
- Adicionado ID de propriedade pública SpeechServiceConnection_ProxyHostBypass para especificar hosts para os quais o proxy não é usado.
- Adicionadas propriedades para controlar novas estratégias de segmentação de frases.
Correções de Erros
- Corrigido suporte incompleto para reconhecimento de palavras-chave Modelos avançados produzidos após agosto de 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Observe que, com o Swift no iOS, seu projeto deve usar o MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (de https://aka.ms/csspeech/iosbinaryembedded) ou o pod MicrosoftCognitiveServicesSpeechEmbedded-iOS que incluem o suporte ao modelo Avançado.
- Corrigido um vazamento de memória em C# relacionado ao uso de cadeia de caracteres.
- Corrigido não ser possível obter SPXAutoDetectSourceLanguageResult de SPXConversationTranscriptionResult em Objective-C e Swift.
- Corrigido um erro ocasional ao usar o Microsoft Audio Stack em reconhecimento.
- Corrigidas dicas de tipo em Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Corrigido não ser possível buscar a lista de vozes TTS ao usar um ponto de extremidade personalizado.
- Corrigido TTS incorporado reinicializando para cada solicitação de fala quando a voz é especificada por um nome curto.
- Corrigida a documentação de referência da API para a duração máxima do áudio RecognizeOnce.
- Corrigido erro ao lidar com taxas de amostragem arbitrárias em JavaScript
- Obrigado a rseanhall por esta contribuição.
- Corrigido erro ao calcular o deslocamento de áudio em JavaScript
- Obrigado à motamed por esta contribuição.
Alterações Interruptivas
- O suporte ao reconhecimento de palavras-chave no Windows ARM de 32 bits foi removido devido ao tempo de execução ONNX necessário não estar disponível para esta plataforma.
Speech SDK 1.40: versão de 2024 a agosto
Nota
O Speech SDK versão 1.39.0 foi uma versão interna e não está faltando.
Novas funcionalidades
- Adicionado suporte para streaming de áudio comprimido no reconhecimento de
G.722
voz. - Adicionado suporte para ajuste de tom, taxa e volume no streaming de texto de entrada em síntese de fala.
- Adicionado suporte para streaming de texto de entrada de voz pessoal através da introdução
PersonalVoiceSynthesisRequest
na síntese de fala. Esta API está em pré-visualização e sujeita a alterações em versões futuras. - Adicionado suporte para diarização de resultados intermediários quando
ConversationTranscriber
é usado. - Removido o suporte ao CentOS/RHEL 7 devido ao CentOS 7 EOL e ao fim do RHEL 7 Maintenance Support 2.
- O uso de modelos de fala incorporados agora requer uma licença de modelo em vez de uma chave de modelo. Se você já é um cliente de fala incorporado e deseja atualizar, entre em contato com sua pessoa de suporte na Microsoft para obter detalhes sobre atualizações de modelo.
Correções de erros
- Binários do SDK de Fala criados para Windows com o sinalizador _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR como atenuação para o problema de tempo de execução do Visual C++ Violação de acesso com std::mutex::lock após a atualização para o VS 2022 versão 17.10.0 - Comunidade de desenvolvedores (visualstudio.com). Os aplicativos Windows C++ que usam o SDK de Fala podem precisar aplicar o mesmo sinalizador de configuração de compilação se seu código usar std::mutex (consulte os detalhes no problema vinculado).
- Corrigida deteção OpenSSL 3.x não funciona no Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Corrigido o problema de que, ao implantar um aplicativo UWP, bibliotecas e modelo do pacote NuGet do MAS, não eram copiados para o local de implantação.
- Corrigido um conflito de provedor de conteúdo em pacotes Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Opções de pós-processamento fixas que não se aplicam a resultados intermediários de reconhecimento de fala.
- Corrigido o aviso do .NET 8 sobre identificadores de tempo de execução específicos da distribuição (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Exemplos
- Exemplos de fala incorporados atualizados para usar uma licença de modelo em vez de uma chave.
Speech SDK 1.38.0: versão de 2024 a junho
Novas funcionalidades
- Atualizar os requisitos da plataforma Linux do Speech SDK:
- A nova linha de base mínima é Ubuntu 20.04 LTS ou compatível com
glibc
2.31 ou mais recente. - Os binários para Linux x86 são removidos de acordo com o suporte à plataforma Ubuntu 20.04.
- Observe que o RHEL/CentOS 7 permanece suportado até 30 de junho (o fim do CentOS 7 e o fim do RHEL 7 Maintenance Support 2). Os binários para eles serão removidos na versão 1.39.0 do Speech SDK.
- A nova linha de base mínima é Ubuntu 20.04 LTS ou compatível com
- Adicione suporte para OpenSSL 3 no Linux.
- Adicione suporte para o formato de saída de áudio g722-16khz-64kbps com sintetizador de voz.
- Adicione suporte para enviar mensagens através de um objeto de conexão com sintetizador de voz.
- Adicione APIs Start/StopKeywordRecognition em Objective-C e Swift.
- Adicione API para selecionar uma categoria de modelo de tradução personalizada.
- Atualize o uso do GStreamer com sintetizador de voz.
Correções de erros
- Corrija o erro "O tamanho da mensagem Websocket não pode exceder 65.536 bytes" durante Start/StopKeywordRecognition.
- Corrija uma falha de segmentação Python durante a síntese de fala.
Exemplos
- Atualize exemplos de C# para usar o .NET 6.0 por padrão.
SDK de fala 1.37.0: versão de abril de 2024
Novas funcionalidades
- Adicione suporte para streaming de texto de entrada na síntese de fala.
- Altere a voz de síntese de fala padrão para en-US-AvaMultilingualNeural.
- Atualize as compilações do Android para usar o OpenSSL 3.x.
Correções de erros
- Corrija falhas ocasionais da JVM durante o descarte do SpeechRecognizer ao usar o MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Melhore a deteção de dispositivos de áudio padrão no Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Exemplos
- Atualizado para novos recursos.
Speech SDK 1.36.0: versão de março de 2024
Novas funcionalidades
- Adicione suporte para identificação de idioma em tradução multilíngue em pontos de extremidade v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().
Correções de erros
Corrija o evento SynthesisCanceled não acionado se parar for chamado durante o evento SynthesisStarted.
Corrija um problema de ruído na síntese de fala incorporada.
Corrija uma falha no reconhecimento de fala incorporado ao executar vários reconhecedores em paralelo.
Corrija a configuração do modo de deteção de frase nos pontos de extremidade v1/v2.
Correções para vários problemas com o Microsoft Audio Stack.
Exemplos
- Atualizações para novos recursos.
Speech SDK 1.35.0: versão de fevereiro de 2024
Novas funcionalidades
- Altere o texto padrão para voz de fala de en-US-JennyMultilingualNeural para en-US-AvaNeural.
- Suporta detalhes em nível de palavra em resultados de tradução de fala incorporados usando o formato de saída detalhado.
Correções de erros
- Corrija a API getter de posição AudioDataStream em Python.
- Corrija a tradução de fala usando pontos de extremidade v2 sem deteção de idioma.
- Corrija uma falha aleatória e duplique eventos de limite de palavras em texto incorporado para fala.
- Retornar um código de erro de cancelamento correto para um erro interno do servidor em conexões WebSocket.
- Corrija a falha ao carregar FPIEProcessor.dll biblioteca quando o MAS é usado com C#.
Exemplos
- Pequenas atualizações de formatação para exemplos de reconhecimento incorporado.
Speech SDK 1.34.1: versão de janeiro de 2024
Alterações interruptivas
- Apenas correções de bugs
Novas funcionalidades
- Apenas correções de bugs
Correções de erros
- Corrija a regressão introduzida na versão 1.34.0, onde a url do ponto de extremidade do serviço foi construída com informações de localidade incorretas para usuários em várias regiões da China.
Speech SDK 1.34.0: versão de novembro de 2023
Alterações interruptivas
SpeechRecognizer
é atualizado para usar um novo ponto de extremidade por padrão (ou seja, quando não especifica explicitamente uma URL) que não suporta mais parâmetros de cadeia de caracteres de consulta para a maioria das propriedades. Em vez de definir parâmetros de cadeia de caracteres de consulta diretamente com ServicePropertyChannel.UriQueryParameter, use as funções de API correspondentes.
Novas funcionalidades
- Compatibilidade com .NET 8 (Correção para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 exceto para aviso sobre centos7-x64)
- Suporte para métricas de desempenho de fala incorporadas que podem ser usadas para avaliar a capacidade de um dispositivo executar fala incorporada.
- Suporte para identificação da língua de partida em tradução multilingue incorporada.
- Suporte para conversão de fala para texto, texto para fala e tradução para iOS e Swift/Objective-C lançado em visualização.
- O suporte incorporado é fornecido no MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Correções de erros
- Correção para iOS SDK x2 vezes o crescimento do tamanho binário · Edição #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correção para Não é possível obter carimbos de data/hora no nível de palavra da API de fala para texto do Azure · Edição #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correção para a fase de destruição do DialogServiceConnector para desconectar eventos corretamente. Isso estava causando acidentes ocasionalmente.
- Correção para exceção durante a criação de um reconhecedor quando o MAS é usado.
- FPIEProcessor.dll do pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 e Arm64 dependia de bibliotecas de tempo de execução VC para C++ nativo. O problema foi corrigido atualizando a dependência para corrigir bibliotecas de tempo de execução do VC (para UWP).
- Correção para [MAS] Chamadas recorrentes para reconhecer OnceAsync levam a SPXERR_ALREADY_INITIALIZED ao usar o MAS · Edição #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correção para falha de reconhecimento de fala incorporada quando listas de frases são usadas.
Exemplos
- Exemplos iOS incorporados para conversão de voz em texto, texto em fala e tradução.
CLI de fala 1.34.0: versão de novembro de 2023
Novas funcionalidades
- Ofereça suporte à saída de eventos de limite de palavras ao sintetizar fala.
Correções de erros
- Dependência JMESPath atualizada para a versão mais recente, melhora as avaliações de cadeia de caracteres
Speech SDK 1.33.0: versão de outubro de 2023
Aviso de alteração de quebra
- O novo pacote NuGet adicionado para o Microsoft Audio Stack (MAS) agora precisa ser incluído por aplicativos que estão usando o MAS em seus arquivos de configuração de pacote.
Novas funcionalidades
- Adicionado o novo pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que oferece melhor desempenho de cancelamento de eco ao usar o Microsoft Audio Stack
- Avaliação de Pronúncia: suporte adicional para avaliação de prosódia e conteúdo, que pode avaliar a fala falada em termos de prosódia, vocabulário, gramática e tópico.
Correções de erros
- Corrigidos os deslocamentos de resultados de reconhecimento de palavras-chave para que correspondam corretamente ao fluxo de áudio de entrada desde o início. A correção se aplica ao reconhecimento de palavra-chave autônomo e ao reconhecimento de fala acionado por palavra-chave.
- Fixed Synthesizer stopSpeaking não retorna imediatamente SPXSpeechSynthesizer stopSpeaking() método não pode retornar imediatamente no iOS 17 - Problema #2081
- Corrigido o problema de importação do catalisador do Mac no módulo Swift Suporte para catalisador mac com silício da maçã. Edição #1948
- JS: As cargas do módulo AudioWorkletNode agora usam uma URL confiável, com fallback para o navegador CDN incluído.
- JS: Os arquivos lib compactados agora têm como alvo o ES6 JS, com o suporte para ES5 JS removido.
- JS: os eventos intermediários para o ponto de extremidade v2 do cenário de conversão são manipulados corretamente
- JS: A propriedade language para TranslationRecognitionEventArgs agora está definida para eventos translation.hypothese.
- Síntese de fala: O evento SynthesisCompleted é garantido para ser emitido após todos os eventos de metadados, para que possa ser usado para indicar o final dos eventos. Como detetar quando os visemes são recebidos completamente? Problema #2093 Azure-Samples/cognitive-services-speech-sdk
Exemplos
- Exemplo adicionado para demonstrar o streaming MULAW usando Python)
- Correção para exemplo de NAudio de fala para texto
CLI de fala 1.33.0: versão de outubro de 2023
Novas funcionalidades
- Ofereça suporte à saída de eventos de limite de palavras ao sintetizar fala.
Correções de erros
- nenhum
Speech SDK 1.32.1: versão de setembro de 2023
Correções de erros
- Atualizações de pacotes Android com as últimas correções de segurança do OpenSSL1.1.1v
- JS – Propriedade WebWorkerLoadType adicionada para permitir o desvio da carga de URL de dados para o trabalhador de tempo limite
- JS – Corrigir a desconexão da tradução da conversação após 10 minutos
- JS – O token de autenticação de tradução de conversação do Conversation agora se propaga para a conexão do serviço de tradução
Exemplos
Speech SDK 1.31.0: versão de agosto de 2023
Novos recursos
O suporte para diarização em tempo real está disponível em pré-visualização pública com o Speech SDK 1.31.0. Esse recurso está disponível nos seguintes SDKs: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
Síntese de fala sincronizada, limite de palavras e eventos viseme com reprodução de áudio
Alterações interruptivas
- O antigo cenário de "transcrição de conversa" é renomeado para "transcrição de reunião". Por exemplo, use
MeetingTranscriber
em vez deConversationTranscriber
, e useCreateMeetingAsync
em vez deCreateConversationAsync
. Embora os nomes dos objetos e métodos do SDK tenham sido alterados, a renomeação não altera o recurso em si. Use objetos de transcrição de reunião para transcrição de reuniões com perfis de usuário e assinaturas de voz. Consulte Transcrição da reunião para obter mais informações. Os objetos e métodos de "tradução de conversa" não são afetados por essas alterações. Você ainda pode usar oConversationTranslator
objeto e seus métodos para atender cenários de tradução.
- Para diarização em tempo real, um novo
ConversationTranscriber
objeto é introduzido. O novo modelo de objeto de "transcrição de conversa" e os padrões de chamada são semelhantes ao reconhecimento contínuo com oSpeechRecognizer
objeto. Uma diferença fundamental é que oConversationTranscriber
objeto é projetado para ser usado em um cenário de conversação onde você deseja diferenciar vários falantes (diarização). Perfis de usuário e assinaturas de voz não são aplicáveis. Consulte o guia de início rápido de diarização em tempo real para obter mais informações.
Esta tabela mostra os nomes de objetos anteriores e novos para diarização em tempo real e transcrição de reuniões. O nome do cenário está na primeira coluna, os nomes de objeto anteriores estão na segunda coluna e os novos nomes de objeto estão na terceira coluna.
Nome do cenário | Nomes de objetos anteriores | Novos nomes de objetos |
---|---|---|
Diarização em tempo real | N/A | ConversationTranscriber |
Transcrição da reunião | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 O Participant
, ParticipantChangedReason
e os User
objetos são aplicáveis tanto à transcrição da reunião quanto aos cenários de tradução da reunião.
2 O Meeting
objeto é novo e é usado com o MeetingTranscriber
objeto.
Correções de erros
- Versão mínima suportada do macOS corrigida https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Corrigido bug de avaliação de pronúncia:
- Foi resolvido o problema das pontuações de precisão do fonema, garantindo que agora refletem com precisão apenas o fonema específico mal pronunciado. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Resolvido um problema em que o recurso Avaliação de Pronúncia identificava incorretamente pronúncias totalmente corretas como errôneas, particularmente em situações em que as palavras podiam ter várias pronúncias válidas. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Exemplos
CSharp
JavaScript
Speech SDK 1.30.0: versão de julho de 2023
Novos recursos
- C++, C#, Java - Adicionado suporte para
DisplayWords
o resultado detalhado do Embedded Speech Recognition. - Objective-C/Swift - Adicionado suporte para
ConnectionMessageReceived
evento em Objective-C/Swift. - Objective-C/Swift - Modelos melhorados de deteção de palavras-chave para iOS. Essa alteração aumentou o tamanho de certos pacotes, que contêm binários do iOS (como NuGet, XCFramework). Estamos trabalhando para reduzir o tamanho para lançamentos futuros.
Correções de erros
- Corrigido um vazamento de memória ao usar o reconhecedor de fala com PhraseListGrammar, conforme relatado por um cliente (problema do GitHub).
- Corrigido um impasse na API de conexão aberta de texto para fala.
Mais notas
- Java - Alguns métodos de API Java usados
public
internamente foram alterados para pacoteinternal
,protected
ouprivate
. Essa alteração não deve ter um efeito sobre os desenvolvedores, pois não esperamos que os aplicativos os utilizem. Notado aqui pela transparência.
Exemplos
- Novos exemplos de Avaliação de Pronúncia sobre como especificar um idioma de aprendizagem em seu próprio aplicativo
Speech SDK 1.29.0: versão de junho de 2023
Novos recursos
- C++, C#, Java - Pré-visualização de APIs de tradução de voz incorporadas. Agora você pode fazer tradução de fala sem conexão com a nuvem!
- JavaScript - Continuous Language Identification (LID) agora ativado para tradução de fala.
- JavaScript - Contribuição da comunidade para adicionar
LocaleName
propriedade àVoiceInfo
classe. Obrigado usuário do GitHub shivsarthak pela solicitação pull. - C++, C#, Java - Adicionado suporte para reamostragem de texto incorporado para saída de fala de 16 kHz a 48 kHz.
- Adicionado suporte para
hi-IN
localidade no Intent Recognizer com Simple Pattern Matching.
Correções de erros
- Corrigido um acidente causado por uma condição de corrida no Reconhecimento de Fala durante a destruição de objetos, como visto em alguns de nossos testes do Android
- Corrigidos possíveis impasses no Reconhecedor de Intenção com o Simple Pattern Matcher
Exemplos
- Novos exemplos de tradução de fala incorporada
Speech SDK 1.28.0: versão de maio de 2023
Quebrando a mudança
- JavaScript SDK: Online Certificate Status Protocol (OCSP) foi removido. Isso permite que os clientes estejam em melhor conformidade com os padrões do navegador e do nó para o tratamento de certificados. A versão 1.28 e posteriores não incluirá mais nosso módulo OCSP personalizado.
Novos recursos
- O Reconhecimento de Fala incorporado agora retorna
NoMatchReason::EndSilenceTimeout
quando ocorre um tempo limite de silêncio no final de uma declaração. Isso corresponde ao comportamento ao fazer o reconhecimento usando o serviço de fala em tempo real. - JavaScript SDK: defina propriedades ao
SpeechTranslationConfig
usarPropertyId
valores enum.
Correções de erros
- C# no Windows - Corrija a condição de corrida potencial / deadlock na extensão de áudio do Windows. Em cenários que descartam o renderizador de áudio rapidamente e também usam o método Synthesizer para parar de falar, o evento subjacente não foi redefinido por parada e pode fazer com que o objeto do renderizador nunca seja descartado, enquanto ele pode estar segurando um bloqueio global para eliminação, congelando o thread GC dotnet.
Exemplos
- Adicionado um exemplo de fala incorporado para MAUI.
- Atualizado o exemplo de fala incorporada para Android Java para incluir conversão de texto em fala.
Speech SDK 1.27.0: versão de abril de 2023
Notificação sobre alterações futuras
- Planejamos remover o OCSP (Online Certificate Status Protocol) na próxima versão do JavaScript SDK. Isso permite que os clientes estejam em melhor conformidade com os padrões do navegador e do nó para o tratamento de certificados. A versão 1.27 é a última versão que inclui nosso módulo OCSP personalizado.
Novos recursos
- JavaScript – Adicionado suporte para entrada de microfone a partir do navegador com identificação e verificação de alto-falante.
- Reconhecimento de Fala Incorporado - Suporte de atualização para
PropertyId::Speech_SegmentationSilenceTimeoutMs
configuração.
Correções de erros
- Geral - Atualizações de confiabilidade na lógica de reconexão de serviço (todas as linguagens de programação, exceto JavaScript).
- Geral - Corrija conversões de string que vazam memória no Windows (todas as linguagens de programação relevantes, exceto JavaScript).
- Reconhecimento de Fala Incorporado - Corrija falhas no Reconhecimento de Fala em Francês ao usar determinadas entradas da lista gramatical.
- Documentação do código-fonte - Correções nos comentários da documentação de referência do SDK relacionados ao registro de áudio no serviço.
- Reconhecimento de intenção - Corrigir prioridades do Pattern Matcher relacionadas a entidades de lista.
Exemplos
- Manipule corretamente a falha de autenticação no exemplo CTS (Conversation Transcription) em C#.
- Adicionado exemplo de avaliação de pronúncia de streaming para Python, JavaScript, Objective-C e Swift.
Speech SDK 1.26.0: versão de março de 2023
Alterações interruptivas
- O Bitcode foi desativado em todos os destinos iOS nos seguintes pacotes: Cocoapod com xcframework, NuGet (para Xamarin e MAUI) e Unity. A mudança deve-se à descontinuação do suporte a bitcode da Apple a partir do Xcode 14. Essa alteração também significa que, se você estiver usando a versão do Xcode 13 ou tiver ativado explicitamente o código de bits em seu aplicativo usando o SDK de fala, poderá encontrar um erro dizendo "framework doesn't contain bitcode and you must rebuild it". Para resolver esse problema, certifique-se de que seus destinos têm bitcode desativado.
- O destino mínimo de implantação do iOS é atualizado para 11.0 nesta versão, o que significa que o armv7 HW não é mais suportado.
Novas funcionalidades
- O Reconhecimento de Voz incorporado (no dispositivo) suporta agora áudio de entrada com taxa de amostragem de 8 e 16 kHz (16 bits por amostra, PCM mono).
- O Speech Synthesis agora relata latências de conexão, rede e serviço no resultado para ajudar na otimização de latência de ponta a ponta.
- Novas regras de desempate para reconhecimento de intenção com correspondência de padrões simples. Quanto mais bytes de caracteres forem correspondidos, vencerá as correspondências de padrão com menor contagem de bytes de caracteres. Exemplo: O padrão "Select {something} in the top right" vencerá "Select {something}"
Correções de erros
- Síntese de fala: corrija um bug em que o emoji não está correto em eventos de limite de palavras.
- Reconhecimento de intenção com compreensão de linguagem conversacional (CLU):
- As intenções do fluxo de trabalho do CLU Orchestrator agora aparecem corretamente.
- O resultado JSON agora está disponível através do ID
LanguageUnderstandingServiceResponse_JsonResult
da propriedade.
- Reconhecimento de fala com ativação de palavra-chave: Correção para áudio ausente ~ 150 ms após um reconhecimento de palavra-chave.
- Correção para o Speech SDK NuGet iOS MAUI Release build, relatado pelo cliente (problema do GitHub)
Exemplos
- Correção para amostra do Swift iOS, relatada pelo cliente (problema do GitHub)
Speech SDK 1.25.0: versão de janeiro de 2023
Alterações interruptivas
- As APIs de identificação de idioma (visualização) foram simplificadas. Se você atualizar para o Speech SDK 1.25 e vir uma quebra de compilação, visite a página Identificação de idioma para saber mais sobre a nova propriedade
SpeechServiceConnection_LanguageIdMode
. Esta única propriedade substitui as duas anterioresSpeechServiceConnection_SingleLanguageIdPriority
eSpeechServiceConnection_ContinuousLanguageIdPriority
. A priorização entre baixa latência e alta precisão não é mais necessária após as recentes melhorias do modelo. Agora, você só precisa selecionar se deseja executar a Identificação de Idioma inicial ou contínua ao fazer reconhecimento de fala contínuo ou tradução.
Novas funcionalidades
- C#/C++/Java: o SDK de Fala Incorporado agora é lançado em visualização pública fechada. Consulte a documentação de Fala incorporada (visualização). Agora você pode fazer fala para texto no dispositivo e texto para fala quando a conectividade na nuvem é intermitente ou indisponível. Compatível com plataformas Android, Linux, macOS e Windows
- MAUI em C#: Suporte adicionado para destinos iOS e Mac Catalyst no Speech SDK NuGet (problema do cliente)
- Unity: arquitetura x86_64 Android adicionada ao pacote Unity (problema do cliente)
- Vai:
- Suporte de streaming direto ALAW/MULAW adicionado para reconhecimento de fala (problema do cliente)
- Adicionado suporte para PhraseListGrammar. Obrigado usuário do GitHub czkoko pela contribuição da comunidade!
- C#/C++: O Intent Recognizer agora oferece suporte a modelos de Compreensão de Linguagem Conversacional em C++ e C# com orquestração no serviço da Microsoft
Correções de erros
- Corrigir um bloqueio ocasional no KeywordRecognizer ao tentar pará-lo
- Píton:
- Correção para obter resultados da Avaliação de Pronúncia quando
PronunciationAssessmentGranularity.FullText
definido (problema do cliente) - Correção para a propriedade de gênero para vozes masculinas que não estão sendo recuperadas, ao obter vozes de síntese de fala
- Correção para obter resultados da Avaliação de Pronúncia quando
- JavaScript
- Correção para analisar alguns arquivos WAV que foram gravados em dispositivos iOS (problema do cliente)
- O JS SDK agora é compilado sem usar npm-force-resolutions (problema do cliente)
- O Conversor de Conversação agora define corretamente o ponto de extremidade do serviço ao usar uma instância speechConfig criada usando SpeechConfig.fromEndpoint()
Exemplos
Exemplos adicionados mostrando como usar a Fala Incorporada
Adicionado exemplo de fala ao texto para MAUI
Consulte Repositório de exemplos do SDK de fala.
Speech SDK 1.24.2: versão de novembro de 2022
Novas funcionalidades
- Sem novos recursos, apenas uma correção de mecanismo incorporado para suportar novos arquivos de modelo.
Correções de erros
- Todas as linguagens de programação
- Corrigido um problema com a encriptação de modelos de reconhecimento de voz incorporados.
Speech SDK 1.24.1: versão de novembro de 2022
Novas funcionalidades
- Pacotes publicados para a visualização de fala incorporada. Consulte https://aka.ms/embedded-speech para obter mais informações.
Correções de erros
- Todas as linguagens de programação
- Corrigir falha de TTS incorporado quando a fonte de voz não é suportada
- Fix stopSpeaking() não pode parar a reprodução no Linux (#1686)
- SDK JavaScript
- Regressão fixa na forma como a conversação transcreve áudio fechado.
- Java
- Arquivos POM e Javadocs atualizados publicados temporariamente no Maven Central para permitir que o pipeline de documentos atualize documentos de referência on-line.
- Python
- Corrija a regressão onde Python speak_text(ssml) retorna void.
Speech SDK 1.24.0: versão de outubro de 2022
Novas funcionalidades
- Todos os idiomas de programação: AMR-WB (16khz) adicionado à lista suportada de formatos de saída de áudio de texto para fala
- Python: Pacote adicionado para Linux Arm64 para distribuições Linux suportadas.
- C#/C++/Java/Python: Suporte adicionado para ALAW & MULAW streaming direto para o serviço de fala (além do fluxo PCM existente) usando
AudioStreamWaveFormat
. - MAUI em C#: pacote NuGet atualizado para oferecer suporte a destinos Android para desenvolvedores .NET MAUI (problema do cliente)
- Mac: Adicionado XCframework separado para Mac, que não contém binários do iOS. Isso oferece uma opção para desenvolvedores que precisam apenas de binários do Mac usando um pacote XCframework menor.
- Pilha de áudio da Microsoft (MAS):
- Quando os ângulos de formação de feixe são especificados, o som originado fora do intervalo especificado será melhor suprimido.
- Aproximadamente 70% de redução no tamanho do
libMicrosoft.CognitiveServices.Speech.extension.mas.so
Linux ARM32 e Linux Arm64.
- Reconhecimento de intenção usando correspondência de padrões:
- Adicionar suporte ortográfico para os idiomas
fr
,de
,es
,jp
- Adicionado suporte de inteiro pré-construído para o idioma
es
.
- Adicionar suporte ortográfico para os idiomas
Correções de erros
- iOS: corrigir erro de síntese de fala no iOS 16 causado por falha de decodificação de áudio comprimido (problema do cliente).
- JavaScript:
- Corrija o token de autenticação que não funciona ao obter a lista de voz de síntese de fala (problema do cliente).
- Use a URL de dados para o carregamento do trabalhador (problema do cliente).
- Crie o worklet do processador de áudio somente quando o AudioWorklet for suportado no navegador (problema do cliente). Esta foi uma contribuição comunitária de William Wong. Obrigado Guilherme!
- Corrija o retorno de chamada reconhecido quando a resposta
connectionMessage
do LUIS estiver vazia (problema do cliente). - Defina corretamente o tempo limite de segmentação de fala.
- Reconhecimento de intenção usando correspondência de padrões:
- Caracteres não-json dentro de modelos agora carrega corretamente.
- Corrigir problema de suspensão quando
recognizeOnceAsync(text)
foi chamado durante o reconhecimento contínuo.
Speech SDK 1.23.0: versão de julho de 2022
Novas funcionalidades
- C#, C++, Java: Adicionado suporte para linguagens
zh-cn
ezh-hk
reconhecimento de intenção com correspondência de padrões. - C#: Adicionado suporte para
AnyCPU
compilações do .NET Framework
Correções de erros
- Android: Corrigida a vulnerabilidade do OpenSSL CVE-2022-2068 atualizando o OpenSSL para 1.1.1q
- Python: Corrigir falha ao usar PushAudioInputStream
- iOS: Correção "EXC_BAD_ACCESS: Tentativa de desreferenciar ponteiro nulo" conforme relatado no iOS (problema do GitHub)
Speech SDK 1.22.0: versão de junho de 2022
Novas funcionalidades
- Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() e recognizeOnceAsync(text) adicionada para suportar o mecanismo de "correspondência de padrão simples".
- Unity: Adicionado suporte para Mac M1 (Apple Silicon) para o pacote Unity (problema do GitHub)
- C#: Adicionado suporte para x86_64 para Xamarin Android (problema do GitHub)
- C#: Versão mínima do .NET Framework atualizada para v4.6.2 para o pacote C# do SDK, pois a v4.6.1 foi desativada (consulte Política de ciclo de vida do componente do Microsoft .NET Framework)
- Linux: Adicionado suporte para Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS requer a instalação manual de libssl1.1 como um pacote binário a partir daqui (por exemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou mais recente para x64), ou compilando a partir de fontes.
Correções de erros
- UWP: A dependência OpenSSL foi removida das bibliotecas UWP e substituída por APIs HTTP e websocket WinRT para atender à conformidade de segurança e menor espaço binário.
- Mac: Corrigido o problema "MicrosoftCognitiveServicesSpeech Module Not Found" ao usar projetos Swift direcionados à plataforma macOS
- Windows, Mac: Corrigido um problema específico da plataforma em que as fontes de áudio que eram configuradas por meio de propriedades para transmitir em tempo real às vezes ficavam para trás e, eventualmente, excediam a capacidade
Amostras (GitHub)
- C#: Exemplos do .NET Framework atualizados para usar v4.6.2
- Unity: Exemplo de assistente virtual corrigido para Android e UWP
- Unity: Amostras Unity atualizadas para a versão Unity 2020 LTS
Speech SDK 1.21.0: versão de abril de 2022
Novas funcionalidades
- Java & JavaScript: Adicionado suporte para identificação contínua de linguagem ao usar o objeto SpeechRecognizer
- JavaScript: APIs de diagnóstico adicionadas para habilitar o nível de log do console e o log de arquivos (somente nós), para ajudar a Microsoft a solucionar problemas relatados pelo cliente
- Python: Adicionado suporte para transcrição de conversas
- Go: Adicionado suporte para reconhecimento de alto-falante
- C++ & C#: Adicionado suporte para um grupo necessário de palavras no Intent Recognizer (correspondência de padrão simples). Por exemplo: "(set|start|begin) a timer" onde "set", "start" ou "begin" devem estar presentes para que a intenção seja reconhecida.
- Todas as linguagens de programação, Síntese de Fala: Adicionada propriedade de duração em eventos de limite de palavras. Adicionado suporte para limite de pontuação e limite de frase
- Objective-C/Swift/Java: Adicionados resultados no nível da palavra no objeto de resultado da Avaliação de Pronúncia (semelhante ao C#). O aplicativo não precisa mais analisar uma cadeia de caracteres de resultado JSON para obter informações no nível da palavra (problema do GitHub)
- Plataforma iOS: Adicionado suporte experimental para arquitetura ARMv7
Correções de erros
- Plataforma iOS: Correção para permitir a construção para o alvo "Qualquer dispositivo iOS", ao usar o CocoaPod (problema do GitHub)
- Plataforma Android: a versão OpenSSL foi atualizada para 1.1.1n para corrigir a vulnerabilidade de segurança CVE-2022-0778
- JavaScript: Corrigir problema em que o cabeçalho wav não foi atualizado com o tamanho do arquivo (problema do GitHub)
- JavaScript: Corrigir problemas de dessincronização de ID de solicitação que quebram cenários de tradução (problema do GitHub)
- JavaScript: Corrija o problema ao instanciar SpeakerAudioDestination sem fluxo (problema do GitHub)
- C++: Corrija cabeçalhos C++ para remover um aviso ao compilar para C++17 ou mais recente
Exemplos GitHub
- Novos exemplos Java para reconhecimento de fala com identificação de linguagem
- Novos exemplos de Python e Java para transcrição de conversas
- Novo exemplo Go para reconhecimento de alto-falantes
- Nova ferramenta C++ e C# para Windows que enumera todos os dispositivos de captura e renderização de áudio, para encontrar sua ID de dispositivo. Essa ID é necessária para o SDK de fala se você planeja capturar áudio de , ou renderizar áudio para, um dispositivo não padrão.
Speech SDK 1.20.0: versão de janeiro de 2022
Novas funcionalidades
- Objective-C, Swift e Python: adicionado suporte para DialogServiceConnector, usado para cenários de Assistente de Voz.
- Python: Suporte para Python 3.10 foi adicionado. O suporte para Python 3.6 foi removido, de acordo com o fim de vida útil do Python para 3.6.
- Unity: O Speech SDK agora é suportado para aplicativos Unity no Linux.
- C++, C#: IntentRecognizer usando correspondência de padrões agora é suportado em C#. Além disso, cenários com entidades personalizadas, grupos opcionais e funções de entidade agora são suportados em C++ e C#.
- C++, C#: Registro de rastreamento de diagnóstico aprimorado usando novas classes FileLogger, MemoryLogger e EventLogger. Os logs do SDK são uma ferramenta importante para a Microsoft diagnosticar problemas relatados pelo cliente. Essas novas classes tornam mais fácil para os clientes integrar os logs do Speech SDK em seu próprio sistema de registro.
- Todas as linguagens de programação: PronunciationAssessmentConfig agora tem propriedades para definir o alfabeto fonema desejado (IPA ou SAPI) e N-Best Phoneme Count (evitando a necessidade de criar uma configuração JSON de acordo com a edição 1284 do GitHub). Além disso, a saída de nível de sílaba agora é suportada.
- Android, iOS e macOS (todas as linguagens de programação): o GStreamer não é mais necessário para suportar redes de largura de banda limitada. O SpeechSynthesizer agora usa os recursos de decodificação de áudio do sistema operacional para decodificar áudio compactado transmitido do serviço de texto para fala.
- Todas as linguagens de programação: SpeechSynthesizer agora suporta três novos formatos Opus de saída bruta (sem contêiner), que são amplamente utilizados em cenários de transmissão ao vivo.
- JavaScript: Adicionada API getVoicesAsync() ao SpeechSynthesizer para recuperar a lista de vozes de síntese suportadas (edição 1350 do GitHub)
- JavaScript: Adicionada API getWaveFormat() ao AudioStreamFormat para suportar formatos de onda não-PCM (edição 452 do GitHub)
- JavaScript: Adicionadas APIs de getter/setter de volume e mute()/unmute() ao SpeakerAudioDestination (problema 463 do GitHub)
Correções de erros
- C++, C#, Java, JavaScript, Objective-C e Swift: Correção para remover um atraso de 10 segundos ao parar um reconhecedor de fala que usa um PushAudioInputStream. Isso ocorre para o caso em que nenhum novo áudio é enviado depois que StopContinuousRecognition é chamado (edições 1318, 331 do GitHub)
- Unity no Android e UWP: os metaarquivos Unity foram corrigidos para UWP, Android Arm64 e Windows Subsystem for Android (WSA) Arm64 (GitHub issue 1360)
- iOS: Compilar seu aplicativo Speech SDK em qualquer dispositivo iOS ao usar o CocoaPods agora está corrigido (problema 1320 do GitHub)
- iOS: Quando o SpeechSynthesizer está configurado para exportar áudio diretamente para um altifalante, a reprodução é interrompida no início em condições raras. Isso foi corrigido.
- JavaScript: Use fallback do processador de script para entrada de microfone se nenhum worklet de áudio for encontrado (problema 455 do GitHub)
- JavaScript: Adicionar protocolo ao agente para mitigar bugs encontrados com a integração do Sentry (edição 465 do GitHub)
Exemplos GitHub
- Exemplos de C++, C#, Python e Java mostrando como obter resultados de reconhecimento detalhados. Os detalhes incluem resultados de reconhecimento alternativos, pontuação de confiança, forma lexical, forma normalizada, formulário normalizado mascarado, com tempo de nível de palavra para cada um.
- Exemplo de iOS adicionado usando AVFoundation como fonte de áudio externa.
- Exemplo Java adicionado para mostrar como obter o formato SRT (SubRip Text) usando o evento WordBorder.
- Amostras Android para Avaliação de Pronúncia.
- C++, C# mostrando o uso das novas classes de log de diagnóstico.
Speech SDK 1.19.0: versão de novembro de 2021
Destaques
O serviço de Reconhecimento de Oradores já está disponível em geral (GA). As APIs do SDK de fala estão disponíveis em C++, C#, Java e JavaScript. Com o Reconhecimento de Altifalantes, pode verificar e identificar com precisão os altifalantes pelas suas características de voz únicas. Para obter mais informações sobre este tópico, consulte a documentação.
Abandonamos o suporte para o Ubuntu 16.04 em conjunto com o Azure DevOps e o GitHub. O Ubuntu 16.04 chegou ao fim da vida útil em abril de 2021. Migre seus fluxos de trabalho do Ubuntu 16.04 para o Ubuntu 18.04 ou mais recente.
A vinculação OpenSSL em binários Linux mudou para dinâmica. O tamanho binário do Linux foi reduzido em cerca de 50%.
Adicionado suporte de silício baseado em ARM para Mac M1.
Novas funcionalidades
C++/C#/Java: Novas APIs adicionadas para habilitar o suporte ao processamento de áudio para entrada de fala com o Microsoft Audio Stack. Documentação aqui.
C++: Novas APIs para reconhecimento de intenção para facilitar a correspondência de padrões mais avançada. Isso inclui entidades List e Prebuilt Integer, bem como suporte para agrupar intenções e entidades como modelos (Documentação, atualizações e exemplos estão em desenvolvimento e serão publicados em um futuro próximo).
Mac: Suporte para silício baseado em Arm64 (M1) para pacotes CocoaPod, Python, Java e NuGet relacionados ao problema 1244 do GitHub.
iOS/Mac: os binários do iOS e macOS agora são empacotados no xcframework relacionado ao problema 919 do GitHub.
iOS/Mac: Suporte para Mac catalyst relacionado ao problema 1171 do GitHub.
Linux: Novo pacote tar adicionado para o CentOS7 Sobre o Speech SDK. O pacote Linux .tar agora contém bibliotecas específicas para RHEL/CentOS 7 em
lib/centos7-x64
. As bibliotecas do SDK de fala na lib/x64 ainda são aplicáveis a todas as outras distribuições Linux x64 suportadas (incluindo RHEL/CentOS 8) e não funcionarão no RHEL/CentOS 7.JavaScript: APIs VoiceProfile & SpeakerRecognizer tornadas assíncronas/esperadas.
JavaScript: Suporte adicionado para regiões do Azure do governo dos EUA.
Windows: Suporte adicionado para reprodução na Plataforma Universal do Windows (UWP).
Correções de erros
Android: Atualização de segurança OpenSSL (atualizada para a versão 1.1.1l) para pacotes Android.
Python: Bug resolvido onde a seleção de dispositivo de alto-falante em Python falha.
Core: reconecte-se automaticamente quando uma tentativa de conexão falhar.
iOS: Compressão de áudio desativada em pacotes iOS devido a instabilidade e problemas de compilação de código de bits ao usar o GStreamer. Os detalhes estão disponíveis na edição 1209 do GitHub.
Exemplos GitHub
Mac/iOS: Exemplos atualizados e inícios rápidos para usar o pacote xcframework.
.NET: Exemplos atualizados para usar a versão .NET core 3.1.
JavaScript: Adicionado exemplo para Assistentes de Voz.
Speech SDK 1.18.0: versão de julho de 2021
Nota: Comece a usar o SDK de fala aqui.
Resumo dos destaques
- O Ubuntu 16.04 chegou ao fim da vida útil em abril de 2021. Com o Azure DevOps e o GitHub, descartaremos o suporte para a versão 16.04 em setembro de 2021. Migre fluxos de trabalho do ubuntu-16.04 para o ubuntu-18.04 ou mais recente antes disso.
Novas funcionalidades
- C++: A correspondência de padrão de linguagem simples com o Reconhecedor de Intenção agora facilita a implementação de cenários simples de reconhecimento de intenção.
- C++/C#/Java: Adicionamos uma nova API
GetActivationPhrasesAsync()
àVoiceProfileClient
classe para receber uma lista de frases de ativação válidas na fase de registro de reconhecimento de alto-falante para cenários de reconhecimento independentes.- Importante: A funcionalidade de Reconhecimento de Oradores encontra-se em Pré-visualização. Todos os perfis de voz criados na Pré-visualização serão descontinuados 90 dias após a funcionalidade de Reconhecimento de Altifalantes ser movida da Pré-visualização para a Disponibilidade Geral. Nesse ponto, os perfis de voz de visualização deixarão de funcionar.
- Python: Adicionado suporte para identificação contínua de linguagem (LID) nos objetos e
TranslationRecognizer
existentesSpeechRecognizer
. - Python: Adicionado um novo objeto Python nomeado
SourceLanguageRecognizer
para fazer LID único ou contínuo (sem reconhecimento ou tradução). - JavaScript:
getActivationPhrasesAsync
API adicionada àVoiceProfileClient
classe para receber uma lista de frases de ativação válidas na fase de inscrição de Reconhecimento de Orador para cenários de reconhecimento independentes. - A API do
enrollProfileAsync
JavaScriptVoiceProfileClient
agora é assíncrona. Veja este código de identificação independente, por exemplo, uso.
Melhorias
- Java: Suporte AutoCloseable adicionado a muitos objetos Java. Agora, o modelo try-with-resources é suportado para liberar recursos. Veja este exemplo que usa try-with-resources. Consulte também o tutorial de documentação do Oracle Java para The try-with-resources Statement para saber mais sobre esse padrão.
- O espaço ocupado pelo disco foi significativamente reduzido para muitas plataformas e arquiteturas. Exemplos para o
Microsoft.CognitiveServices.Speech.core
binário: x64 Linux é 475KB menor (8,0% de redução); Arm64 Windows UWP é 464KB menor (11,5% de redução); x86 Windows é 343KB menor (17,5% de redução); e o Windows x64 é 451KB menor (redução de 19,4%).
Correções de erros
- Java: Corrigido erro de síntese quando o texto de síntese contém caracteres substitutos. Detalhes aqui.
- JavaScript: O processamento de áudio do microfone do navegador agora usa
AudioWorkletNode
em vez de preteridoScriptProcessorNode
. Detalhes aqui. - JavaScript: mantenha corretamente as conversas vivas durante cenários de tradução de conversação de longa duração. Detalhes aqui.
- JavaScript: Corrigido o problema com o reconhecedor reconectando-se a um fluxo de mídia em reconhecimento contínuo. Detalhes aqui.
- JavaScript: Corrigido o problema com o reconhecedor reconectando-se a um pushStream em reconhecimento contínuo. Detalhes aqui.
- JavaScript: Cálculo de deslocamento do nível de palavra corrigido em resultados de reconhecimento detalhados. Detalhes aqui.
Exemplos
- Exemplos de início rápido Java atualizados aqui.
- Exemplos de reconhecimento de alto-falante JavaScript atualizados para mostrar o novo uso do
enrollProfileAsync()
. Veja exemplos aqui.
Speech SDK 1.17.0: versão de maio de 2021
Nota
Comece a usar o SDK de fala aqui.
Resumo dos destaques
- Menor espaço ocupado - continuamos a diminuir a memória e o espaço ocupado pelo disco do Speech SDK e seus componentes.
- Uma nova API de identificação de idioma independente permite que você reconheça qual idioma está sendo falado.
- Desenvolva aplicativos de realidade mista e jogos habilitados para fala usando Unity no macOS.
- Agora você pode usar Text to speech, além do reconhecimento de fala da linguagem de programação Go.
- Várias correções de bugs para resolver problemas que VOCÊ, nossos estimados clientes, sinalizou no GitHub! OBRIGADO! Mantenha o feedback chegando!
Novas funcionalidades
- C++/C#: Novo At-Start autônomo e deteção contínua de idioma por meio da
SourceLanguageRecognizer
API. Se você quiser detetar apenas o(s) idioma(s) falado(s) no conteúdo de áudio, esta é a API para fazer isso. Veja detalhes para C++ e C#. - C++/C#: O Reconhecimento de Fala e o Reconhecimento de Tradução agora suportam a Identificação de Idioma inicial e contínua para que você possa determinar programaticamente quais idiomas estão sendo falados antes de serem transcritos ou traduzidos. Consulte a documentação aqui para Reconhecimento de Fala e aqui para Tradução de Fala.
- C#: Adicionado suporte Unity para macOS (x64). Isso desbloqueia casos de uso de reconhecimento e síntese de fala em realidade mista e jogos!
- Go: Adicionamos suporte para síntese de fala texto para fala à linguagem de programação Go para tornar a síntese de fala disponível em ainda mais casos de uso. Consulte o nosso guia de início rápido ou a nossa documentação de referência.
- C++/C#/Java/Python/Objective-C/Go: O sintetizador de fala agora suporta o
connection
objeto. Isso ajuda você a gerenciar e monitorar a conexão com o serviço de Fala e é especialmente útil para pré-conectar para reduzir a latência. Consulte a documentação aqui. - C++/C#/Java/Python/Objective-C/Go: agora expomos a latência e o tempo
SpeechSynthesisResult
de execução insuficiente para ajudá-lo a monitorar e diagnosticar problemas de latência de síntese de fala. Veja detalhes para C++, C#, Java, Python, Objective-C e Go. - C++/C#/Java/Python/Objective-C: Text to speech agora usa vozes neurais por padrão quando você não especifica uma voz a ser usada. Isso oferece uma saída de fidelidade mais alta por padrão, mas também aumenta o preço padrão. Você pode especificar qualquer uma das nossas mais de 70 vozes padrão ou mais de 130 vozes neurais para alterar o padrão.
- C++/C#/Java/Python/Objective-C/Go: adicionamos uma propriedade Gender às informações de voz de síntese para facilitar a seleção de vozes com base no gênero. Isso resolve o problema #1055 do GitHub.
- C++, C#, Java, JavaScript: agora suportamos
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
egetAllProfilesAsync()
no Reconhecimento de Oradores para facilitar a gestão de utilizadores de todos os perfis de voz para uma determinada conta. Consulte a documentação para C++, C#, Java, JavaScript. Isso resolve o problema #338 do GitHub. - JavaScript: Adicionamos nova tentativa para falhas de conexão que tornarão seus aplicativos de fala baseados em JavaScript mais robustos.
Melhorias
- Os binários do Linux e Android Speech SDK foram atualizados para usar a versão mais recente do OpenSSL (1.1.1k)
- Melhorias no tamanho do código:
- O Language Understanding agora está dividido em uma biblioteca "lu" separada.
- O tamanho binário do núcleo x64 do Windows diminuiu 14,4%.
- O tamanho binário do núcleo do Android Arm64 diminuiu 13,7%.
- outros componentes também diminuíram de tamanho.
Correções de erros
- Todos: Corrigido o problema #842 do GitHub para ServiceTimeout. Agora você pode transcrever arquivos de áudio longos usando o SDK de fala sem que a conexão com o serviço termine com esse erro. No entanto, ainda recomendamos que você use a transcrição em lote para arquivos longos.
- C#: Corrigido o problema #947 do GitHub, em que nenhuma entrada de fala podia deixar seu aplicativo em mau estado.
- Java: Corrigido o problema #997 do GitHub, em que o SDK de fala para Java 1.16 falhava ao usar o DialogServiceConnector sem uma conexão de rede ou uma chave de assinatura inválida.
- Corrigida uma falha ao interromper abruptamente o reconhecimento de fala (por exemplo, usando CTRL+C no aplicativo de console).
- Java: Adicionada uma correção para excluir arquivos temporários no Windows ao usar o Speech SDK for Java.
- Java: Corrigido o problema #994 do GitHub, onde a chamada
DialogServiceConnector.stopListeningAsync
podia resultar em um erro. - Java: Corrigido um problema do cliente no início rápido do assistente virtual.
- JavaScript: Corrigido o problema #366 do GitHub, onde
ConversationTranslator
se lançava um erro 'this.cancelSpeech isn't a function'. - JavaScript: Corrigido o problema #298 do GitHub, em que a amostra 'Obter resultado como um fluxo na memória' reproduzia som em voz alta.
- JavaScript: Corrigido o problema #350 do GitHub, onde a chamada
AudioConfig
podia resultar em um 'ReferenceError: MediaStream não está definido'. - JavaScript: Corrigido um aviso UnhandledPromiseRejection no Node.js para sessões de longa duração.
Exemplos
- Documentação de exemplos Unity atualizada para macOS aqui.
- Um exemplo do React Native para o serviço de reconhecimento de voz do Azure AI agora está disponível aqui.
Speech SDK 1.16.0: versão de março de 2021
Nota
O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.
Novas funcionalidades
- C++/C#/Java/Python: Movido para a versão mais recente do GStreamer (1.18.3) para adicionar suporte para transcrever qualquer formato de mídia no Windows, Linux e Android. Consulte a documentação aqui.
- C++/C#/Java/Objective-C/Python: Adicionado suporte para decodificação de TTS/áudio sintetizado compactado para o SDK. Se você definir o formato de saída de áudio para PCM e o GStreamer estiver disponível em seu sistema, o SDK solicitará automaticamente áudio compactado do serviço para economizar largura de banda e decodificar o áudio no cliente. Você pode definir
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
parafalse
desativar esse recurso. Detalhes para C++, C#, Java, Objective-C, Python. - JavaScript: Node.js usuários agora podem usar a
AudioConfig.fromWavFileInput
API. Isso resolve o problema #252 do GitHub. - C++/C#/Java/Objective-C/Python: Método adicionado
GetVoicesAsync()
para TTS retornar todas as vozes de síntese disponíveis. Detalhes para C++, C#, Java, Objective-C e Python. - C++/C#/Java/JavaScript/Objective-C/Python: Adicionado
VisemeReceived
evento para TTS/síntese de fala para retornar animação viseme síncrona. Consulte a documentação aqui. - C++/C#/Java/JavaScript/Objective-C/Python: Adicionado
BookmarkReached
evento para TTS. Você pode definir marcadores no SSML de entrada e obter os deslocamentos de áudio para cada marcador. Consulte a documentação aqui. - Java: Adicionado suporte para APIs de reconhecimento de alto-falante. Detalhes aqui.
- C++/C#/Java/JavaScript/Objective-C/Python: Adicionados dois novos formatos de saída de áudio com contêiner WebM para TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Estes são melhores formatos para streaming de áudio com o codec Opus. Detalhes para C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: Adicionado suporte para recuperar perfil de voz para o cenário de Reconhecimento de Alto-falante. Detalhes para C++, C# e Java.
- C++/C#/Java/Objective-C/Python: Adicionado suporte para biblioteca compartilhada separada para controle de microfone e alto-falante de áudio. Isso permite que o desenvolvedor use o SDK em ambientes que não têm dependências de biblioteca de áudio necessárias.
- Objective-C/Swift: Adicionado suporte para framework de módulo com cabeçalho guarda-chuva. Isso permite que o desenvolvedor importe o Speech SDK como um módulo em aplicativos iOS/Mac Objective-C/Swift. Isso resolve o problema #452 do GitHub.
- Python: Adicionado suporte para Python 3.9 e descartado o suporte para Python 3.5 por fim de vida útil do Python para 3.5.
Problemas conhecidos
- C++/C#/Java: não é possível usar um
CustomCommandsConfig
para acessar um aplicativo de Comandos Personalizados e, em vez disso,DialogServiceConnector
encontrará um erro de conexão. Isso pode ser resolvido adicionando manualmente o ID do aplicativo à solicitação comconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. O comportamento esperado deCustomCommandsConfig
será restaurado na próxima versão.
Melhorias
- Como parte de nosso esforço de várias versões para reduzir o uso de memória e o espaço ocupado pelo disco do SDK de fala, os binários do Android agora são de 3% a 5% menores.
- Maior precisão, legibilidade e consulte também as seções de nossa documentação de referência em C# aqui.
Correções de erros
- JavaScript: Cabeçalhos de arquivo WAV grandes agora são analisados corretamente (aumenta a fatia de cabeçalho para 512 bytes). Isso resolve o problema #962 do GitHub.
- JavaScript: Corrigido o problema de temporização do microfone se o fluxo de microfone terminar antes de parar o reconhecimento, resolvendo um problema com o Reconhecimento de Fala não funcionando no Firefox.
- JavaScript: agora lidamos corretamente com a promessa de inicialização quando o navegador força o microfone desligado antes que o turnOn seja concluído.
- JavaScript: substituímos a dependência de URL por url-parse. Isso resolve o problema #264 do GitHub.
- Android: Retornos de chamada fixos não funcionam quando
minifyEnabled
está definido como true. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
será corretamente definido como E/S de soquete subjacente para TTS para reduzir a latência. - C++/C#/Java/Python/Objective-C/Go: Corrigido um erro ocasional quando o reconhecedor era destruído logo após iniciar um reconhecimento.
- C++/C#/Java: Corrigido um acidente ocasional na destruição do reconhecedor de alto-falantes.
Exemplos
- JavaScript: As amostras de navegador não exigem mais o download de arquivos de biblioteca JavaScript separados.
Speech SDK 1.15.0: versão de janeiro de 2021
Nota
O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.
Resumo dos destaques
- Menor espaço ocupado por memória e disco tornando o SDK mais eficiente.
- Formatos de saída de maior fidelidade disponíveis para visualização privada de voz neural personalizada.
- O Reconhecedor de Intenção agora pode obter retorno mais do que a intenção principal, dando-lhe a capacidade de fazer uma avaliação separada sobre a intenção do seu cliente.
- Assistentes de voz e bots agora são mais fáceis de configurar, e você pode fazê-lo parar de ouvir imediatamente e exercer maior controle sobre como ele responde a erros.
- Desempenho melhorado do dispositivo ao tornar a compressão opcional.
- Use o SDK de fala no Windows ARM/Arm64.
- Depuração de baixo nível melhorada.
- O recurso Avaliação de Pronúncia está agora mais amplamente disponível.
- Várias correções de bugs para resolver problemas que VOCÊ, nossos estimados clientes, sinalizou no GitHub! OBRIGADO! Mantenha o feedback chegando!
Melhorias
- O SDK de fala agora é mais eficiente e leve. Iniciamos um esforço de várias versões para reduzir o uso de memória e o espaço ocupado pelo disco do SDK de fala. Como primeiro passo, fizemos reduções significativas no tamanho dos arquivos em bibliotecas compartilhadas na maioria das plataformas. Em comparação com a versão 1.14:
- As bibliotecas do Windows compatíveis com UWP de 64 bits são cerca de 30% menores.
- As bibliotecas de 32 bits do Windows ainda não estão vendo uma melhoria de tamanho.
- As bibliotecas Linux são 20-25% menores.
- As bibliotecas Android são 3-5% menores.
Novas funcionalidades
- Todos: Novos formatos de saída de 48 KHz disponíveis para a visualização privada de voz neural personalizada através da API de síntese de fala TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Todos: A voz personalizada também é mais fácil de usar. Adicionado suporte para configuração de voz personalizada via
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Antes dessa alteração, os usuários de voz personalizados precisavam definir a URL do ponto de extremidade por meio doFromEndpoint
método. Agora, os clientes podem usar oFromSubscription
método como vozes pré-criadas e, em seguida, fornecer a ID de implantação definindoEndpointId
. Isso simplifica a configuração de vozes personalizadas. - C++/C#/Java/Objective-C/Python: obtenha mais do que a intenção
IntentRecognizer
principal. Ele agora suporta a configuração do resultado JSON contendo todas as intenções e não apenas a intenção de pontuação máxima viaLanguageUnderstandingModel FromEndpoint
método usandoverbose=true
o parâmetro uri. Isso resolve o problema #880 do GitHub. Consulte a documentação atualizada aqui. - C++/C#/Java: Faça com que seu assistente de voz ou bot pare de ouvir imediatamente.
DialogServiceConnector
(C++, C#, Java) agora tem umStopListeningAsync()
método para acompanharListenOnceAsync()
. Isso interromperá imediatamente a captura de áudio e esperará graciosamente por um resultado, tornando-o perfeito para uso com cenários de pressionar o botão "parar agora". - C++/C#/Java/JavaScript: faça com que seu assistente de voz ou bot reaja melhor aos erros subjacentes do sistema.
DialogServiceConnector
(C++, C#, Java, JavaScript) agora tem um novoTurnStatusReceived
manipulador de eventos. Esses eventos opcionais correspondem a todas asITurnContext
resoluções no Bot e relatarão falhas de execução quando elas acontecerem, por exemplo, como resultado de uma exceção não tratada, tempo limite ou queda de rede entre o Direct Line Speech e o bot.TurnStatusReceived
facilita a resposta a condições de falha. Por exemplo, se um bot demorar muito tempo em uma consulta de banco de dados de back-end (por exemplo, procurando um produto),TurnStatusReceived
permite que o cliente saiba para solicitar novamente com "desculpe, eu não entendi isso, você poderia tentar novamente" ou algo semelhante. - C++/C#: Use o SDK de fala em mais plataformas. O pacote NuGet do SDK de Fala agora suporta binários nativos da área de trabalho do Windows ARM/Arm64 (a UWP já era suportada) para tornar o SDK de Fala mais útil em mais tipos de máquina.
- Java:
DialogServiceConnector
agora tem umsetSpeechActivityTemplate()
método que foi involuntariamente excluído da linguagem anteriormente. Isso é equivalente a definir aConversation_Speech_Activity_Template
propriedade e solicitará que todas as atividades futuras do Bot Framework originadas pelo serviço Direct Line Speech mesclem o conteúdo fornecido em suas cargas JSON úteis. - Java: Depuração de baixo nível melhorada. A
Connection
classe agora tem umMessageReceived
evento, semelhante a outras linguagens de programação (C++, C#). Esse evento fornece acesso de baixo nível aos dados de entrada do serviço e pode ser útil para diagnóstico e depuração. - JavaScript: Configuração mais fácil para assistentes de voz e bots através
BotFrameworkConfig
do , que agora temfromHost()
métodosfromEndpoint()
de fábrica que simplificam o uso de locais de serviço personalizados versus a configuração manual de propriedades. Também padronizamos a especificação opcional de usar um bot não padrão em todas as fábricas debotId
configuração. - JavaScript: Melhorado no desempenho do dispositivo através da adição da propriedade de controle de cadeia de caracteres para compactação websocket. Por motivos de desempenho, desativamos a compactação de websocket por padrão. Isso pode ser reativado para cenários de baixa largura de banda. Mais detalhes aqui. Isso resolve o problema #242 do GitHub.
- JavaScript: Adicionado suporte para lPronunciation Assessment para permitir a avaliação da pronúncia da fala. Veja o início rápido aqui.
Correções de erros
- Tudo (exceto JavaScript): Corrigida uma regressão na versão 1.14, na qual muita memória era alocada pelo reconhecedor.
- C++: Corrigido um problema de coleta de lixo com
DialogServiceConnector
o , resolvendo o problema #794 do GitHub. - C#: Corrigido um problema com o desligamento de thread que fazia com que os objetos bloqueassem por cerca de um segundo quando descartados.
- C++/C#/Java: Corrigida uma exceção que impedia um aplicativo de definir token de autorização de fala ou modelo de atividade mais de uma vez em um
DialogServiceConnector
arquivo . - C++/C#/Java: Corrigida uma falha do reconhecedor devido a uma condição de corrida em teardown.
- JavaScript:
DialogServiceConnector
não honrava anteriormente o parâmetro opcionalbotId
especificado nasBotFrameworkConfig
fábricas do . Isso tornou necessário definir obotId
parâmetro de cadeia de caracteres de consulta manualmente para usar um bot não padrão. O bug foi corrigido ebotId
os valores fornecidos àsBotFrameworkConfig
fábricas da serão honrados e utilizados, incluindo os novosfromHost()
efromEndpoint()
aditivos. Isso também se aplica aoapplicationId
parâmetro paraCustomCommandsConfig
. - JavaScript: Corrigido o problema #881 do GitHub, que permitia a reutilização do objeto reconhecedor.
- JavaScript: Corrigido um problema em que o SKD enviava
speech.config
várias vezes em uma sessão TTS, desperdiçando largura de banda. - JavaScript: Tratamento simplificado de erros na autorização do microfone, permitindo que mensagens mais descritivas borbulhem quando o usuário não permite a entrada do microfone em seu navegador.
- JavaScript: Corrigido o problema #249 do GitHub, em que erros de digitação e
ConversationTranslator
ConversationTranscriber
causavam um erro de compilação para usuários do TypeScript. - Objective-C: Corrigido um problema em que a compilação do GStreamer falhava para iOS no Xcode 11.4, resolvendo o problema #911 do GitHub.
- Python: Corrigido o problema #870 do GitHub, removendo "DeprecationWarning: o módulo imp foi preterido em favor do importlib".
Exemplos
- Exemplo de arquivo a partir do navegador JavaScript agora usa arquivos para reconhecimento de fala. Isso resolve o problema #884 do GitHub.
SDK de fala 1.14.0: versão de outubro de 2020
Nota
O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.
Novas funcionalidades
- Linux: Adicionado suporte para Debian 10 e Ubuntu 20.04 LTS.
- Python/Objective-C: Adicionado suporte para a
KeywordRecognizer
API. A documentação estará aqui. - C++/Java/C#: Adicionado suporte para definir qualquer
HttpHeader
chave/valor viaServicePropertyChannel::HttpHeader
. - JavaScript: Adicionado suporte para a
ConversationTranscriber
API. Leia a documentação aqui. - C++/C#: Adicionado novo
AudioDataStream FromWavFileInput
método (para ler . WAV) aqui (C++) e aqui (C#). - C++/C#/Java/Python/Objective-C/Swift: Adicionado um método para parar a
stopSpeakingAsync()
síntese de texto para fala. Leia a documentação de referência aqui (C++), aqui (C#), aqui (Java), aqui (Python) e aqui (Objective-C/Swift). - C#, C++, Java: Adicionada uma
FromDialogServiceConnector()
função àConnection
classe que pode ser usada para monitorar eventos de conexão e desconexão paraDialogServiceConnector
. Leia a documentação de referência aqui (C#), aqui (C++) e aqui (Java). - C++/C#/Java/Python/Objective-C/Swift: Adicionado suporte para Avaliação de Pronúncia, que avalia a pronúncia da fala e dá feedback aos falantes sobre a precisão e fluência do áudio falado. Leia a documentação aqui.
Quebrando a mudança
- JavaScript: PullAudioOutputStream.read() tem uma alteração de tipo de retorno de uma Promise interna para uma Native JavaScript Promise.
Correções de erros
- Todos: Regressão 1.13 corrigida em
SetServiceProperty
que os valores com determinados caracteres especiais eram ignorados. - C#: Corrigidos exemplos de console do Windows no Visual Studio 2019 que não conseguiram localizar DLLs nativas.
- C#: Corrigida falha com gerenciamento de memória se o fluxo for usado como
KeywordRecognizer
entrada. - ObjectiveC/Swift: Falha corrigida com gerenciamento de memória se o fluxo for usado como entrada de reconhecimento.
- Windows: Corrigido o problema de coexistência com BT HFP/A2DP na UWP.
- JavaScript: Corrigido o mapeamento de IDs de sessão para melhorar o registro em log e ajudar nas correlações internas de depuração/serviço.
- JavaScript: Adicionada correção para
DialogServiceConnector
desabilitarListenOnce
chamadas após a primeira chamada. - JavaScript: Corrigido problema em que a saída do resultado seria apenas "simples".
- JavaScript: Corrigido o problema de reconhecimento contínuo no Safari no macOS.
- JavaScript: mitigação de carga da CPU para cenário de alta taxa de transferência de solicitações.
- JavaScript: Permite acesso aos detalhes do resultado do Registro de Perfil de Voz.
- JavaScript: Adicionada correção para reconhecimento contínuo no
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: Corrigido url incorreto para australiaeast e brazilsouth em
IntentRecognizer
. - C++/C#: Adicionado
VoiceProfileType
como um argumento ao criar umVoiceProfile
objeto. - C++/C#/Java/Python/Swift/ObjectiveC: Potencial
SPX_INVALID_ARG
fixo ao tentar lerAudioDataStream
a partir de uma determinada posição. - IOS: Falha corrigida com reconhecimento de fala no Unity
Exemplos
- ObjectiveC: Adicionado exemplo para reconhecimento de palavras-chave aqui.
- C#/JavaScript: Adicionado início rápido para transcrição de conversas aqui (C#) e aqui (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: Adicionado exemplo para avaliação de pronúncia aqui
Problema Conhecido
- O certificado DigiCert Global Root G2 não é suportado por padrão no HoloLens 2 e Android 4.4 (KitKat) e precisa ser adicionado ao sistema para tornar o SDK de fala funcional. O certificado será adicionado às imagens do sistema operacional HoloLens 2 em um futuro próximo. Os clientes do Android 4.4 precisam adicionar o certificado atualizado ao sistema.
Testes abreviados à COVID-19
Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!
Speech SDK 1.13.0: versão de julho de 2020
Nota
O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download e instale-o a partir daqui.
Novas funcionalidades
- C#: Adicionado suporte para transcrição assíncrona de conversas. Consulte a documentação aqui.
- JavaScript: Adicionado suporte de reconhecimento de alto-falante para navegador e Node.js.
- JavaScript: Adicionado suporte para identificação de idioma/ID de idioma. Consulte a documentação aqui.
- Objective-C: Adicionado suporte para conversação em vários dispositivos e transcrição de conversas.
- Python: Adicionado suporte de áudio comprimido para Python no Windows e Linux. Consulte a documentação aqui.
Correções de erros
- Todos: Corrigido um problema que fazia com que o KeywordRecognizer não avançasse os fluxos após um reconhecimento.
- Todos: Corrigido um problema que fazia com que o fluxo obtido de um KeywordRecognitionResult não contivesse a palavra-chave.
- Todos: Corrigido um problema que o SendMessageAsync realmente não envia a mensagem pelo fio depois que os usuários terminam de esperar por ela.
- Todos: Corrigida uma falha nas APIs de reconhecimento de alto-falante quando os usuários chamam o método VoiceProfileClient::SpeakerRecEnrollProfileAsync várias vezes e não esperaram que as chamadas terminassem.
- Todos: Corrigido habilitar o registro de arquivos nas classes VoiceProfileClient e SpeakerRecognizer.
- JavaScript: Corrigido um problema com a limitação quando o navegador é minimizado.
- JavaScript: Corrigido um problema com uma fuga de memória em fluxos.
- JavaScript: Adicionado cache para respostas OCSP do NodeJS.
- Java: Corrigido um problema que fazia com que os campos BigInteger sempre retornassem 0.
- iOS: Corrigido um problema com a publicação de aplicações baseadas no Speech SDK na iOS App Store.
Exemplos
- C++: Adicionado código de exemplo para reconhecimento de alto-falante aqui.
Testes abreviados à COVID-19
Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!
SDK de fala 1.12.1: versão de 2020 a junho
Novas funcionalidades
- C#, C++: Visualização de reconhecimento de alto-falante: esse recurso permite a identificação do orador (quem está falando?) e a verificação do orador (o orador é quem ele afirma ser?). Consulte a documentação de visão geral.
Correções de erros
- C#, C++: A gravação do microfone fixo não estava funcionando na versão 1.12 no Reconhecimento de alto-falantes.
- JavaScript: Correções para conversão de texto em fala no Firefox e Safari no macOS e iOS.
- Correção para falha de violação de acesso do verificador de aplicativos do Windows na transcrição de conversas ao usar fluxo de oito canais.
- Correção para falha de violação de acesso do verificador de aplicativos do Windows na tradução de conversação em vários dispositivos.
Exemplos
- C#: Exemplo de código para reconhecimento de alto-falante.
- C++: Exemplo de código para reconhecimento de alto-falante.
- Java: Exemplo de código para reconhecimento de intenção no Android.
Testes abreviados à COVID-19
Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!
Speech SDK 1.12.0: versão de maio de 2020
Novas funcionalidades
- Go: Novo suporte ao idioma Go para Reconhecimento de Fala e assistente de voz personalizado. Configure seu ambiente de desenvolvimento aqui. Para obter um código de exemplo, consulte a seção Exemplos abaixo.
- JavaScript: Adicionado suporte do navegador para conversão de texto em fala. Consulte a documentação aqui.
- C++, C#, Java: Novo
KeywordRecognizer
objeto e APIs suportados nas plataformas Windows, Android, Linux ou iOS. Leia a documentação aqui. Para obter um código de exemplo, consulte a seção Exemplos abaixo. - Java: Adicionada conversação multi-dispositivo com suporte de tradução. Veja o documento de referência aqui.
Melhorias e otimizações
- JavaScript: Implementação otimizada do microfone do navegador melhorando a precisão do reconhecimento de fala.
- Java: Ligações refatoradas usando implementação JNI direta sem SWIG. Essa alteração reduz em 10x o tamanho das ligações para todos os pacotes Java usados para Windows, Android, Linux e Mac e facilita o desenvolvimento da implementação Java do Speech SDK.
- Linux: Documentação de suporte atualizada com as notas específicas mais recentes do RHEL 7.
- Lógica de conexão aprimorada para tentar se conectar várias vezes quando ocorrem erros de serviço e rede.
- Atualizada a página de Início Rápido de Fala do portal.azure.com para ajudar os desenvolvedores a dar o próximo passo na jornada de Fala da IA do Azure.
Correções de erros
- C#, Java: Corrigido um problema com o carregamento de bibliotecas SDK no Linux ARM (32 bits e 64 bits).
- C#: Eliminação explícita fixa de identificadores nativos para objetos TranslationRecognizer, IntentRecognizer e Connection.
- C#: Gerenciamento fixo do tempo de vida da entrada de áudio para o objeto ConversationTranscriber.
- Corrigido um problema em que
IntentRecognizer
o motivo do resultado não era definido corretamente ao reconhecer intenções de frases simples. - Corrigido um problema em que
SpeechRecognitionEventArgs
o deslocamento de resultados não estava definido corretamente. - Corrigida uma condição de corrida em que o SDK tentava enviar uma mensagem de rede antes de abrir a conexão websocket. Foi reprodutível durante a
TranslationRecognizer
adição de participantes. - Corrigidas fugas de memória no motor de reconhecimento de palavras-chave.
Exemplos
- Go: Adicionados inícios rápidos para reconhecimento de fala e assistente de voz personalizado. Encontre o código de exemplo aqui.
- JavaScript: Adicionados inícios rápidos para conversão de texto em fala, tradução e reconhecimento de intenção.
- Exemplos de reconhecimento de palavras-chave para C# e Java (Android).
Testes abreviados à COVID-19
Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. Se perdemos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!
Speech SDK 1.11.0: versão de março de 2020
Novas funcionalidades
- Linux: Adicionado suporte para Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: Adicionado suporte para .NET Core C# no Linux ARM32 e Arm64. Leia mais aqui.
- C#, C++: Adicionado
UtteranceId
noConversationTranscriptionResult
, um ID consistente em todos os intermediários e o resultado final do reconhecimento de fala. Detalhes para C#, C++. - Python: Adicionado suporte para
Language ID
. Veja speech_sample.py no repositório GitHub. - Windows: Adicionado suporte ao formato de entrada de áudio comprimido na plataforma Windows para todas as aplicações de consola win32. Detalhes aqui.
- JavaScript: Suporta síntese de fala (texto para fala) em NodeJS. Saiba mais aqui.
- JavaScript: Adicione novas APIs para permitir a inspeção de todas as mensagens enviadas e recebidas. Saiba mais aqui.
Correções de erros
- C#, C++: Corrigido um problema, então
SendMessageAsync
agora envia mensagem binária como tipo binário. Detalhes para C#, C++. - C#, C++: Corrigido um problema em que o uso do
Connection MessageReceived
evento pode causar falha seRecognizer
for descartado antesConnection
do objeto. Detalhes para C#, C++. - Android: O tamanho do buffer de áudio do microfone diminuiu de 800 ms para 100 ms para melhorar a latência.
- Android: Corrigido um problema com o emulador Android x86 no Android Studio.
- JavaScript: Adicionado suporte para regiões na China com a
fromSubscription
API. Detalhes aqui. - JavaScript: Adicione mais informações de erro para falhas de conexão do NodeJS.
Exemplos
- Unidade: A amostra pública de reconhecimento de intenção é corrigida, onde a importação json do LUIS estava falhando. Detalhes aqui.
- Python: Exemplo adicionado para
Language ID
. Detalhes aqui.
Testes abreviados de Covid19: Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes manuais de verificação de dispositivos como normalmente fazemos. Por exemplo, não foi possível testar a entrada do microfone e a saída do alto-falante no Linux, iOS e macOS. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada nessas plataformas, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, informe-nos no GitHub.
Obrigado pelo vosso apoio contínuo. Como sempre, poste perguntas ou comentários sobre o GitHub ou o Stack Overflow.
Mantenha-se saudável!
Speech SDK 1.10.0: versão de fevereiro de 2020
Novas funcionalidades
- Adicionados pacotes Python para suportar a nova versão 3.8 do Python.
- Suporte ao Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Nota
Os clientes devem configurar o OpenSSL de acordo com estas instruções.
- Suporte Linux ARM32 para Debian e Ubuntu.
- DialogServiceConnector agora suporta um parâmetro opcional "bot ID" em BotFrameworkConfig. Este parâmetro permite o uso de vários bots de Fala de Linha Direta com um único recurso de Fala. Sem o parâmetro especificado, o bot padrão (conforme determinado pela página de configuração do canal Direct Line Speech) será usado.
- DialogServiceConnector agora tem uma propriedade SpeechActivityTemplate. O conteúdo dessa cadeia de caracteres JSON será usado pelo Direct Line Speech para pré-preencher uma ampla variedade de campos suportados em todas as atividades que atingem um bot Direct Line Speech, incluindo atividades geradas automaticamente em resposta a eventos como reconhecimento de fala.
- O TTS agora usa a chave de assinatura para autenticação, reduzindo a latência do primeiro byte do primeiro resultado de síntese após a criação de um sintetizador.
- Modelos de reconhecimento de fala atualizados para 19 localidades para uma redução média da taxa de erro de palavras de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Os novos modelos trazem melhorias significativas em vários domínios, incluindo cenários de ditado, transcrição de call center e indexação de vídeo.
Correções de erros
- Corrigido o bug em que o Transcritor de Conversas não aguardava corretamente nas APIs do JAVA
- Correção do emulador Android x86 para o problema do Xamarin GitHub
- Adicionar ausente (Get|Set)Property métodos para AudioConfig
- Corrigir um bug TTS em que o audioDataStream não pôde ser interrompido quando a conexão falhou
- Usar um ponto de extremidade sem uma região causaria falhas na USP para o tradutor de conversação
- A geração de ID em Aplicativos Universais do Windows agora usa um algoritmo GUID apropriado e exclusivo; Anteriormente, e involuntariamente, ele usava uma implementação obstinada que muitas vezes produzia colisões em grandes conjuntos de interações.
Exemplos
- Exemplo de Unity para usar o Speech SDK com microfone Unity e streaming em modo push
Outras alterações
Speech SDK 1.9.0: versão de janeiro de 2020
Novas funcionalidades
- Conversação multidispositivo: conecte vários dispositivos à mesma fala ou conversa baseada em texto e, opcionalmente, traduza mensagens enviadas entre eles. Saiba mais neste artigo.
- Suporte de reconhecimento de palavras-chave adicionado para o pacote Android
.aar
e adicionado suporte para os sabores x86 e x64. - Objective-C:
SendMessage
eSetMessageProperty
métodos adicionados aoConnection
objeto. Consulte a documentação aqui. - A API TTS C++ agora suporta
std::wstring
como entrada de texto de síntese, removendo a necessidade de converter um wstring em string antes de passá-lo para o SDK. Veja mais detalhes aqui. - C#: ID do idioma e configuração do idioma de origem já estão disponíveis.
- JavaScript: Adicionado um recurso ao
Connection
objeto para passar mensagens personalizadas do serviço de Fala como retornoreceivedServiceMessage
de chamada. - JavaScript: Adicionado suporte para
FromHost API
facilitar o uso com contêineres locais e nuvens soberanas. Consulte a documentação aqui. - JavaScript: Agora honramos
NODE_TLS_REJECT_UNAUTHORIZED
graças a uma contribuição de orgads. Veja mais detalhes aqui.
Mudanças significativas
OpenSSL
foi atualizado para a versão 1.1.1b e está estaticamente vinculado à biblioteca principal do Speech SDK para Linux. Isso pode causar uma quebra se sua/usr/lib/ssl
caixaOpenSSL
de entrada não tiver sido instalada no diretório do sistema. Consulte a nossa documentação em Documentos do SDK de Fala para contornar o problema.- Alteramos o tipo de dados retornado para C#
WordLevelTimingResult.Offset
de paralong
permitir o acesso a quando osWordLevelTimingResults
dados deint
fala tiverem mais de 2 minutos. PushAudioInputStream
ePullAudioInputStream
agora envie informações de cabeçalho wav para o serviço de Fala com base emAudioStreamFormat
, opcionalmente especificado quando eles foram criados. Os clientes agora devem usar o formato de entrada de áudio suportado. Quaisquer outros formatos obterão resultados de reconhecimento abaixo do ideal ou poderão causar outros problemas.
Correções de erros
- Consulte a
OpenSSL
atualização em Alterações de quebra acima. Corrigimos uma falha intermitente e um problema de desempenho (contenção de bloqueio sob alta carga) em Linux e Java. - Java: Melhorias feitas no fechamento de objetos em cenários de alta simultaneidade.
- Reestruturou nosso pacote NuGet. Removemos as três cópias de
Microsoft.CognitiveServices.Speech.core.dll
eMicrosoft.CognitiveServices.Speech.extension.kws.dll
sob pastas lib, tornando o pacote NuGet menor e mais rápido para download, e adicionamos cabeçalhos necessários para compilar alguns aplicativos nativos do C++. - Amostras de início rápido corrigidas aqui. Estes estavam saindo sem exibir a exceção "microfone não encontrado" no Linux, macOS, Windows.
- Corrigida falha do SDK com resultados longos de reconhecimento de fala em determinados caminhos de código como este exemplo.
- Corrigido erro de implantação do SDK no ambiente do Aplicativo Web do Azure para resolver esse problema do cliente.
- Corrigido um erro TTS ao usar várias
<voice>
tags ou<audio>
tags para resolver esse problema do cliente. - Corrigido um erro TTS 401 quando o SDK é recuperado da suspensão.
- JavaScript: Corrigida uma importação circular de dados de áudio graças a uma contribuição do euirim.
- JavaScript: adicionado suporte para definir propriedades de serviço, conforme adicionado na versão 1.7.
- JavaScript: corrigido um problema em que um erro de conexão poderia resultar em tentativas contínuas e malsucedidas de reconexão do websocket.
Exemplos
- Adicionado exemplo de reconhecimento de palavra-chave para Android aqui.
- Adicionado exemplo de TTS para o cenário de servidor aqui.
- Adicionados inícios rápidos de conversação em vários dispositivos para C# e C++ aqui.
Outras alterações
- Tamanho otimizado da biblioteca principal do SDK no Android.
- O SDK na versão 1.9.0 e posteriores suporta ambos e
int
string
tipos no campo de versão de assinatura de voz para o Transcritor de Conversa.
Speech SDK 1.8.0: versão de novembro de 2019
Novas funcionalidades
- Adicionada uma
FromHost()
API, para facilitar o uso com contêineres locais e nuvens soberanas. - Adicionada identificação de idioma de origem para reconhecimento de fala (em Java e C++)
- Adicionado
SourceLanguageConfig
objeto para Reconhecimento de Fala, usado para especificar linguagens de origem esperadas (em Java e C++) - Adicionado
KeywordRecognizer
suporte em Windows (UWP), Android e iOS através dos pacotes NuGet e Unity - Adicionada API Java de Conversação Remota para fazer Transcrição de Conversação em lotes assíncronos.
Mudanças significativas
- Funcionalidades do transcritor de conversação movidas sob namespace
Microsoft.CognitiveServices.Speech.Transcription
. - Partes dos métodos do Transcritor de Conversação são movidas para uma nova
Conversation
classe. - Caiu o suporte para iOS de 32 bits (ARMv7 e x86)
Correções de erros
- Correção de falha se local
KeywordRecognizer
for usado sem uma chave de assinatura válida do serviço de Fala
Exemplos
- Exemplo de Xamarin para
KeywordRecognizer
- Amostra de unidade para
KeywordRecognizer
- Exemplos de C++ e Java para identificação automática da linguagem de origem.
Speech SDK 1.7.0: versão de setembro de 2019
Novas funcionalidades
- Adicionado suporte beta para Xamarin na Plataforma Universal do Windows (UWP), Android e iOS
- Adicionado suporte iOS para Unity
- Adicionado
Compressed
suporte de entrada para ALaw, Mulaw, FLAC, Android, iOS e Linux - Adicionado
SendMessageAsync
naConnection
classe para enviar uma mensagem ao serviço - Adicionado
SetMessageProperty
naConnection
classe para definir a propriedade de uma mensagem - O TTS adicionou ligações para Java (JRE e Android), Python, Swift e Objective-C
- TTS adicionou suporte de reprodução para macOS, iOS e Android.
- Adicionadas informações de "limite de palavras" para TTS.
Correções de erros
- Corrigido o problema de compilação IL2CPP no Unity 2019 para Android
- Corrigido o problema com cabeçalhos malformados na entrada de arquivo wav sendo processados incorretamente
- Corrigido o problema com UUIDs não sendo exclusivos em algumas propriedades de conexão
- Corrigidos alguns avisos sobre especificadores de anulabilidade nas ligações Swift (podem exigir pequenas alterações de código)
- Corrigido um bug que fazia com que as conexões websocket fossem fechadas ingraciosamente sob carga de rede
- Corrigido um problema no Android que, por vezes, resultava em IDs de impressão duplicados utilizados por
DialogServiceConnector
- Melhorias na estabilidade das conexões em interações multiturno e no relatório de falhas (via
Canceled
eventos) quando ocorrem comDialogServiceConnector
DialogServiceConnector
Os inícios de sessão agora fornecerão eventos corretamente, inclusive ao chamarListenOnceAsync()
durante um ativoStartKeywordRecognitionAsync()
- Resolução de uma falha associada a
DialogServiceConnector
atividades recebidas
Exemplos
- Guia de início rápido para Xamarin
- Informações atualizadas de início rápido do CPP com Linux Arm64
- Guia de início rápido atualizado do Unity com informações do iOS
Speech SDK 1.6.0: versão de junho de 2019
Exemplos
- Exemplos de início rápido para conversão de texto em fala na UWP e no Unity
- Exemplo de início rápido para Swift no iOS
- Exemplos Unity para Reconhecimento de Fala e Intenção e Tradução
- Exemplos de início rápido atualizados para
DialogServiceConnector
Melhorias / Alterações
- Namespace da caixa de diálogo:
SpeechBotConnector
mudou de nome paraDialogServiceConnector
BotConfig
mudou de nome paraDialogServiceConfig
BotConfig::FromChannelSecret()
foi remapeado paraDialogServiceConfig::FromBotSecret()
- Todos os clientes de Direct Line Speech existentes continuam a ser suportados após a mudança de nome
- Atualize o adaptador TTS REST para suportar proxy e conexão persistente
- Melhorar a mensagem de erro quando uma região inválida é passada
- Swift/Objectivo-C:
- Relatório de erros aprimorado: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um
NSError
objeto para tratamento de erros e outra que gera uma exceção. Os primeiros estão expostos a Swift. Esta alteração requer adaptações ao código Swift existente. - Tratamento de eventos melhorado
- Relatório de erros aprimorado: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um
Correções de erros
- Correção para TTS: onde
SpeakTextAsync
o futuro retornou sem esperar até que o áudio tenha concluído a renderização - Correção para empacotar cadeias de caracteres em C# para habilitar o suporte total a idiomas
- Correção para o problema do aplicativo principal do .NET para carregar a biblioteca principal com a estrutura de destino net461 em exemplos
- Correção de problemas ocasionais para implantar bibliotecas nativas na pasta de saída em exemplos
- Correção para fechamento de soquete da Web de forma confiável
- Correção para possível falha ao abrir uma conexão sob carga pesada no Linux
- Correção para metadados ausentes no pacote de estrutura para macOS
- Correção para problemas com
pip install --user
no Windows
SDK de fala 1.5.1
Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.
Correções de erros
- Corrija FromSubscription quando usado com a transcrição de conversa.
- Corrija bug na deteção de palavras-chave para Assistentes de Voz.
Speech SDK 1.5.0: versão de maio de 2019
Novas funcionalidades
- Keyword spotting (KWS) já está disponível para Windows e Linux. A funcionalidade KWS pode funcionar com qualquer tipo de microfone, no entanto, o suporte oficial do KWS está atualmente limitado às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK de Dispositivos de Fala.
- A funcionalidade de dica de frase está disponível através do SDK. Para obter mais informações, veja aqui.
- A funcionalidade de transcrição de conversas está disponível através do SDK.
- Adicione suporte para Assistentes de Voz usando o canal Direct Line Speech.
Exemplos
- Exemplos adicionados para novos recursos ou novos serviços suportados pelo SDK.
Melhorias / Alterações
- Adicionadas várias propriedades do reconhecedor para ajustar o comportamento do serviço ou os resultados do serviço (como mascarar palavrões e outros).
- Agora você pode configurar o reconhecedor por meio das propriedades de configuração padrão, mesmo que tenha criado o reconhecedor
FromEndpoint
. - Objective-C:
OutputFormat
propriedade foi adicionada aoSPXSpeechConfiguration
. - O SDK agora suporta Debian 9 como uma distribuição Linux.
Correções de erros
- Corrigido um problema em que o recurso de orador era destruído demasiado cedo na conversão de texto em voz.
SDK de fala 1.4.2
Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.
SDK de fala 1.4.1
Esta é uma versão somente JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:
- Impeça que o pacote da Web carregue https-proxy-agent.
Speech SDK 1.4.0: versão de abril de 2019
Novas funcionalidades
- O SDK agora suporta o serviço de conversão de texto em fala como uma versão beta. É suportado em Windows e Linux Desktop a partir de C++ e C#. Para obter mais informações, consulte a Visão geral de texto para fala.
- O SDK agora suporta arquivos de áudio MP3 e Opus/OGG como arquivos de entrada de fluxo. Este recurso está disponível apenas no Linux a partir de C++ e C# e está atualmente em versão beta (mais detalhes aqui).
- O Speech SDK para Java, .NET core, C++ e Objective-C ganharam suporte para macOS. O suporte Objective-C para macOS está atualmente em beta.
- iOS: O Speech SDK para iOS (Objective-C) agora também é publicado como um CocoaPod.
- JavaScript: Suporte para microfone não padrão como dispositivo de entrada.
- JavaScript: Suporte de proxy para Node.js.
Exemplos
- Foram adicionados exemplos para usar o Speech SDK com C++ e com Objective-C no macOS.
- Foram adicionados exemplos que demonstram a utilização do serviço Conversão de texto em voz.
Melhorias / Alterações
- Python: Propriedades adicionais dos resultados de reconhecimento agora são expostas por meio da
properties
propriedade. - Para suporte adicional de desenvolvimento e depuração, você pode redirecionar as informações de log e diagnóstico do SDK para um arquivo de log (mais detalhes aqui).
- JavaScript: Melhore o desempenho do processamento de áudio.
Correções de erros
- Mac/iOS: Foi corrigido um bug que levava a uma longa espera quando não era possível estabelecer uma ligação ao serviço de Voz.
- Python: melhorar o tratamento de erros para argumentos em retornos de chamada Python.
- JavaScript: Corrigido relatório de estado errado para fala terminada em RequestSession.
SDK de fala 1.3.1: atualização de fevereiro de 2019
Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.
Correção de bugs
- Corrigido um vazamento de memória ao usar a entrada do microfone. A entrada baseada em fluxo ou de arquivo não é afetada.
Speech SDK 1.3.0: versão de fevereiro de 2019
Novas funcionalidades
- O SDK de fala suporta a seleção do microfone de entrada através da
AudioConfig
classe. Isso permite que você transmita dados de áudio para o serviço de fala a partir de um microfone não padrão. Para obter mais informações, consulte a documentação que descreve a seleção de dispositivos de entrada de áudio. Esse recurso ainda não está disponível em JavaScript. - O SDK de fala agora suporta Unity em uma versão beta. Forneça comentários por meio da seção de problemas no repositório de exemplo do GitHub. Esta versão suporta Unity no Windows x86 e x64 (desktop ou aplicativos da Plataforma Universal do Windows) e Android (ARM32/64, x86). Mais informações estão disponíveis em nosso guia de início rápido Unity.
- O arquivo
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(enviado em versões anteriores) não é mais necessário. A funcionalidade agora está integrada ao SDK principal.
Exemplos
O novo conteúdo a seguir está disponível em nosso repositório de exemplo:
- Amostras adicionais para
AudioConfig.FromMicrophoneInput
. - Exemplos adicionais de Python para reconhecimento e tradução de intenção.
- Exemplos adicionais para usar o
Connection
objeto no iOS. - Amostras Java adicionais para tradução com saída de áudio.
- Novo exemplo para uso da API REST de transcrição em lote.
Melhorias / Alterações
- Píton
- Verificação de parâmetros e mensagens de erro aprimoradas no
SpeechConfig
. - Adicione suporte para o
Connection
objeto. - Suporte para Python de 32 bits (x86) no Windows.
- O SDK de Fala para Python está fora da versão beta.
- Verificação de parâmetros e mensagens de erro aprimoradas no
- iOS
- O SDK agora é construído com base no iOS SDK versão 12.1.
- O SDK agora suporta iOS versões 9.2 e posteriores.
- Melhore a documentação de referência e corrija vários nomes de propriedades.
- JavaScript
- Adicione suporte para o
Connection
objeto. - Adicionar arquivos de definição de tipo para JavaScript incluído
- Suporte inicial e implementação para dicas de frases.
- Retornar a coleção de propriedades com o serviço JSON para reconhecimento
- Adicione suporte para o
- As DLLs do Windows agora contêm um recurso de versão.
- Se você criar um reconhecedor
FromEndpoint
, poderá adicionar parâmetros diretamente à URL do ponto de extremidade. UsandoFromEndpoint
você não pode configurar o reconhecedor através das propriedades de configuração padrão.
Correções de erros
- O nome de usuário e a senha do proxy vazios não foram tratados corretamente. Com esta versão, se você definir o nome de usuário e a senha do proxy para uma cadeia de caracteres vazia, eles não serão enviados ao se conectar ao proxy.
- Os SessionId's criados pelo SDK nem sempre foram verdadeiramente aleatórios para algumas linguagens / ambientes. Adicionada inicialização aleatória do gerador para corrigir esse problema.
- Melhore o tratamento do token de autorização. Se você quiser usar um token de autorização, especifique e
SpeechConfig
deixe a chave de assinatura vazia. Em seguida, crie o reconhecedor como de costume. - Em alguns casos, o objeto não foi liberado
Connection
corretamente. Esse problema foi corrigido. - A amostra JavaScript foi corrigida para suportar saída de áudio para síntese de tradução também no Safari.
SDK de fala 1.2.1
Esta é uma versão somente JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:
- Fire end do fluxo em turn.end, não em speech.end.
- Corrija um bug na bomba de áudio que não agendava o próximo envio se o envio atual falhasse.
- Corrija o reconhecimento contínuo com o token de autenticação.
- Correção de bugs para diferentes reconhecedores / endpoints.
- Melhorias na documentação.
Speech SDK 1.2.0: versão de dezembro de 2018
Novas funcionalidades
- Píton
- A versão Beta do suporte Python (3.5 e superior) está disponível com esta versão. Para mais informações, ver aqui](.. /.. /quickstart-python.md).
- JavaScript
Connection
objeto- A partir do
Recognizer
, você pode acessar umConnection
objeto. Este objeto permite que você inicie explicitamente a conexão de serviço e se inscreva para conectar e desconectar eventos. (Este recurso ainda não está disponível em JavaScript e Python.)
- A partir do
- Suporte para Ubuntu 18.04.
- Androide
- Suporte ProGuard ativado durante a geração APK.
Melhorias
- Melhorias no uso de threads internos, reduzindo o número de threads, bloqueios, mutexes.
- Relatórios / informações de erros melhorados. Em vários casos, as mensagens de erro não foram propagadas até o fim.
- Dependências de desenvolvimento atualizadas em JavaScript para usar módulos atualizados.
Correções de erros
- Corrigidas fugas de memória devido a uma incompatibilidade de tipos no
RecognizeAsync
. - Em alguns casos, foram vazadas exceções.
- Correção de vazamento de memória em argumentos de evento de tradução.
- Corrigido um problema de bloqueio na reconexão em sessões de longa duração.
- Corrigido um problema que poderia levar à falta do resultado final por traduções com falha.
- C#: Se uma
async
operação não era esperada no thread principal, era possível que o reconhecedor pudesse ser descartado antes que a tarefa assíncrona fosse concluída. - Java: Corrigido um problema que resultava em uma falha da Java VM.
- Objetivo-C: Mapeamento de enum fixo; RecognizedIntent foi devolvido em vez de
RecognizingIntent
. - JavaScript: defina o formato de saída padrão como 'simples' em
SpeechConfig
. - JavaScript: Removendo a inconsistência entre propriedades no objeto config em JavaScript e outras linguagens.
Exemplos
- Atualizado e corrigido vários exemplos (por exemplo, vozes de saída para tradução, etc.).
- Adicionado Node.js amostras no repositório de exemplos.
SDK de fala 1.1.0
Novas funcionalidades
- Suporte para Android x86/x64.
- Suporte a proxy: No
SpeechConfig
objeto, agora você pode chamar uma função para definir as informações de proxy (nome do host, porta, nome de usuário e senha). Esta funcionalidade ainda não está disponível no iOS. - Código de erro e mensagens melhorados. Se um reconhecimento retornou um erro, ele já foi definido
Reason
(no evento cancelado) ouCancellationDetails
(no resultado do reconhecimento) comoError
. O evento cancelado agora contém dois membrosErrorCode
adicionais eErrorDetails
. Se o servidor retornou informações de erro adicionais com o erro relatado, ele estará disponível nos novos membros.
Melhorias
- Adicionada verificação adicional na configuração do reconhecedor e adicionada mensagem de erro adicional.
- Tratamento melhorado do silêncio de longa data no meio de um ficheiro de áudio.
- Pacote NuGet: para projetos do .NET Framework, ele impede a criação com a configuração AnyCPU.
Correções de erros
- Corrigidas várias exceções encontradas em reconhecedores. Além disso, as exceções são capturadas e convertidas em
Canceled
evento. - Corrija uma fuga de memória na gestão de propriedades.
- Corrigido bug em que um arquivo de entrada de áudio poderia travar o reconhecedor.
- Corrigido um bug em que os eventos podiam ser recebidos após um evento de interrupção de sessão.
- Corrigidas algumas condições de corrida no threading.
- Corrigido um problema de compatibilidade do iOS que podia resultar numa falha.
- Melhorias de estabilidade para suporte a microfone Android.
- Corrigido um bug em que um reconhecedor em JavaScript ignorava a linguagem de reconhecimento.
- Corrigido um bug que impedia a configuração do
EndpointId
(em alguns casos) em JavaScript. - Alterada a ordem dos parâmetros em AddIntent em JavaScript e adicionada a assinatura JavaScript ausente
AddIntent
.
Exemplos
- Adicionados exemplos de C++ e C# para uso de fluxo de pull e push no repositório de exemplo.
SDK de fala 1.0.1
Melhorias de confiabilidade e correções de bugs:
- Corrigido erro fatal potencial devido à condição de corrida na eliminação do reconhecedor
- Corrigido erro fatal potencial quando ocorrem propriedades não definidas.
- Adicionado erro adicional e verificação de parâmetros.
- Objective-C: Corrigido possível erro fatal causado pela substituição de nome no NSString.
- Objetivo-C: Visibilidade ajustada da API
- JavaScript: Corrigido em relação a eventos e suas cargas úteis.
- Melhorias na documentação.
Em nosso repositório de exemplo, um novo exemplo para JavaScript foi adicionado.
Azure AI Speech SDK 1.0.0: versão de setembro de 2018
Novas funcionalidades
- Suporte para Objective-C no iOS. Confira nosso guia de início rápido Objective-C para iOS.
- Suporte para JavaScript no navegador. Confira nosso guia de início rápido em JavaScript.
Mudanças significativas
- Com esta versão, uma série de mudanças de quebra são introduzidas. Consulte esta página para mais detalhes.
Azure AI Speech SDK 0.6.0: versão de agosto de 2018
Novas funcionalidades
- Os aplicativos UWP criados com o SDK de Fala agora podem passar pelo Kit de Certificação de Aplicativos Windows (WACK). Confira o início rápido da UWP.
- Suporte para .NET Standard 2.0 no Linux (Ubuntu 16.04 x64).
- Experimental: Suporte Java 8 no Windows (64-bit) e Linux (Ubuntu 16.04 x64). Confira o início rápido do Java Runtime Environment.
Mudança funcional
- Exponha informações adicionais de detalhes de erro sobre erros de conexão.
Mudanças significativas
- Em Java (Android), a
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
função não requer mais um parâmetro path. Agora o caminho é detetado automaticamente em todas as plataformas suportadas. - O get-accessor da propriedade
EndpointUrl
em Java e C# foi removido.
Correções de erros
- Em Java, o resultado da síntese de áudio no reconhecedor de tradução é implementado agora.
- Corrigido um bug que poderia causar threads inativos e um maior número de soquetes abertos e não utilizados.
- Corrigido um problema, em que um reconhecimento de longa duração podia terminar no meio da transmissão.
- Corrigida uma condição de corrida no desligamento do reconhecedor.
Azure AI Speech SDK 0.5.0: versão de julho de 2018
Novas funcionalidades
- Suporte plataforma Android (API 23: Android 6.0 Marshmallow ou superior). Confira o início rápido do Android.
- Suporte .NET Standard 2.0 no Windows. Confira o início rápido do .NET Core.
- Experimental: Suporte UWP no Windows (versão 1709 ou posterior).
- Confira o início rápido da UWP.
- Observe que os aplicativos UWP criados com o SDK de Fala ainda não passam pelo Kit de Certificação de Aplicativos Windows (WACK).
- Suporta reconhecimento de longa duração com reconexão automática.
Alterações funcionais
StartContinuousRecognitionAsync()
Suporta reconhecimento de longa duração.- O resultado do reconhecimento contém mais campos. Eles são deslocados do início e duração do áudio (ambos em ticks) do texto reconhecido e valores adicionais que representam o status de reconhecimento, por exemplo,
InitialSilenceTimeout
eInitialBabbleTimeout
. - Suporte AuthorizationToken para criar instâncias de fábrica.
Mudanças significativas
- Eventos de reconhecimento:
NoMatch
o tipo de evento foi mesclado aoError
evento. - SpeechOutputFormat em C# foi renomeado para
OutputFormat
permanecer alinhado com C++. - O tipo de retorno de alguns métodos da
AudioInputStream
interface mudou ligeiramente:- Em Java, o
read
método agora retornalong
em vez deint
. - Em C#, o
Read
método agora retornauint
em vez deint
. - Em C++, os
Read
métodos eGetFormat
agora retornamsize_t
em vez deint
.
- Em Java, o
- C++: Instâncias de fluxos de entrada de áudio agora podem ser passadas apenas como um
shared_ptr
arquivo .
Correções de erros
- Corrigidos valores de retorno incorretos no resultado quando
RecognizeAsync()
o tempo limite expira. - A dependência de bibliotecas de fundação de mídia no Windows foi removida. O SDK agora usa APIs de áudio principal.
- Correção de documentação: adicionada uma página de regiões para descrever as regiões suportadas.
Problema Conhecido
- O SDK de fala para Android não relata resultados de síntese de fala para tradução. Esse problema será corrigido na próxima versão.
Azure AI Speech SDK 0.4.0: versão de junho de 2018
Alterações funcionais
AudioInputStream
Um reconhecedor agora pode consumir um fluxo como fonte de áudio. Para obter mais informações, consulte o guia de instruções relacionado.
Formato de saída detalhado
Ao criar um
SpeechRecognizer
formato , você pode solicitarDetailed
ouSimple
produzir. ODetailedSpeechRecognitionResult
contém um escore de confiança, texto reconhecido, forma lexical crua, forma normalizada e forma normalizada com palavrões mascarados.
Quebrando a mudança
- Alterado para
SpeechRecognitionResult.Text
deSpeechRecognitionResult.RecognizedText
em C#.
Correções de erros
- Corrigido um possível problema de retorno de chamada na camada USP durante o desligamento.
- Se um reconhecedor consumisse um arquivo de entrada de áudio, ele estava segurando o identificador de arquivo por mais tempo do que o necessário.
- Removidos vários bloqueios entre a bomba de mensagens e o reconhecedor.
- Dispare um
NoMatch
resultado quando a resposta do serviço estiver esgotada. - As bibliotecas de fundação de mídia no Windows são carregadas com atraso. Esta biblioteca é necessária apenas para entrada de microfone.
- A velocidade de upload para dados de áudio é limitada a cerca de duas vezes a velocidade de áudio original.
- No Windows, os assemblies C# .NET agora têm nomes fortes.
- Correção de documentação:
Region
são informações necessárias para criar um reconhecedor.
Mais amostras foram adicionadas e estão sendo constantemente atualizadas. Para obter o conjunto de exemplos mais recente, consulte o repositório GitHub de exemplos do SDK de fala.
Azure AI Speech SDK 0.2.12733: versão de maio de 2018
Esta versão é a primeira versão de visualização pública do SDK de Fala do Azure AI.