De Azure AI Speech to Text-API gebruiken
De Azure AI Speech-service ondersteunt spraakherkenning via twee REST API's:
- De spraak-naar-tekst-API , de belangrijkste manier om spraakherkenning uit te voeren.
- De Spraak-naar-tekst-API voor korte audio , die is geoptimaliseerd voor korte audiostreams (maximaal 60 seconden).
U kunt beide API's gebruiken voor interactieve spraakherkenning, afhankelijk van de verwachte lengte van de gesproken invoer. U kunt ook de Spraak-naar-tekst-API gebruiken voor batchtranscriptie, meerdere audiobestanden transcriberen naar tekst als batchbewerking.
Meer informatie over de REST API's vindt u in de documentatie van de Speech to Text REST API. In de praktijk gebruiken de meeste interactieve spraaktoepassingen de Speech-service via een (programmeer)taalspecifieke SDK.
De Azure AI Speech SDK gebruiken
Hoewel de specifieke details variëren, afhankelijk van de SDK die wordt gebruikt (Python, C#, enzovoort); er is een consistent patroon voor het gebruik van de Spraak-naar-tekst-API :
- Gebruik een SpeechConfig-object om de informatie in te kapselen die nodig zijn om verbinding te maken met uw Azure AI Speech-resource. Met name de locatie en sleutel.
- U kunt eventueel een AudioConfig gebruiken om de invoerbron voor de audio te definiëren die moet worden getranscribeerd. Dit is standaard de standaardsysteemmicrofoon, maar u kunt ook een audiobestand opgeven.
- Gebruik speechConfig en AudioConfig om een SpeechRecognizer-object te maken. Dit object is een proxyclient voor de Spraak-naar-tekst-API .
- Gebruik de methoden van het SpeechRecognizer-object om de onderliggende API-functies aan te roepen. De methode RecognizeOnceAsync() maakt bijvoorbeeld gebruik van de Azure AI Speech-service om asynchroon één gesproken uiting te transcriberen.
- Het antwoord van de Azure AI Speech-service verwerken. In het geval van de methode RecognizeOnceAsync() is het resultaat een SpeechRecognitionResult-object dat de volgende eigenschappen bevat:
- Duur
- OffsetInTicks
- Eigenschappen
- Reden
- ResultId
- Sms verzenden
Als de bewerking is geslaagd, heeft de eigenschap Reason de opgesomde waarde RecognizedSpeech en bevat de eigenschap Text de transcriptie. Andere mogelijke waarden voor Resultaat zijn NoMatch (waarmee wordt aangegeven dat de audio is geparseerd, maar er geen spraak is herkend) of Geannuleerd, waarmee wordt aangegeven dat er een fout is opgetreden (in dat geval kunt u de verzameling Eigenschappen voor de eigenschap CancellationReason controleren om te bepalen wat er mis is gegaan).