Delen via


Wat is aangepaste spraak?

Met aangepaste spraak kunt u de nauwkeurigheid van spraakherkenning voor uw toepassingen en producten evalueren en verbeteren. Een aangepast spraakmodel kan worden gebruikt voor realtime spraak naar tekst, spraakomzetting en batchtranscriptie.

Spraakherkenning maakt gebruik van een Universal Language Model als basismodel dat is getraind met gegevens in eigendom van Microsoft en weerspiegelt veelgebruikte gesproken taal. Het basismodel is vooraf getraind met dialecten en fonetiek die verschillende gemeenschappelijke domeinen vertegenwoordigen. Wanneer u een aanvraag voor spraakherkenning maakt, wordt het meest recente basismodel voor elke ondersteunde taal standaard gebruikt. Het basismodel werkt goed in de meeste scenario's voor spraakherkenning.

Een aangepast model kan worden gebruikt om het basismodel te verbeteren om de herkenning van domeinspecifieke woordenlijsten die specifiek zijn voor de toepassing te verbeteren door tekstgegevens op te geven om het model te trainen. Het kan ook worden gebruikt om herkenning te verbeteren op basis van de specifieke audiovoorwaarden van de toepassing door audiogegevens te voorzien van referentietranscripties.

U kunt ook een model trainen met gestructureerde tekst wanneer de gegevens een patroon volgen, aangepaste uitspraken opgeven en weergavetekstopmaak aanpassen met aangepaste inverse tekstnormalisatie, aangepast herschrijven en filteren op aangepaste scheldwoorden.

Hoe werkt het?

Met aangepaste spraak kunt u uw eigen gegevens uploaden, een aangepast model testen en trainen, de nauwkeurigheid tussen modellen vergelijken en een model implementeren op een aangepast eindpunt.

Diagram waarin de onderdelen worden gemarkeerd waaruit het aangepaste spraakgebied van Speech Studio bestaat.

Hier vindt u meer informatie over de reeks stappen die in het vorige diagram worden weergegeven:

  1. Maak een project en kies een model. Gebruik een Spraak-resource die u in Azure Portal maakt. Als u een aangepast model traint met audiogegevens, kiest u een spraakresourceregio met toegewezen hardware voor het trainen van audiogegevens. Zie voetnoten in de tabel Regio's voor meer informatie.
  2. Testgegevens uploaden. Upload testgegevens om de spraak-naar-tekst-aanbieding voor uw toepassingen, hulpprogramma's en producten te evalueren.
  3. Kwaliteit van testherkenning. Gebruik Speech Studio om geüploade audio af te spelen en de kwaliteit van de spraakherkenning van uw testgegevens te inspecteren.
  4. Test het model kwantitatief. Evalueer en verbeter de nauwkeurigheid van het spraak-naar-tekstmodel. De Speech-service biedt een kwantitatief woordfoutpercentage (WER), dat u kunt gebruiken om te bepalen of er meer training nodig is.
  5. Een model trainen. Geef geschreven transcripten en gerelateerde tekst op, samen met de bijbehorende audiogegevens. Het testen van een model voor en na de training is optioneel, maar wordt aanbevolen.

    Notitie

    U betaalt voor het gebruik van aangepaste spraakmodellen en het hosten van eindpunten. Er worden ook kosten in rekening gebracht voor het trainen van aangepaste spraakmodellen als het basismodel is gemaakt op 1 oktober 2023 en hoger. Er worden geen kosten in rekening gebracht voor training als het basismodel vóór oktober 2023 is gemaakt. Zie de prijzen van Azure AI Speech en de sectie Kosten voor aanpassing in de migratiehandleiding voor spraak naar tekst 3.2 voor meer informatie.

  6. Een model implementeren. Zodra u tevreden bent met de testresultaten, implementeert u het model naar een aangepast eindpunt. Behalve voor batchtranscriptie moet u een aangepast eindpunt implementeren om een aangepast spraakmodel te gebruiken.

    Tip

    Een gehost implementatie-eindpunt is niet vereist voor het gebruik van aangepaste spraak met de Batch-transcriptie-API. U kunt resources besparen als het aangepaste spraakmodel alleen wordt gebruikt voor batchtranscriptie. Zie prijzen voor de Speech-service voor meer informatie.

Verantwoorde AI

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.

Volgende stappen