Aanbevolen procedures voor het trainen van spraakmodellen
Notitie
Aanpassing van spraakmodel, inclusief uitspraaktraining, wordt alleen ondersteund in proefversies van Video Indexer Azure en Resource Manager-accounts. Het wordt niet ondersteund in klassieke accounts. Zie het Azure AI Video Indexer-account bijwerken voor hulp bij het bijwerken van uw accounttype zonder kosten. Zie Een taalmodel aanpassen voor hulp bij het gebruik van de aangepaste taalervaring.
Via Azure AI Video Indexer-integratie met Azure AI Speech-services wordt een Universal Language-model gebruikt als basismodel dat is getraind met gegevens die eigendom zijn van Microsoft en veelgebruikte gesproken taal weerspiegelt. Het basismodel is vooraf getraind met dialecten en fonetiek die verschillende gemeenschappelijke domeinen vertegenwoordigen. Het basismodel werkt goed in de meeste scenario's voor spraakherkenning.
Soms verwerkt de transcriptie van het basismodel echter niet nauwkeurig wat inhoud. In deze situaties kan een aangepast spraakmodel worden gebruikt om de herkenning van domeinspecifieke woordenlijst of uitspraak die specifiek is voor uw inhoud te verbeteren door tekstgegevens te verstrekken om het model te trainen. Door het proces van het maken en aanpassen van spraakaanpassingsmodellen, kan uw inhoud correct worden getranscribeerd. Er worden geen extra kosten in rekening gebracht voor het gebruik van Video Indexers-spraakaanpassing.
Wanneer gebruikt u een aangepast spraakmodel?
Als uw inhoud branchespecifieke terminologie bevat of wanneer u de transcriptieresultaten van Video Indexer bekijkt, kunt u een aangepast spraakmodel maken en trainen om de termen te herkennen en de transcriptiekwaliteit te verbeteren. Het kan alleen de moeite waard zijn om een aangepast model te maken als de relevante woorden en namen naar verwachting herhaaldelijk worden weergegeven in de inhoud die u wilt indexeren. Het trainen van een model is soms een iteratief proces. Na de eerste training kunnen de resultaten nog steeds verbetering gebruiken en profiteren van aanvullende training. Zie De sectie Uw aangepaste model verbeteren voor hulp.
Als u echter merkt dat een paar woorden of namen onjuist zijn getranscribeerd in het transcript, is een aangepast spraakmodel mogelijk niet nodig, met name als de woorden of namen niet naar verwachting worden gebruikt in inhoud die u in de toekomst plant te indexeren. U kunt het transcript alleen bewerken en corrigeren op de Website van Video Indexer (zie Transcripties weergeven en bijwerken op de website van Azure AI Video Indexer) en hoeft dit niet te verhelpen via een aangepast spraakmodel.
Zie de kolommen Aanpassing en Uitspraak van de tabel taalondersteuning in Taalondersteuning in Azure AI Video Indexer voor een lijst met talen die aangepaste modellen en uitspraak ondersteunen.
Gegevenssets trainen
Wanneer u een video indexeert, kunt u een aangepast spraakmodel gebruiken om de transcriptie te verbeteren. Modellen worden getraind door ze te laden met gegevenssets die tekst zonder opmaak en uitspraakgegevens kunnen bevatten.
Tekst die wordt gebruikt om een aangepast model te testen en te trainen, moet voorbeelden bevatten van een diverse set inhoud en scenario's die u door uw model wilt herkennen. Houd rekening met de volgende factoren bij het maken en trainen van uw gegevenssets:
- Voeg tekst toe die betrekking heeft op de soorten mondelinge instructies die uw gebruikers maken wanneer ze met uw model werken. Als uw inhoud bijvoorbeeld voornamelijk is gerelateerd aan een sport, traint u het model met inhoud met terminologie en onderwerp met betrekking tot de sport.
- Neem alle spraakvariantie op die u wilt herkennen aan uw model. Veel factoren kunnen spraak variëren, waaronder accenten, dialecten en taalmenging.
- Neem alleen gegevens op die relevant zijn voor inhoud die u wilt transcriberen. Het opnemen van andere gegevens kan de kwaliteit van de herkenning in het algemeen schaden.
Gegevenssettypen
Er zijn twee typen gegevenssets die u kunt gebruiken voor aanpassing. Raadpleeg de volgende tabel om te bepalen welke gegevensset moet worden gebruikt om uw problemen op te lossen:
Gebruiksscenario | Gegevenstype |
---|---|
Verbeter de nauwkeurigheid van herkenning op branchespecifieke woordenlijst en grammatica, zoals medische terminologie of IT-jargon. | Tekst zonder opmaak |
Definieer de fonetische en weergegeven vorm van een woord of term met een niet-standaard uitspraak, zoals productnamen of acroniemen. | Uitspraakgegevens |
Gegevens zonder opmaak voor training
Een gegevensset met tekst zonder opmaak van gerelateerde tekst kan worden gebruikt om de herkenning van domeinspecifieke woorden en woordgroepen te verbeteren. Gerelateerde tekstzinnen kunnen vervangingsfouten met betrekking tot onjuiste cognitieve woorden en domeinspecifieke woorden verminderen door ze in context weer te geven. Domeinspecifieke woorden kunnen ongebruikelijke of samengestelde woorden zijn, maar hun uitspraak moet eenvoudig worden herkend.
Aanbevolen procedures voor gegevenssets met tekst zonder opmaak
- Geef domeingerelateerde zinnen op in één tekstbestand. In plaats van volledige zinnen te gebruiken, kunt u een lijst met woorden uploaden. Hoewel dit echter aan de woordenlijst toevoegt, leert het systeem niet hoe de woorden gewoonlijk worden gebruikt. Door volledige of gedeeltelijke uitingen (zinnen of woordgroepen van dingen die gebruikers waarschijnlijk zullen zeggen) op te geven, kan het taalmodel de nieuwe woorden leren en hoe ze worden gebruikt. Het aangepaste taalmodel is niet alleen geschikt voor het toevoegen van nieuwe woorden aan het systeem, maar ook voor het aanpassen van de kans op bekende woorden voor uw toepassing. Het leveren van volledige utterances helpt het systeem beter te leren.
- Gebruik tekstgegevens die dicht bij de verwachte gesproken utterances liggen. Uitingen hoeven niet volledig of grammaticaal correct te zijn, maar ze moeten de gesproken invoer weerspiegelen die u verwacht dat het model moet herkennen.
- Probeer elke zin of elk trefwoord op een afzonderlijke regel te plaatsen.
- Als u het gewicht van een term zoals productnamen wilt verhogen, voegt u verschillende zinnen toe die de term bevatten.
- Voor veelvoorkomende woordgroepen die in uw inhoud worden gebruikt, is het handig om veel voorbeelden te geven, omdat het systeem wordt geïnformeerd om naar deze termen te luisteren.
- Vermijd het opnemen van ongebruikelijke symbolen (~, # @ % &) als wordt verwijderd. De zinnen waarin ze worden weergegeven, worden ook verwijderd.
- Vermijd het plaatsen van te grote invoer, zoals honderdduizenden zinnen, omdat dit het effect van stimuleren verwatert.
Gebruik deze tabel om ervoor te zorgen dat het gegevenssetbestand met tekst zonder opmaak correct is opgemaakt:
Eigenschappen | Waarde |
---|---|
Tekstcodering | UTF-8 BOM |
Aantal utterances per regel | 1 |
Maximale bestandsgrootte | 200 MB |
Volg deze richtlijnen in uw tekstbestanden zonder opmaak:
- Vermijd herhalende tekens, woorden of groepen woorden meer dan drie keer, zoals Ja ja ja, omdat de service regels met te veel herhalingen kan verwijderen.
- Gebruik geen speciale tekens of UTF-8 tekens boven U+00A1.
- URI's worden geweigerd.
- Voor sommige talen, zoals Japans of Koreaans, kan het importeren van grote hoeveelheden tekstgegevens lang duren of kan er een time-out optreedt. Overweeg om de gegevensset te verdelen in meerdere tekstbestanden met maximaal 20.000 regels in elk bestand.
Uitspraakgegevens voor training
U kunt een aangepaste uitspraakgegevensset toevoegen aan uw aangepaste spraakmodel om de herkenning van verkeerd aangekondigde woorden, woordgroepen of namen te verbeteren.
Uitspraakgegevenssets moeten de gesproken vorm van een woord of woordgroep en het herkende weergegeven formulier bevatten. Het gesproken formulier is de fonetische volgorde die is gespeld, zoals 'Triple A'. Het kan bestaan uit letters, woorden, lettergrepen of een combinatie van alle drie. Het herkende weergegeven formulier is hoe u wilt dat het woord of de woordgroep in de transcriptie wordt weergegeven. Deze tabel bevat enkele voorbeelden:
Herkend weergegeven formulier | Gesproken formulier |
---|---|
3CPO | drie c p o |
CNTK | c n t k |
AAA | Drie keer A |
U geeft uitspraakgegevenssets in één tekstbestand. Neem de gesproken utterance en een aangepaste uitspraak voor elk op. Elke rij in het bestand moet beginnen met het herkende formulier, vervolgens een tabteken en vervolgens de door spaties gescheiden fonetische reeks.
3CPO three c p o
CNTK c n t k
IEEE i triple e
Houd rekening met het volgende bij het maken en trainen van uitspraakgegevenssets:
Het wordt niet aanbevolen om aangepaste uitspraakbestanden te gebruiken om de uitspraak van algemene woorden te wijzigen.
Als er een paar variaties zijn van hoe een woord of naam onjuist wordt getranscribeerd, kunt u overwegen om sommige of allemaal te gebruiken bij het trainen van de uitspraakgegevensset. Als Robert bijvoorbeeld vijf keer wordt vermeld in de video en getranscribeerd als Robort, Ropert en overvallen. U kunt proberen alle variaties in het bestand op te slaan zoals in het volgende voorbeeld, maar wees voorzichtig bij het trainen met echte woorden zoals overvallen alsof overvallen worden vermeld in de video, het wordt getranscribeerd als Robert.
Robert Roport
Robert Ropert
Robert Robbers
Uitspraakmodel is niet bedoeld om acroniemen aan te pakken. Als u bijvoorbeeld wilt dat Doctor wordt getranscribeerd als Dr., kan dit niet worden bereikt via een uitspraakmodel.
Raadpleeg de volgende tabel om ervoor te zorgen dat uw uitspraakgegevenssetbestanden geldig en correct zijn opgemaakt.
Eigenschappen | Waarde |
---|---|
Tekstcodering | UTF-8 BOM (ANSI wordt ook ondersteund voor Engels) |
Aantal uitspraken per regel | 1 |
Maximale bestandsgrootte | 1 MB (1 kB voor gratis laag) |
Uw aangepaste modellen verbeteren
Het trainen van een uitspraakmodel kan een iteratief proces zijn, omdat u meer kennis krijgt over de uitspraak van het onderwerp na de eerste training en evaluatie van de resultaten van uw model. Aangezien bestaande modellen niet kunnen worden bewerkt of gewijzigd, vereist het iteratief trainen van een model het maken en uploaden van gegevenssets met aanvullende informatie en het trainen van nieuwe aangepaste modellen op basis van de nieuwe gegevenssets. Vervolgens zou u de mediabestanden opnieuw indexeren met het nieuwe aangepaste spraakmodel.
Voorbeeld:
Stel dat u van plan bent sportinhoud te indexeren en nauwkeurigheidsproblemen met specifieke sportterminologie en in de namen van spelers en coaches te anticiperen. Voordat u indexeert, hebt u een spraakmodel gemaakt met een gegevensset met tekst zonder opmaak met inhoud met relevante sportterminologie en een uitspraakgegevensset met enkele namen van spelers en coaches. U indexeert een paar video's met behulp van het aangepaste spraakmodel en bij het controleren van de gegenereerde transcriptie, merkt u dat hoewel de terminologie correct is getranscribeerd, veel namen niet zijn. U kunt de volgende stappen uitvoeren om de prestaties in de toekomst te verbeteren:
Controleer de transcriptie en noteer alle onjuist getranscribeerde namen. Ze kunnen in twee groepen vallen:
- Namen niet in het uitspraakbestand.
- Namen in het uitspraakbestand, maar ze zijn nog steeds onjuist getranscribeerd.
Maak een nieuw gegevenssetbestand. Download het uitspraakgegevenssetbestand of pas het lokaal opgeslagen origineel aan. Voor groep A voegt u de nieuwe namen toe aan het bestand met de manier waarop ze onjuist zijn getranscribeerd (Michael Mikel). Voor groep B voegt u extra regels toe met elke regel met de juiste naam en een uniek voorbeeld van hoe deze onjuist is getranscribeerd. Voorbeeld:
Stephen Steven
Stephen Steafan
Stephen Steevan
Upload dit bestand als een nieuw gegevenssetbestand.
Maak een nieuw spraakmodel en voeg de oorspronkelijke gegevensset voor tekst zonder opmaak en het nieuwe uitspraakgegevenssetbestand toe.
Indexer de video opnieuw met het nieuwe spraakmodel.
Herhaal indien nodig stap 1-5 totdat de resultaten bevredigend zijn.