Wat is het Fluistermodel?
Het Whisper-model is een spraak-naar-tekstmodel van OpenAI dat u kunt gebruiken om audiobestanden te transcriberen. Het model wordt getraind op een grote gegevensset met Engelse audio en tekst. Het model is geoptimaliseerd voor het transcriberen van audiobestanden die spraak in het Engels bevatten. Het model kan ook worden gebruikt voor het transcriberen van audiobestanden die spraak in andere talen bevatten. De uitvoer van het model is Engelse tekst.
Fluistermodellen zijn beschikbaar via de Azure OpenAI-service of via Azure AI Speech. De functies verschillen voor deze aanbiedingen. In Azure AI Speech (batchtranscriptie) is Whisper slechts een van de verschillende modellen die u kunt gebruiken voor spraak-naar-tekst.
U kunt het volgende vragen:
Is het Fluistermodel een goede keuze voor mijn scenario of is een Azure AI Speech-model beter? Wat zijn de API-vergelijkingen tussen de twee typen modellen?
Als ik het Fluistermodel wil gebruiken, moet ik het gebruiken via de Azure OpenAI-service of via Azure AI Speech? Wat zijn de scenario's die mij helpen om een of meer te gebruiken?
Fluistermodel of Azure AI Speech-modellen
Het Fluistermodel of de Azure AI Speech-modellen zijn geschikt, afhankelijk van uw scenario's. Als u besluit Azure AI Speech te gebruiken, kunt u kiezen uit verschillende modellen, waaronder het Fluistermodel. In de volgende tabel worden opties vergeleken met aanbevelingen over waar u moet beginnen.
Scenario | Fluistermodel | Azure AI Speech-modellen |
---|---|---|
Realtime transcripties, bijschriften en ondertitels voor audio en video. | Niet beschikbaar | Aanbevolen |
Transcripties, bijschriften en ondertitels voor vooraf opgenomen audio en video. | Het Whisper-model via Azure OpenAI wordt aanbevolen voor een snelle verwerking van afzonderlijke audiobestanden. Het Fluistermodel via Azure AI Speech (batchtranscriptie) wordt aanbevolen voor batchverwerking van grote bestanden. Zie Fluistermodel via Azure AI Speech-batchtranscriptie of via Azure OpenAI Service voor meer informatie? | Aanbevolen voor batchverwerking van grote bestanden, diarisatie en tijdstempels op woordniveau. |
Transcriptie van opnamen en analyses van telefoongesprekken, zoals gespreksoverzicht, sentiment, belangrijke onderwerpen en aangepaste inzichten. | Beschikbaar | Aanbevolen |
Realtime transcriptie en analyses om callcentermedewerkers te helpen met vragen van klanten. | Niet beschikbaar | Aanbevolen |
Transcriptie van opnamen en analyses van vergaderingen, zoals samenvatting van vergaderingen, hoofdstukken van vergaderingen en extractie van actie-items. | Beschikbaar | Aanbevolen |
Realtime tekstinvoer en documentgeneratie via spraakdicteren. | Niet beschikbaar | Aanbevolen |
Spraakagent voor het contactcentrum: oproeproutering en interactieve spraakrespons voor callcenters. | Beschikbaar | Aanbevolen |
Spraakassistent: Toepassingsspecifieke spraakassistent voor een set-top box, mobiele app, auto en andere scenario's. | Beschikbaar | Aanbevolen |
Uitspraakbeoordeling: Beoordeel de uitspraak van de stem van een spreker. | Niet beschikbaar | Aanbevolen |
Vertaal live audio van de ene taal naar de andere. | Niet beschikbaar | Aanbevolen via de spraakomzettings-API |
Vertaal vooraf opgenomen audio uit andere talen in het Engels. | Aanbevolen | Beschikbaar via de spraakomzettings-API |
Vertaal vooraf opgenomen audio in andere talen dan Engels. | Niet beschikbaar | Aanbevolen via de spraakomzettings-API |
Fluistermodel via Azure AI Speech of via Azure OpenAI Service?
Als u besluit het Fluistermodel te gebruiken, hebt u twee opties. U kunt kiezen of u het Fluistermodel wilt gebruiken via Azure OpenAI of via Azure AI Speech (batchtranscriptie). In beide gevallen is de leesbaarheid van de getranscribeerde tekst hetzelfde. U kunt audio in gemengde talen invoeren en de uitvoer is in het Engels.
Fluistermodel via De Azure OpenAI-service is mogelijk het beste voor:
- Snel audiobestanden één voor één transcriberen
- Audio uit andere talen vertalen in het Engels
- Geef een prompt op aan het model om de uitvoer te begeleiden
- Ondersteunde bestandsindelingen: mp3, mp4, mpweg, mpga, m4a, wav en webm
- Alleen ASCII-teken ondersteund voor bestandsnaam
Fluistermodel via Azure AI Speech-batchtranscriptie is mogelijk het beste voor:
- Bestanden transcriberen die groter zijn dan 25 MB (maximaal 1 GB). De bestandsgrootte voor het Azure OpenAI Whisper-model is 25 MB.
- Grote batches audiobestanden transscriberen.
- Diarisatie om onderscheid te maken tussen de verschillende sprekers die deelnemen aan het gesprek. De Speech-service biedt informatie over welke spreker een bepaald deel van getranscribeerde spraak sprak. Het Whisper-model via Azure OpenAI biedt geen ondersteuning voor diarisatie.
- Tijdstempels op Word-niveau
- Ondersteunde bestandsindelingen: mp3, wav en msp.
Regionale ondersteuning is een andere overweging.
- Het Whisper-model via Azure OpenAI Service is beschikbaar in de volgende regio's: VS - oost 2, India - zuid, Noord-centraal, Noorwegen - oost, Zweden - centraal, Zwitserland - noord en Europa - west.
- Het Fluistermodel via Azure AI Speech is beschikbaar in de volgende regio's: Australië - oost, VS - oost, VS - noord-centraal, VS - zuid-centraal, Azië - zuidoost, VK - zuid en Europa - west.