Trainings- en testgegevenssets uploaden voor aangepaste spraak

Artikel
10/16/2024

U hebt audio- of tekstgegevens nodig om de nauwkeurigheid van spraakherkenning te testen of uw aangepaste modellen te trainen. Zie Gegevenssets trainen en testen voor informatie over de gegevenstypen die worden ondersteund voor het testen of trainen van uw model.

Tip

U kunt ook de online transcriptie-editor gebruiken om gelabelde audiogegevenssets te maken en verfijnen.

Gegevenssets uploaden

Als u uw eigen gegevenssets wilt uploaden in Speech Studio, voert u de volgende stappen uit:

Meld u aan bij Speech Studio.
Selecteer Aangepaste spraak> uw projectnaam> Speech-gegevenssets>Uploadgegevens.
Selecteer het tabblad Trainingsgegevens of Testgegevens .
Selecteer een gegevenssettype en selecteer vervolgens Volgende.
Geef de locatie van de gegevensset op en selecteer vervolgens Volgende. U kunt een lokaal bestand kiezen of een externe locatie opgeven, zoals azure Blob-URL. Als u externe locatie selecteert en u geen vertrouwd beveiligingsmechanisme voor Azure-services gebruikt, moet de externe locatie een URL zijn die kan worden opgehaald met een eenvoudige anonieme GET-aanvraag. Bijvoorbeeld een SAS-URL of een openbaar toegankelijke URL. URL's waarvoor extra autorisatie is vereist of verwacht dat gebruikersinteractie niet wordt ondersteund.

Notitie

Als u azure Blob-URL gebruikt, kunt u de maximale beveiliging van uw gegevenssetbestanden garanderen met behulp van een vertrouwd Azure Services-beveiligingsmechanisme. U gebruikt dezelfde technieken als voor Batch-transcriptie en URL's van opslagaccount zonder opmaak voor uw gegevenssetbestanden. Hier vindt u meer informatie.
Voer de naam en beschrijving van de gegevensset in en selecteer vervolgens Volgende.
Controleer uw instellingen en selecteer Opslaan en sluiten.

Nadat uw gegevensset is geüpload, gaat u naar de pagina Aangepaste modellen trainen om een aangepast model te trainen.

Met de Speech CLI en Speech to text REST API, in tegenstelling tot de Speech Studio, kiest u niet of een gegevensset moet worden getest of getraind op het moment van uploaden. U geeft op hoe een gegevensset wordt gebruikt wanneer u een model traint of een test uitvoert.

Hoewel u niet aangeeft of de gegevensset bedoeld is voor testen of trainen, moet u het type gegevensset opgeven. Het type gegevensset wordt gebruikt om te bepalen welk type gegevensset wordt gemaakt. In sommige gevallen wordt een gegevenssettype alleen gebruikt voor testen of trainen, maar u moet daar geen afhankelijkheid van nemen. De waarden van de Speech CLI en REST API kind komen overeen met de opties in Speech Studio, zoals beschreven in de volgende tabel:

CLI- en API-soort	Opties voor Speech Studio
Akoestisch	Trainingsgegevens: Audio + human-labeled transcript Testgegevens: Transcript (automatische audiosynthese) Testgegevens: Audio + door mensen gelabelde transcriptie
AudioFiles	Testgegevens: Audio
Taal	Trainingsgegevens: Tekst zonder opmaak
LanguageMarkdown	Trainingsgegevens: Gestructureerde tekst in Markdown-indeling
Uitspraak	Trainingsgegevens: Uitspraak
OutputFormatting	Trainingsgegevens: Uitvoerindeling

Belangrijk

U gebruikt de Speech CLI of REST API niet om gegevensbestanden rechtstreeks te uploaden. Eerst slaat u de trainings- of testgegevenssetbestanden op op een URL waartoe de Speech CLI of REST API toegang heeft. Nadat u de gegevensbestanden hebt geüpload, kunt u de Speech CLI of REST API gebruiken om een gegevensset te maken voor aangepaste spraaktests of -training.

Gebruik de spx csr dataset create opdracht om een gegevensset te maken en deze te verbinden met een bestaand project. Bouw de aanvraagparameters volgens de volgende instructies:

Stel de project parameter in op de id van een bestaand project. Deze parameter wordt aanbevolen, zodat u de gegevensset ook kunt bekijken en beheren in Speech Studio. U kunt de spx csr project list opdracht uitvoeren om beschikbare projecten op te halen.
Stel de vereiste kind parameter in. De mogelijke set waarden voor een type trainingsgegevensset zijn: Acoustic, AudioFiles, Language, LanguageMarkdown en Uitspraak.
Stel de vereiste contentUrl parameter in. Deze parameter is de locatie van de gegevensset. Als u geen vertrouwd Azure Services-beveiligingsmechanisme gebruikt (zie volgende opmerking), moet de contentUrl parameter een URL zijn die kan worden opgehaald met een eenvoudige anonieme GET-aanvraag. Bijvoorbeeld een SAS-URL of een openbaar toegankelijke URL. URL's waarvoor extra autorisatie is vereist of verwacht dat gebruikersinteractie niet wordt ondersteund.

Notitie

Als u azure Blob-URL gebruikt, kunt u de maximale beveiliging van uw gegevenssetbestanden garanderen met behulp van een vertrouwd Azure Services-beveiligingsmechanisme. U gebruikt dezelfde technieken als voor Batch-transcriptie en URL's van opslagaccount zonder opmaak voor uw gegevenssetbestanden. Hier vindt u meer informatie.
Stel de vereiste language parameter in. De landinstelling van de gegevensset moet overeenkomen met de landinstelling van het project. De landinstelling kan later niet meer worden gewijzigd. De speech CLI-parameter language komt overeen met de locale eigenschap in de JSON-aanvraag en het antwoord.
Stel de vereiste name parameter in. Deze parameter is de naam die wordt weergegeven in Speech Studio. De speech CLI-parameter name komt overeen met de displayName eigenschap in de JSON-aanvraag en het antwoord.

Hier volgt een voorbeeld van een Speech CLI-opdracht die een gegevensset maakt en deze verbindt met een bestaand project:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

De eigenschap op het hoogste niveau self in de hoofdtekst van het antwoord is de URI van de gegevensset. Gebruik deze URI voor meer informatie over het project en de bestanden van de gegevensset. U gebruikt deze URI ook om een gegevensset bij te werken of te verwijderen.

Voer de volgende opdracht uit voor Speech CLI-hulp bij gegevenssets:

spx help csr dataset

CLI- en API-soort	Opties voor Speech Studio
Akoestisch	Trainingsgegevens: Audio + human-labeled transcript Testgegevens: Transcript (automatische audiosynthese) Testgegevens: Audio + door mensen gelabelde transcriptie
AudioFiles	Testgegevens: Audio
Taal	Trainingsgegevens: Tekst zonder opmaak
LanguageMarkdown	Trainingsgegevens: Gestructureerde tekst in Markdown-indeling
Uitspraak	Trainingsgegevens: Uitspraak
OutputFormatting	Trainingsgegevens: Uitvoerindeling

Belangrijk

Als u een gegevensset wilt maken en deze wilt verbinden met een bestaand project, gebruikt u de Datasets_Create bewerking van de Rest API voor spraak naar tekst. Bouw de aanvraagbody volgens de volgende instructies:

Stel de project eigenschap in op de URI van een bestaand project. Deze eigenschap wordt aanbevolen, zodat u de gegevensset ook kunt bekijken en beheren in Speech Studio. U kunt een Projects_List aanvraag indienen om beschikbare projecten op te halen.
Stel de vereiste kind eigenschap in. De mogelijke set waarden voor een type trainingsgegevensset zijn: Acoustic, AudioFiles, Language, LanguageMarkdown en Uitspraak.
Stel de vereiste contentUrl eigenschap in. Deze eigenschap is de locatie van de gegevensset. Als u geen vertrouwd Azure Services-beveiligingsmechanisme gebruikt (zie volgende opmerking), moet de contentUrl parameter een URL zijn die kan worden opgehaald met een eenvoudige anonieme GET-aanvraag. Bijvoorbeeld een SAS-URL of een openbaar toegankelijke URL. URL's waarvoor extra autorisatie is vereist of verwacht dat gebruikersinteractie niet wordt ondersteund.

Notitie

Als u azure Blob-URL gebruikt, kunt u de maximale beveiliging van uw gegevenssetbestanden garanderen met behulp van een vertrouwd Azure Services-beveiligingsmechanisme. U gebruikt dezelfde technieken als voor Batch-transcriptie en URL's van opslagaccount zonder opmaak voor uw gegevenssetbestanden. Hier vindt u meer informatie.
Stel de vereiste locale eigenschap in. De landinstelling van de gegevensset moet overeenkomen met de landinstelling van het project. De landinstelling kan later niet meer worden gewijzigd.
Stel de vereiste displayName eigenschap in. Deze eigenschap is de naam die wordt weergegeven in Speech Studio.

Maak een HTTP POST-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende voorbeeld. Vervang door YourSubscriptionKey de spraakresourcesleutel, vervang deze door YourServiceRegion uw spraakresourceregio en stel de eigenschappen van de aanvraagbody in zoals eerder beschreven.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Belangrijk

Het verbinden van een gegevensset met een aangepast spraakproject is niet vereist om een aangepast model te trainen en te testen met behulp van de REST API of Speech CLI. Maar als de gegevensset niet is verbonden met een project, kunt u deze niet selecteren voor training of testen in Speech Studio.

Delen via

Trainings- en testgegevenssets uploaden voor aangepaste spraak

Gegevenssets uploaden

Volgende stappen

Feedback

Aanvullende resources