Nahrání trénovacích a testovacích datových sad pro vlastní řeč
K testování přesnosti rozpoznávání řeči nebo trénování vlastních modelů potřebujete zvuková nebo textová data. Informace o datových typech podporovaných pro testování nebo trénování modelu najdete v tématu trénování a testování datových sad.
Nahrání datových sad
Pokud chcete nahrát vlastní datové sady v sadě Speech Studio, postupujte takto:
Přihlaste se k sadě Speech Studio.
Vyberte Custom speech> Your project name >Speech datasets>Upload data.
Vyberte kartu Trénovací data nebo Testovací data.
Vyberte typ datové sady a pak vyberte Další.
Zadejte umístění datové sady a pak vyberte Další. Můžete zvolit místní soubor nebo zadat vzdálené umístění, jako je adresa URL objektu blob Azure. Pokud vyberete vzdálené umístění a nepoužíváte důvěryhodný mechanismus zabezpečení služeb Azure, pak by vzdálené umístění mělo být adresa URL, která se dá načíst pomocí jednoduchého anonymního požadavku GET. Například adresa URL SAS nebo veřejně přístupná adresa URL. Adresy URL, které vyžadují dodatečnou autorizaci, nebo očekávají, že interakce uživatelů se nepodporuje.
Poznámka:
Pokud používáte adresu URL objektu blob Azure, můžete zajistit maximální zabezpečení souborů datové sady pomocí důvěryhodného mechanismu zabezpečení služeb Azure. Použijete stejné techniky jako pro přepis služby Batch a adresy URL prostého účtu úložiště pro soubory datové sady. Další podrobnosti najdete tady.
Zadejte název a popis datové sady a pak vyberte Další.
Zkontrolujte nastavení a pak vyberte Uložit a zavřít.
Po nahrání datové sady přejděte na stránku Trénovat vlastní modely a natrénujte vlastní model.
S rozhraním SPEECH CLI a rozhraním REST API pro převod řeči na text se na rozdíl od sady Speech Studio nevybírejte, jestli je datová sada určená k testování nebo trénování v době nahrávání. Určíte, jak se datová sada používá při trénování modelu nebo spuštění testu.
I když neuvádíte, jestli je datová sada určená k testování nebo trénování, musíte zadat typ datové sady. Typ datové sady se používá k určení typu datové sady, která se vytvoří. V některých případech se typ datové sady používá jenom k testování nebo trénování, ale neměli byste na tom mít závislost. Hodnoty rozhraní speech CLI a rozhraní REST API kind
odpovídají možnostem v sadě Speech Studio, jak je popsáno v následující tabulce:
Typ rozhraní příkazového řádku a rozhraní API | Možnosti sady Speech Studio |
---|---|
Akustický | Trénovací data: Audio + přepis označený člověkem Testování dat: Přepis (automatická syntéza zvuku) Testování dat: Audio + přepis označený člověkem |
Zvukové soubory | Testování dat: Zvuk |
Jazyk | Trénovací data: Prostý text |
LanguageMarkdown | Trénovací data: Strukturovaný text ve formátu Markdownu |
Výslovnost | Trénovací data: Výslovnost |
OutputFormatting | Trénovací data: Výstupní formát |
Důležité
K přímému nahrání datových souborů nepoužíváte rozhraní Speech CLI ani rozhraní REST API. Nejprve uložíte soubory trénovacích nebo testovacích datových sad na adrese URL, ke které má rozhraní Speech CLI nebo rozhraní REST API přístup. Po nahrání datových souborů můžete pomocí rozhraní speech CLI nebo rozhraní REST API vytvořit datovou sadu pro vlastní testování řeči nebo trénování.
Pokud chcete vytvořit datovou sadu a připojit ji k existujícímu projektu, použijte spx csr dataset create
příkaz. Parametry požadavku se sestaví podle následujících pokynů:
project
Nastavte parametr na ID existujícího projektu. Tento parametr se doporučuje, abyste mohli také zobrazit a spravovat datovou sadu v sadě Speech Studio. Spuštěnímspx csr project list
příkazu můžete získat dostupné projekty.Nastavte požadovaný
kind
parametr. Možnou sadou hodnot pro druh trénovací datové sady jsou: Acoustic, AudioFiles, Language, LanguageMarkdown a Výslovnost.Nastavte požadovaný
contentUrl
parametr. Tento parametr je umístění datové sady. Pokud nepoužíváte důvěryhodný mechanismus zabezpečení služeb Azure (viz další poznámka),contentUrl
měl by být parametr adresou URL, která se dá načíst pomocí jednoduchého anonymního požadavku GET. Například adresa URL SAS nebo veřejně přístupná adresa URL. Adresy URL, které vyžadují dodatečnou autorizaci, nebo očekávají, že interakce uživatelů se nepodporuje.Poznámka:
Pokud používáte adresu URL objektu blob Azure, můžete zajistit maximální zabezpečení souborů datové sady pomocí důvěryhodného mechanismu zabezpečení služeb Azure. Použijete stejné techniky jako pro přepis služby Batch a adresy URL prostého účtu úložiště pro soubory datové sady. Další podrobnosti najdete tady.
Nastavte požadovaný
language
parametr. Národní prostředí datové sady musí odpovídat národnímu prostředí projektu. Národní prostředí nelze později změnit. Parametr Rozhraní příkazovéholocale
řádkulanguage
služby Speech odpovídá vlastnosti v požadavku JSON a odpovědi.Nastavte požadovaný
name
parametr. Tento parametr je název zobrazený v sadě Speech Studio. Parametr Rozhraní příkazovéhodisplayName
řádkuname
služby Speech odpovídá vlastnosti v požadavku JSON a odpovědi.
Tady je ukázkový příkaz Rozhraní příkazového řádku služby Speech, který vytvoří datovou sadu a připojí ji k existujícímu projektu:
spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"
Měl by se zobrazit text odpovědi v následujícím formátu:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Vlastnost nejvyšší úrovně self
v textu odpovědi je identifikátor URI datové sady. Pomocí tohoto identifikátoru URI získáte podrobnosti o projektu a souborech datové sady. Tento identifikátor URI slouží také k aktualizaci nebo odstranění datové sady.
V případě nápovědy k rozhraní příkazového řádku služby Speech s datovými sadami spusťte následující příkaz:
spx help csr dataset
S rozhraním SPEECH CLI a rozhraním REST API pro převod řeči na text se na rozdíl od sady Speech Studio nevybírejte, jestli je datová sada určená k testování nebo trénování v době nahrávání. Určíte, jak se datová sada používá při trénování modelu nebo spuštění testu.
I když neuvádíte, jestli je datová sada určená k testování nebo trénování, musíte zadat typ datové sady. Typ datové sady se používá k určení typu datové sady, která se vytvoří. V některých případech se typ datové sady používá jenom k testování nebo trénování, ale neměli byste na tom mít závislost. Hodnoty rozhraní speech CLI a rozhraní REST API kind
odpovídají možnostem v sadě Speech Studio, jak je popsáno v následující tabulce:
Typ rozhraní příkazového řádku a rozhraní API | Možnosti sady Speech Studio |
---|---|
Akustický | Trénovací data: Audio + přepis označený člověkem Testování dat: Přepis (automatická syntéza zvuku) Testování dat: Audio + přepis označený člověkem |
Zvukové soubory | Testování dat: Zvuk |
Jazyk | Trénovací data: Prostý text |
LanguageMarkdown | Trénovací data: Strukturovaný text ve formátu Markdownu |
Výslovnost | Trénovací data: Výslovnost |
OutputFormatting | Trénovací data: Výstupní formát |
Důležité
K přímému nahrání datových souborů nepoužíváte rozhraní Speech CLI ani rozhraní REST API. Nejprve uložíte soubory trénovacích nebo testovacích datových sad na adrese URL, ke které má rozhraní Speech CLI nebo rozhraní REST API přístup. Po nahrání datových souborů můžete pomocí rozhraní speech CLI nebo rozhraní REST API vytvořit datovou sadu pro vlastní testování řeči nebo trénování.
Pokud chcete vytvořit datovou sadu a připojit ji k existujícímu projektu, použijte Datasets_Create operaci rozhraní REST API pro převod řeči na text. Sestavte tělo požadavku podle následujících pokynů:
project
Nastavte vlastnost na identifikátor URI existujícího projektu. Tato vlastnost se doporučuje, abyste mohli také zobrazit a spravovat datovou sadu v sadě Speech Studio. Můžete vytvořit Projects_List žádost o získání dostupných projektů.Nastavte požadovanou
kind
vlastnost. Možnou sadou hodnot pro druh trénovací datové sady jsou: Acoustic, AudioFiles, Language, LanguageMarkdown a Výslovnost.Nastavte požadovanou
contentUrl
vlastnost. Tato vlastnost je umístění datové sady. Pokud nepoužíváte důvěryhodný mechanismus zabezpečení služeb Azure (viz další poznámka),contentUrl
měl by být parametr adresou URL, která se dá načíst pomocí jednoduchého anonymního požadavku GET. Například adresa URL SAS nebo veřejně přístupná adresa URL. Adresy URL, které vyžadují dodatečnou autorizaci, nebo očekávají, že interakce uživatelů se nepodporuje.Poznámka:
Pokud používáte adresu URL objektu blob Azure, můžete zajistit maximální zabezpečení souborů datové sady pomocí důvěryhodného mechanismu zabezpečení služeb Azure. Použijete stejné techniky jako pro přepis služby Batch a adresy URL prostého účtu úložiště pro soubory datové sady. Další podrobnosti najdete tady.
Nastavte požadovanou
locale
vlastnost. Národní prostředí datové sady musí odpovídat národnímu prostředí projektu. Národní prostředí nelze později změnit.Nastavte požadovanou
displayName
vlastnost. Tato vlastnost je název zobrazený v sadě Speech Studio.
Vytvořte požadavek HTTP POST pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu. Nahraďte YourSubscriptionKey
klíčem prostředku služby Speech, nahraďte YourServiceRegion
oblastí prostředků služby Speech a nastavte vlastnosti textu požadavku, jak jsme popsali dříve.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"kind": "Acoustic",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"contentUrl": "https://contoso.com/mydatasetlocation",
"locale": "en-US",
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"
Měl by se zobrazit text odpovědi v následujícím formátu:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Vlastnost nejvyšší úrovně self
v textu odpovědi je identifikátor URI datové sady. Pomocí tohoto identifikátoru URI získáte podrobnosti o projektu a souborech datové sady. Tento identifikátor URI také použijete k aktualizaci nebo odstranění datové sady.
Důležité
Připojení datové sady k vlastnímu projektu řeči se nevyžaduje k trénování a testování vlastního modelu pomocí rozhraní REST API nebo rozhraní speech CLI. Pokud ale datová sada není připojená k žádnému projektu, nemůžete ji vybrat pro trénování nebo testování v sadě Speech Studio.