Snabbstart: Kom igång med Azure AI Speech CLI
I den här artikeln får du lära dig hur du använder Azure AI Speech CLI (även kallat SPX) för att få åtkomst till Speech-tjänster som tal till text, text till tal och talöversättning, utan att behöva skriva någon kod. Speech CLI är produktionsklart och du kan använda det för att automatisera enkla arbetsflöden i Speech-tjänsten med hjälp .bat
av eller gränssnittsskript.
Den här artikeln förutsätter att du har arbetskunskaper om kommandotolkens fönster, terminal eller PowerShell.
Kommentar
I PowerShell ska stoppparsningstoken (--%
) följa spx
. Kör till exempel spx --% config @region
för att visa det aktuella regionkonfigurationsvärdet.
Ladda ned och installera
Följ de här stegen för att installera Speech CLI i Windows:
Installera Microsoft Visual C++ Redistributable för Visual Studio 2019 för din plattform. Installationen för första gången kan kräva en omstart.
Installera .NET 6.
Installera Speech CLI via .NET CLI genom att ange följande kommando:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Om du vill uppdatera Speech CLI anger du följande kommando:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
Ange spx
eller spx help
om du vill se hjälpen för Speech CLI.
Teckensnittsbegränsningar
I Windows kan Speech CLI endast visa teckensnitt som är tillgängliga för kommandotolken på den lokala datorn. Windows-terminal stöder alla teckensnitt som Speech CLI skapar interaktivt.
Om du matar ut till en fil kan en textredigerare som Anteckningar eller en webbläsare som Microsoft Edge också visa alla teckensnitt.
Skapa en resurskonfiguration
För att komma igång behöver du en Speech-resursnyckel och regionidentifierare (till exempel eastus
, westus
). Skapa en Speech-resurs på Azure Portal. Mer information finns i Skapa en Azure AI-tjänstresurs.
Kör följande kommandon för att konfigurera resursnyckeln och regionidentifieraren:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
Nyckeln och regionen lagras för framtida Speech CLI-kommandon. Om du vill visa den aktuella konfigurationen kör du följande kommandon:
spx config @key
spx config @region
Ta med clear
alternativet för att ta bort ett lagrat värde efter behov:
spx config @key --clear
spx config @region --clear
Grundläggande användning
Viktigt!
När du använder Speech CLI i en container inkluderar du alternativet --host
. Du måste också ange --key none
för att säkerställa att CLI inte försöker använda en Talnyckel för autentisering. Kör till exempel spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
för att identifiera tal från en ljudfil i en tal till text-container.
Det här avsnittet visar några grundläggande SPX-kommandon som ofta är användbara för testning och experimentering första gången. Kör följande kommando för att visa hjälpen i verktyget:
spx
Du kan söka i hjälpavsnitt efter nyckelord. Om du till exempel vill se en lista över användningsexempel för Speech CLI kör du följande kommando:
spx help find --topics "examples"
Om du vill se alternativ för recognize
kommandot kör du följande kommando:
spx help recognize
Fler hjälpkommandon visas i konsolens utdata. Du kan ange dessa kommandon för att få detaljerad hjälp om underkommandon.
Tal till text (taligenkänning)
Kommentar
Du kan inte använda datorns mikrofon när du kör Speech CLI i en Docker-container. Du kan dock läsa från och spara ljudfiler i din lokala monterade katalog.
Om du vill konvertera tal till text (taligenkänning) med hjälp av systemets standardmikrofon kör du följande kommando:
spx recognize --microphone
När du har kört kommandot börjar SPX lyssna efter ljud på den aktuella aktiva indataenheten. Den slutar lyssna när du väljer Retur. Det talade ljudet identifieras och konverteras sedan till text i konsolens utdata.
Med Speech CLI kan du också känna igen tal från en ljudfil. Kör följande kommando:
spx recognize --file /path/to/file.wav
Dricks
Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help recognize
.
Text till tal (talsyntes)
Följande kommando tar text som indata och matar sedan ut det syntetiserade talet till den aktuella aktiva utdataenheten (till exempel datorhögtalarna).
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
Du kan också spara de syntetiserade utdata i en fil. I det här exemplet ska vi skapa en fil med namnet my-sample.wav i katalogen där du kör kommandot.
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
Dessa exempel förutsätter att du testar på engelska. Speech Service stöder dock talsyntes på många språk. Du kan hämta en fullständig lista med röster antingen genom att köra följande kommando eller genom att gå till språksupportsidan.
spx synthesize --voices
Här är ett kommando för att använda en av de röster som du upptäckte.
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
Dricks
Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help synthesize
.
Tal till textöversättning
Med Speech CLI kan du även göra tal till textöversättning. Kör följande kommando för att spela in ljud från standardmikrofonen och mata ut översättningen som text. Tänk på att du måste ange source
språket och target
med translate
kommandot .
spx translate --microphone --source en-US --target ru-RU
När du översätter till flera språk separerar du språkkoderna med semikolon (;
).
spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'
Om du vill spara utdata från översättningen --output
använder du flaggan . I det här exemplet läser du också från en fil.
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
Dricks
Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help translate
.