Interfejs API REST zamiany mowy na tekst dla krótkiego dźwięku
Przypadki użycia interfejsu API REST zamiany mowy na tekst dla krótkiego dźwięku są ograniczone. Używaj go tylko w przypadkach, w których nie można używać zestawu SPEECH SDK.
Przed użyciem interfejsu API REST zamiany mowy na krótki dźwięk należy wziąć pod uwagę następujące ograniczenia:
- Żądania korzystające z interfejsu API REST dla krótkiego dźwięku i przesyłania dźwięku bezpośrednio mogą zawierać nie więcej niż 60 sekund dźwięku. Formaty audio wejściowego są bardziej ograniczone w porównaniu z zestawem SPEECH SDK.
- Interfejs API REST dla krótkiego dźwięku zwraca tylko końcowe wyniki. Nie zapewnia częściowych wyników.
- Tłumaczenie mowy nie jest obsługiwane za pośrednictwem interfejsu API REST w przypadku krótkiego dźwięku. Musisz użyć zestawu SPEECH SDK.
- Transkrypcja wsadowa i niestandardowa mowa nie są obsługiwane za pośrednictwem interfejsu API REST w przypadku krótkiego dźwięku. Zawsze należy używać interfejsu API REST rozpoznawania mowy do tłumaczenia tekstu na potrzeby transkrypcji wsadowej i niestandardowej mowy.
Przed użyciem interfejsu API REST zamiany mowy na krótki dźwięk należy ukończyć wymianę tokenów w ramach uwierzytelniania w celu uzyskania dostępu do usługi. Aby uzyskać więcej informacji, zobacz Authentication (Uwierzytelnianie).
Regiony i punkty końcowe
Punkt końcowy interfejsu API REST dla krótkiego dźwięku ma następujący format:
https://<REGION_IDENTIFIER>.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1
Zastąp <REGION_IDENTIFIER>
element identyfikatorem zgodnym z regionem zasobu usługi Mowa.
Uwaga
W przypadku platformy Azure Government i platformy Microsoft Azure obsługiwanych przez punkty końcowe 21Vianet zobacz ten artykuł dotyczący suwerennych chmur.
Formaty audio
Dźwięk jest wysyłany w treści żądania HTTP POST
. Musi być w jednym z formatów w tej tabeli:
Format | Koder-dekoder | Szybkość transmisji bitów | Częstotliwość próbkowania |
---|---|---|---|
WAV | PCM | 256 kb/s | 16 kHz, mono |
OGG | OPUS | 256 kb/s | 16 kHz, mono |
Uwaga
Powyższe formaty są obsługiwane za pośrednictwem interfejsu API REST dla krótkich plików audio i WebSocket w usłudze Mowa. Zestaw SPEECH SDK obsługuje format WAV z koderem koderowym PCM, a także innymi formatami.
Nagłówki żądań
Ta tabela zawiera listę wymaganych i opcjonalnych nagłówków dla żądań zamiany mowy na tekst:
Nagłówek | opis | Wymagane lub opcjonalne |
---|---|---|
Ocp-Apim-Subscription-Key |
Klucz zasobu dla usługi Mowa. | Ten nagłówek lub Authorization jest wymagany. |
Authorization |
Token autoryzacji poprzedzony wyrazem Bearer . Aby uzyskać więcej informacji, zobacz Authentication (Uwierzytelnianie). |
Ten nagłówek lub Ocp-Apim-Subscription-Key jest wymagany. |
Pronunciation-Assessment |
Określa parametry wyświetlania wyników wymowy w wynikach rozpoznawania. Wyniki te oceniają jakość wymowy danych wejściowych mowy, ze wskaźnikami takimi jak dokładność, płynność i kompletność. Ten parametr jest kodem JSON zakodowanym w formacie Base64, który zawiera wiele szczegółowych parametrów. Aby dowiedzieć się, jak utworzyć ten nagłówek, zobacz Parametry oceny wymowy. |
Opcjonalnie |
Content-type |
Opisuje format i koder koderowy dostarczonych danych dźwiękowych. Akceptowane wartości to audio/wav; codecs=audio/pcm; samplerate=16000 i audio/ogg; codecs=opus . |
Wymagania |
Transfer-Encoding |
Określa, że fragmentowane dane audio są wysyłane, a nie pojedynczy plik. Użyj tego nagłówka tylko wtedy, gdy fragmentujesz dane audio. | Opcjonalnie |
Expect |
Jeśli używasz fragmentowanego transferu, wyślij polecenie Expect: 100-continue . Usługa mowa potwierdza początkowe żądanie i oczekuje na więcej danych. |
Wymagane w przypadku wysyłania fragmentowanych danych dźwiękowych. |
Accept |
W przypadku podania musi to być application/json . Usługa mowa udostępnia wyniki w formacie JSON. Niektóre struktury żądań zapewniają niezgodną wartość domyślną. Dobrym rozwiązaniem jest zawsze uwzględnienie Accept funkcji . |
Opcjonalne, ale zalecane. |
Parametry zapytań
Te parametry mogą być uwzględniane w ciągu zapytania żądania REST.
Uwaga
Aby uniknąć odbierania błędu HTTP 4xx, należy dołączyć parametr języka do adresu URL. Na przykład język ustawiony na angielski usa za pośrednictwem punktu końcowego Zachodnie stany USA to: https://westus.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US
.
Parametr | Opis | Wymagane lub opcjonalne |
---|---|---|
language |
Identyfikuje rozpoznawany język mówiony. Zobacz Obsługiwane języki. | Wymagania |
format |
Określa format wyniku. Akceptowane wartości to simple i detailed . Proste wyniki obejmują RecognitionStatus , , Offset DisplayText i Duration . Szczegółowe odpowiedzi obejmują cztery różne reprezentacje tekstu wyświetlanego. Ustawienie domyślne to simple . |
Opcjonalnie |
profanity |
Określa sposób obsługi wulgaryzmów w wynikach rozpoznawania. Akceptowane wartości to: masked , który zastępuje wulgaryzmy gwiazdkami. removed , który usuwa wszystkie wulgaryzmy z wyniku. raw , który zawiera wulgaryzmy w wyniku. Ustawienie domyślne to masked . |
Opcjonalnie |
cid |
Gdy używasz programu Speech Studio do tworzenia modeli niestandardowych, możesz skorzystać z wartości identyfikatora punktu końcowego na stronie Wdrażanie. Użyj wartości Identyfikator punktu końcowego jako argumentu do parametru cid ciągu zapytania. |
Opcjonalnie |
Parametry oceny wymowy
W tej tabeli wymieniono wymagane i opcjonalne parametry oceny wymowy:
Parametr | Opis | Wymagane lub opcjonalne |
---|---|---|
ReferenceText |
Tekst, względem którego jest obliczana wymowa. | Wymagania |
GradingSystem |
System punktów do kalibracji wyników. System FivePoint daje wynik zmiennoprzecinkowy 0–5 i HundredMark daje wynik zmiennoprzecinkowy 0–100. Wartość domyślna: FivePoint . |
Opcjonalnie |
Granularity |
Stopień szczegółowości oceny. Akceptowane wartości to:Phoneme , który pokazuje wynik na poziomach pełnotekstowych, słów i phoneme.Word , który pokazuje wynik na poziomach pełnotekstowych i wyrazów. FullText , który pokazuje wynik tylko na poziomie pełnotekstowym.Ustawienie domyślne to Phoneme . |
Opcjonalnie |
Dimension |
Definiuje kryteria wyjściowe. Akceptowane wartości to:Basic , który pokazuje tylko ocenę dokładności. Comprehensive , który pokazuje wyniki dla większej liczby wymiarów (na przykład wynik płynności i wynik kompletności na poziomie pełnotekstowym oraz typ błędu na poziomie wyrazu).Aby wyświetlić definicje różnych wymiarów wyników i typów błędów słów, zobacz Właściwości odpowiedzi. Ustawienie domyślne to Basic . |
Opcjonalnie |
EnableMiscue |
Włącza błędne obliczanie. Po włączeniu tego parametru wyrazy wymawiane są porównywane z tekstem odwołania. Są one oznaczone pominięciem lub wstawieniem na podstawie porównania. Akceptowane wartości to False i True . Ustawienie domyślne to False . |
Opcjonalnie |
EnableProsodyAssessment |
Umożliwia ocenę prosody na potrzeby oceny wymowy. Ta funkcja ocenia aspekty, takie jak stres, intonacja, szybkość mówienia i rytm. Ta funkcja zapewnia wgląd w naturalność i wyrazistość mowy. Jeśli ta właściwość jest ustawiona ProsodyScore na True wartość , zwracana jest wartość wyniku. |
Opcjonalnie |
ScenarioId |
Identyfikator GUID wskazujący dostosowany system punktów. | Opcjonalnie |
Oto przykładowy kod JSON zawierający parametry oceny wymowy:
{
"ReferenceText": "Good morning.",
"GradingSystem": "HundredMark",
"Granularity": "Word",
"Dimension": "Comprehensive",
"EnableProsodyAssessment": "True"
}
Poniższy przykładowy kod pokazuje, jak skompilować parametry oceny wymowy w nagłówku Pronunciation-Assessment
:
var pronAssessmentParamsJson = $"{{\"ReferenceText\":\"Good morning.\",\"GradingSystem\":\"HundredMark\",\"Granularity\":\"Word\",\"Dimension\":\"Comprehensive\",\"EnableProsodyAssessment\":\"True\"}}";
var pronAssessmentParamsBytes = Encoding.UTF8.GetBytes(pronAssessmentParamsJson);
var pronAssessmentHeader = Convert.ToBase64String(pronAssessmentParamsBytes);
Zdecydowanie zalecamy przesyłanie strumieniowe (transfer fragmentowany) podczas publikowania danych audio, co może znacznie zmniejszyć opóźnienie. Aby dowiedzieć się, jak włączyć przesyłanie strumieniowe, zobacz przykładowy kod w różnych językach programowania.
Uwaga
Aby uzyskać więcej informacji, zobacz ocena wymowy.
Przykładowe żądanie
Poniższy przykład zawiera nazwę hosta i wymagane nagłówki. Należy pamiętać, że usługa oczekuje również danych dźwiękowych, które nie są uwzględnione w tym przykładzie. Jak wspomniano wcześniej, fragmentowanie jest zalecane, ale nie jest wymagane.
POST speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed HTTP/1.1
Accept: application/json;text/xml
Content-Type: audio/wav; codecs=audio/pcm; samplerate=16000
Ocp-Apim-Subscription-Key: YOUR_RESOURCE_KEY
Host: westus.stt.speech.microsoft.com
Transfer-Encoding: chunked
Expect: 100-continue
Aby włączyć ocenę wymowy, możesz dodać następujący nagłówek. Aby dowiedzieć się, jak utworzyć ten nagłówek, zobacz Parametry oceny wymowy.
Pronunciation-Assessment: eyJSZWZlcm...
Kody stanu HTTP
Kod stanu HTTP dla każdej odpowiedzi wskazuje powodzenie lub typowe błędy.
Kod stanu HTTP | opis | Możliwe przyczyny |
---|---|---|
100 | Kontynuuj | Początkowe żądanie jest akceptowane. Kontynuuj wysyłanie pozostałych danych. (Ten kod jest używany z transferem fragmentów). |
200 | OK | Żądanie zakończyło się pomyślnie. Treść odpowiedzi jest obiektem JSON. |
400 | Nieprawidłowe żądanie | Nie podano kodu językowego, język nie jest obsługiwany lub plik dźwiękowy jest nieprawidłowy (na przykład). |
401 | Brak autoryzacji | Klucz zasobu lub token autoryzacji jest nieprawidłowy w określonym regionie lub punkt końcowy jest nieprawidłowy. |
403 | Dostęp zabroniony | Brak klucza zasobu lub tokenu autoryzacji. |
Przykładowe odpowiedzi
Oto typowa odpowiedź na potrzeby simple
rozpoznawania:
{
"RecognitionStatus": "Success",
"DisplayText": "Remind me to buy 5 pencils.",
"Offset": "1236645672289",
"Duration": "1236645672289"
}
Oto typowa odpowiedź na potrzeby detailed
rozpoznawania:
{
"RecognitionStatus": "Success",
"Offset": "1236645672289",
"Duration": "1236645672289",
"NBest": [
{
"Confidence": 0.9052885,
"Display": "What's the weather like?",
"ITN": "what's the weather like",
"Lexical": "what's the weather like",
"MaskedITN": "what's the weather like"
},
{
"Confidence": 0.92459863,
"Display": "what is the weather like",
"ITN": "what is the weather like",
"Lexical": "what is the weather like",
"MaskedITN": "what is the weather like"
}
]
}
Oto typowa odpowiedź na uznanie za pomocą oceny wymowy:
{
"RecognitionStatus": "Success",
"Offset": 700000,
"Duration": 8400000,
"DisplayText": "Good morning.",
"SNR": 38.76819,
"NBest": [
{
"Confidence": 0.98503506,
"Lexical": "good morning",
"ITN": "good morning",
"MaskedITN": "good morning",
"Display": "Good morning.",
"AccuracyScore": 100.0,
"FluencyScore": 100.0,
"ProsodyScore": 87.8,
"CompletenessScore": 100.0,
"PronScore": 95.1,
"Words": [
{
"Word": "good",
"Offset": 700000,
"Duration": 2600000,
"Confidence": 0.0,
"AccuracyScore": 100.0,
"ErrorType": "None",
"Feedback": {
"Prosody": {
"Break": {
"ErrorTypes": [
"None"
],
"BreakLength": 0
},
"Intonation": {
"ErrorTypes": [],
"Monotone": {
"Confidence": 0.0,
"WordPitchSlopeConfidence": 0.0,
"SyllablePitchDeltaConfidence": 0.91385907
}
}
}
}
},
{
"Word": "morning",
"Offset": 3400000,
"Duration": 5700000,
"Confidence": 0.0,
"AccuracyScore": 100.0,
"ErrorType": "None",
"Feedback": {
"Prosody": {
"Break": {
"ErrorTypes": [
"None"
],
"UnexpectedBreak": {
"Confidence": 3.5294118e-08
},
"MissingBreak": {
"Confidence": 1.0
},
"BreakLength": 0
},
"Intonation": {
"ErrorTypes": [],
"Monotone": {
"Confidence": 0.0,
"WordPitchSlopeConfidence": 0.0,
"SyllablePitchDeltaConfidence": 0.91385907
}
}
}
}
}
]
}
]
}
Właściwości odpowiedzi
Wyniki są udostępniane jako dane JSON. Format simple
zawiera następujące pola najwyższego poziomu:
Właściwości | opis |
---|---|
RecognitionStatus |
Stan, taki jak Success pomyślne rozpoznawanie. Zobacz następną tabelę. |
DisplayText |
Rozpoznany tekst po wielkich literach, interpunkcja, odwrotna normalizacja tekstu i maskowanie wulgaryzmów. Prezentuj tylko na sukces. Odwrotna normalizacja tekstu to konwersja tekstu mówionego na krótsze formy, takie jak 200 dla "dwustu" lub "Dr Smith" dla "lekarza smitha". |
Offset |
Czas (w 100-nanosekundowych jednostkach), w którym rozpoznana mowa rozpoczyna się w strumieniu audio. |
Duration |
Czas trwania (w 100-nanosekundowych jednostkach) rozpoznanej mowy w strumieniu audio. |
SNR |
Współczynnik sygnału do szumu (SNR) rozpoznanej mowy w strumieniu audio. |
Pole RecognitionStatus
może zawierać następujące wartości:
Stan | opis |
---|---|
Success |
Rozpoznawanie zakończyło się pomyślnie, a DisplayText pole jest obecne. |
NoMatch |
W strumieniu audio wykryto mowę, ale nie zostały dopasowane żadne słowa z języka docelowego. Ten stan zwykle oznacza, że język rozpoznawania różni się od języka, w jakim mówi użytkownik. |
InitialSilenceTimeout |
Początek strumienia audio zawierał tylko milczenie, a usługa upłynął limit czasu podczas oczekiwania na mowę. |
BabbleTimeout |
Początek strumienia audio zawierał tylko szum, a usługa upłynął limit czasu podczas oczekiwania na mowę. |
Error |
Usługa rozpoznawania napotkała błąd wewnętrzny i nie mogła kontynuować. Spróbuj ponownie, jeśli to możliwe. |
Uwaga
Jeśli dźwięk składa się tylko z wulgaryzmów, a profanity
parametr zapytania jest ustawiony na remove
wartość , usługa nie zwraca wyniku mowy.
Format detailed
zawiera więcej form rozpoznanych wyników.
Jeśli używasz detailed
formatu, DisplayText
zostanie podany dla Display
każdego wyniku na NBest
liście.
Obiekt na NBest
liście może zawierać następujące elementy:
Właściwości | opis |
---|---|
Confidence |
Współczynnik ufności wpisu z zakresu od 0,0 (bez pewności) do 1,0 (pełna pewność). |
Lexical |
Forma leksykalna rozpoznanego tekstu: rozpoznane rzeczywiste wyrazy. |
ITN |
Odwrotnie znormalizowany tekst (ITN) lub kanoniczna forma rozpoznanego tekstu, z numerami telefonów, cyframi, skrótami ("lekarz smith" do "dr smith") i innymi zastosowanymi przekształceniami. |
MaskedITN |
Jeśli jest to wymagane, formularz ITN z maskowaniem wulgaryzmów. |
Display |
Formularz wyświetlania rozpoznanego tekstu z dodanymi znakami interpunkcyjnymi i wielkich liter. Ten parametr jest taki sam jak parametr, który DisplayText zapewnia, gdy format jest ustawiony na simple wartość . |
AccuracyScore |
Dokładność wymowy mowy. Dokładność wskazuje, jak blisko fonezy pasują do wymowy osoby mówiącej natywnej. Wynik dokładności na poziomie słowa i pełnotekstu jest agregowany z wyniku dokładności na poziomie phoneme. |
FluencyScore |
Płynność podanej mowy. Płynność wskazuje, jak ściśle mowa pasuje do użycia przez osoby mówiące w trybie dyskretnym przerw między wyrazami. |
ProsodyScore |
Prosody danej mowy. Prosody wskazuje, jak naturalna jest dana mowa, w tym stres, intonacja, szybkość mówienia i rytm. Aby wyświetlić definicje wyników oceny prosody, zobacz Parametry wyników. |
CompletenessScore |
Kompletność mowy określona przez obliczenie współczynnika wymawianych wyrazów w celu odwołowania się do wprowadzania tekstu. |
PronScore |
Ogólny wynik wskazujący jakość wymowy podanej mowy. Ten wynik jest agregowany z AccuracyScore wartości , FluencyScore i CompletenessScore z wagą. |
ErrorType |
Wartość wskazująca, czy wyraz zostanie pominięty, wstawiony lub źle wymawiany w porównaniu do ReferenceText . Możliwe wartości to None (czyli brak błędu w tym słowie), Omission , Insertion i Mispronunciation . |
Transfer fragmentowany
Fragmentowany transfer (Transfer-Encoding: chunked
) może pomóc zmniejszyć opóźnienie rozpoznawania. Umożliwia usłudze rozpoznawania mowy rozpoczęcie przetwarzania pliku audio podczas przesyłania. Interfejs API REST dla krótkiego dźwięku nie zapewnia wyników częściowych ani tymczasowych.
Poniższy przykładowy kod pokazuje, jak wysyłać dźwięk we fragmentach. Tylko pierwszy fragment powinien zawierać nagłówek pliku audio. request
HttpWebRequest
to obiekt połączony z odpowiednim punktem końcowym REST. audioFile
to ścieżka do pliku audio na dysku.
var request = (HttpWebRequest)HttpWebRequest.Create(requestUri);
request.SendChunked = true;
request.Accept = @"application/json;text/xml";
request.Method = "POST";
request.ProtocolVersion = HttpVersion.Version11;
request.Host = host;
request.ContentType = @"audio/wav; codecs=audio/pcm; samplerate=16000";
request.Headers["Ocp-Apim-Subscription-Key"] = "YOUR_RESOURCE_KEY";
request.AllowWriteStreamBuffering = false;
using (var fs = new FileStream(audioFile, FileMode.Open, FileAccess.Read))
{
// Open a request stream and write 1,024-byte chunks in the stream one at a time.
byte[] buffer = null;
int bytesRead = 0;
using (var requestStream = request.GetRequestStream())
{
// Read 1,024 raw bytes from the input audio file.
buffer = new Byte[checked((uint)Math.Min(1024, (int)fs.Length))];
while ((bytesRead = fs.Read(buffer, 0, buffer.Length)) != 0)
{
requestStream.Write(buffer, 0, bytesRead);
}
requestStream.Flush();
}
}
Uwierzytelnianie
Każde żądanie wymaga nagłówka autoryzacji. W tej tabeli przedstawiono, które nagłówki są obsługiwane dla każdej funkcji:
Obsługiwany nagłówek autoryzacji | Zamiana mowy na tekst | Zamiana tekstu na mowę |
---|---|---|
Ocp-Apim-Subscription-Key |
Tak | Tak |
Authorization: Bearer |
Tak | Tak |
W przypadku korzystania z nagłówka Ocp-Apim-Subscription-Key
należy podać tylko klucz zasobu. Na przykład:
'Ocp-Apim-Subscription-Key': 'YOUR_SUBSCRIPTION_KEY'
Gdy używasz nagłówka Authorization: Bearer
, musisz wysłać żądanie do punktu końcowego issueToken
. W tym żądaniu wymieniasz klucz zasobu dla tokenu dostępu ważnego przez 10 minut.
Inną opcją jest użycie uwierzytelniania Entra firmy Microsoft, które również używa nagłówka Authorization: Bearer
, ale z tokenem wystawionym za pośrednictwem identyfikatora Entra firmy Microsoft. Zobacz Use Microsoft Entra authentication (Korzystanie z uwierzytelniania entra firmy Microsoft).
Jak uzyskać token dostępu
Aby uzyskać token dostępu, musisz wysłać żądanie do punktu końcowego issueToken
przy użyciu polecenia Ocp-Apim-Subscription-Key
i klucza zasobu.
Punkt issueToken
końcowy ma następujący format:
https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
Zastąp <REGION_IDENTIFIER>
ciąg identyfikatorem zgodnym z regionem subskrypcji.
Użyj poniższych przykładów, aby utworzyć żądanie tokenu dostępu.
Przykład HTTP
W tym przykładzie jest proste żądanie HTTP w celu uzyskania tokenu. Zastąp YOUR_SUBSCRIPTION_KEY
ciąg kluczem zasobu dla usługi Mowa. Jeśli Twoja subskrypcja nie znajduje się w regionie Zachodnie stany USA, zastąp Host
nagłówek nazwą hosta twojego regionu.
POST /sts/v1.0/issueToken HTTP/1.1
Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY
Host: eastus.api.cognitive.microsoft.com
Content-type: application/x-www-form-urlencoded
Content-Length: 0
Treść odpowiedzi zawiera token dostępu w formacie JSON Web Token (JWT).
Przykładowy skrypt programu PowerShell
W tym przykładzie jest prosty skrypt programu PowerShell umożliwiający uzyskanie tokenu dostępu. Zastąp YOUR_SUBSCRIPTION_KEY
ciąg kluczem zasobu dla usługi Mowa. Upewnij się, że używasz poprawnego punktu końcowego dla regionu zgodnego z subskrypcją. Ten przykład jest obecnie ustawiony na Zachodnie stany USA.
$FetchTokenHeader = @{
'Content-type'='application/x-www-form-urlencoded';
'Content-Length'= '0';
'Ocp-Apim-Subscription-Key' = 'YOUR_SUBSCRIPTION_KEY'
}
$OAuthToken = Invoke-RestMethod -Method POST -Uri https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken
-Headers $FetchTokenHeader
# show the token received
$OAuthToken
Przykład cURL
cURL to narzędzie wiersza polecenia dostępne w systemie Linux (i w Podsystem Windows dla systemu Linux). To polecenie cURL ilustruje sposób uzyskiwania tokenu dostępu. Zastąp YOUR_SUBSCRIPTION_KEY
ciąg kluczem zasobu dla usługi Mowa. Upewnij się, że używasz poprawnego punktu końcowego dla regionu zgodnego z subskrypcją. Ten przykład jest obecnie ustawiony na Zachodnie stany USA.
curl -v -X POST \
"https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken" \
-H "Content-type: application/x-www-form-urlencoded" \
-H "Content-Length: 0" \
-H "Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY"
Przykład w języku C#
Ta klasa języka C# ilustruje sposób uzyskiwania tokenu dostępu. Przekaż klucz zasobu dla usługi Mowa podczas tworzenia wystąpienia klasy. Jeśli Twoja subskrypcja nie znajduje się w regionie Zachodnie stany USA, zmień wartość FetchTokenUri
na zgodną z regionem subskrypcji.
public class Authentication
{
public static readonly string FetchTokenUri =
"https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken";
private string subscriptionKey;
private string token;
public Authentication(string subscriptionKey)
{
this.subscriptionKey = subscriptionKey;
this.token = FetchTokenAsync(FetchTokenUri, subscriptionKey).Result;
}
public string GetAccessToken()
{
return this.token;
}
private async Task<string> FetchTokenAsync(string fetchUri, string subscriptionKey)
{
using (var client = new HttpClient())
{
client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
UriBuilder uriBuilder = new UriBuilder(fetchUri);
var result = await client.PostAsync(uriBuilder.Uri.AbsoluteUri, null);
Console.WriteLine("Token Uri: {0}", uriBuilder.Uri.AbsoluteUri);
return await result.Content.ReadAsStringAsync();
}
}
}
Przykład języka Python
# Request module must be installed.
# Run pip install requests if necessary.
import requests
subscription_key = 'REPLACE_WITH_YOUR_KEY'
def get_token(subscription_key):
fetch_token_url = 'https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken'
headers = {
'Ocp-Apim-Subscription-Key': subscription_key
}
response = requests.post(fetch_token_url, headers=headers)
access_token = str(response.text)
print(access_token)
Jak używać tokenu dostępu
Token dostępu powinien zostać wysłany do usługi jako Authorization: Bearer <TOKEN>
nagłówek. Każdy token dostępu jest ważny przez 10 minut. Nowy token można uzyskać w dowolnym momencie, ale aby zminimalizować ruch sieciowy i opóźnienie, zalecamy użycie tego samego tokenu przez dziewięć minut.
Oto przykładowe żądanie HTTP do interfejsu API REST zamiany mowy na tekst w celu uzyskania krótkiego dźwięku:
POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive
// Message body here...
Korzystanie z uwierzytelniania Microsoft Entra
Aby używać uwierzytelniania firmy Microsoft Entra z interfejsem API REST rozpoznawania mowy do tekstu w celu uzyskania krótkiego dźwięku, musisz utworzyć token dostępu. Kroki uzyskiwania tokenu dostępu składającego się z identyfikatora zasobu i tokenu dostępu firmy Microsoft Entra są takie same jak w przypadku korzystania z zestawu Speech SDK. Wykonaj kroki opisane tutaj : Korzystanie z uwierzytelniania microsoft Entra
- Tworzenie zasobu usługi Mowa
- Konfigurowanie zasobu usługi Mowa na potrzeby uwierzytelniania entra firmy Microsoft
- Uzyskiwanie tokenu dostępu Microsoft Entra
- Pobieranie identyfikatora zasobu usługi Mowa
Po uzyskaniu identyfikatora zasobu i tokenu dostępu firmy Microsoft Entra można utworzyć rzeczywisty token dostępu w następującym formacie:
aad#YOUR_RESOURCE_ID#YOUR_MICROSOFT_ENTRA_ACCESS_TOKEN
Należy uwzględnić prefiks "aad#" i separator "#" (skrót) między identyfikatorem zasobu a tokenem dostępu.
Oto przykładowe żądanie HTTP do interfejsu API REST zamiany mowy na tekst w celu uzyskania krótkiego dźwięku:
POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive
// Message body here...
Aby dowiedzieć się więcej na temat tokenów dostępu firmy Microsoft, w tym okresu istnienia tokenu, odwiedź stronę Tokeny dostępu w Platforma tożsamości Microsoft.