Udostępnij za pośrednictwem


Przestrzeń nazw Microsoft::CognitiveServices::Speech

Streszczenie

Członków Opisy
wyliczenie PropertyId Definiuje identyfikatory właściwości mowy. Zmieniono w wersji 1.4.0.
wyliczenie OutputFormat Format danych wyjściowych.
wyliczenia wulgaryzmówOption Usuwa wulgaryzmy (przeklinanie) lub zastępuje litery wulgarnych słów gwiazdami. Dodano element w wersji 1.5.0.
wyliczenie ResultReason Określa możliwe przyczyny wygenerowania wyniku rozpoznawania.
wyliczenie CancellationReason Definiuje możliwe przyczyny anulowania wyniku rozpoznawania.
enum CancellationErrorCode Definiuje kod błędu w przypadku, gdy wartość CancellationReason to Błąd. Dodano element w wersji 1.1.0.
wyliczenie NoMatchReason Definiuje możliwe przyczyny, dla których wynik rozpoznawania może nie zostać rozpoznany.
enum ActivityJSONType Definiuje możliwe typy dla wartości json działania. Dodano element w wersji 1.5.0.
wyliczenia SpeechSynthesisOutputFormat Definiuje możliwe formaty dźwięku wyjściowego syntezy mowy. Zaktualizowano w wersji 1.19.0.
enum StreamStatus Definiuje możliwy stan strumienia danych audio. Dodano element w wersji 1.4.0.
wyliczenie ServicePropertyChannel Definiuje kanały używane do przekazywania ustawień właściwości do usługi. Dodano element w wersji 1.5.0.
wyliczenie VoiceProfileType Definiuje typy profilów głosowych.
wyliczeniaFactorFactorScope Definiuje zakres, do którego jest stosowany współczynnik rozpoznawania.
enum PronunciationAssessmentGradingSystem Definiuje system punktów do kalibracji wyniku wymowy; wartość domyślna to FivePoint. Dodano element w wersji 1.14.0.
wyliczenie WymowaAssessmentGranularity Definiuje stopień szczegółowości oceny wymowy; wartość domyślna to Phoneme. Dodano element w wersji 1.14.0.
enum SynthesisVoiceType Definiuje typ głosów syntezy dodanych w wersji 1.16.0.
enum SynthesisVoiceGender Definiuje płeć głosów syntezy dodanych w wersji 1.17.0.
wyliczenie SpeechSynthesisBoundaryType Definiuje typ granicy granicy mowy Dodany w wersji 1.21.0.
wyliczenieStrategy Strategia używana do określania, kiedy fraza mówiona została zakończona, a końcowy rozpoznany wynik powinien zostać wygenerowany. Dozwolone wartości to "Default", "Time" i "Semantic".
, klasa AsyncRecognizer AsyncRecognizer abstrakcyjna klasa bazowa.
, klasa AudioDataStream Reprezentuje strumień danych audio używany do obsługi danych audio jako strumienia. Dodano element w wersji 1.4.0.
, klasa AutoDetectSourceLanguageConfig Klasa, która definiuje konfigurację źródła wykrywania automatycznego zaktualizowaną w wersji 1.13.0.
, klasa AutoDetectSourceLanguageResult Zawiera automatycznie wykryty wynik języka źródłowego Dodany w wersji 1.8.0.
, klasa BaseAsyncRecognizer BaseAsyncRecognizer, klasa.
, klasa CancellationDetails Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany.
klasa ClassLanguageModel Reprezentuje listę gramatyki dla dynamicznych scenariuszy gramatycznych. Dodano element w wersji 1.7.0.
klasy Connection Połączenie to klasa serwera proxy do zarządzania połączeniem z usługą rozpoznawania mowy określonego rozpoznawania. Domyślnie rozpoznawanie autonomiczne zarządza połączeniem z usługą w razie potrzeby. Klasa Połączenie udostępnia dodatkowe metody umożliwiające użytkownikom jawne otwieranie lub zamykanie połączenia oraz subskrybowanie zmian stanu połączenia. Użycie połączenia jest opcjonalne. Jest ona przeznaczona dla scenariuszy, w których potrzebne jest precyzyjne dostrajanie zachowania aplikacji na podstawie stanu połączenia. Użytkownicy mogą opcjonalnie wywołać metodę Open(), aby ręcznie zainicjować połączenie z usługą przed rozpoczęciem rozpoznawania w rozpoznawaniu skojarzonym z tym połączeniem. Po uruchomieniu rozpoznawania wywołanie metody Open() lub Close() może zakończyć się niepowodzeniem. Nie będzie to miało wpływu na rozpoznawanie ani trwającą rozpoznawanie. Połączenie może zostać porzucene z różnych powodów. Narzędzie rozpoznawania zawsze spróbuje przywrócić połączenie zgodnie z wymaganiami w celu zagwarantowania bieżących operacji. We wszystkich tych przypadkach zdarzenia Połączone/Rozłączone będą wskazywać zmianę stanu połączenia. Zaktualizowano w wersji 1.17.0.
, klasa ConnectionEventArgs Dostarcza dane dla elementu ConnectionEvent. Dodano element w wersji 1.2.0.
, klasa ConnectionMessage ConnectionMessage reprezentuje komunikaty specyficzne dla implementacji wysyłane do usługi rozpoznawania mowy i odbierane z tej usługi. Te komunikaty są udostępniane do celów debugowania i nie powinny być używane w przypadku przypadków użycia w środowisku produkcyjnym w usłudze Mowa w usługach Azure Cognitive Services. Komunikaty wysyłane do usługi rozpoznawania mowy i odbierane z tej usługi mogą ulec zmianie bez powiadomienia. Obejmuje to zawartość wiadomości, nagłówki, ładunki, kolejność itp. Dodano element w wersji 1.10.0.
, klasa ConnectionMessageEventArgs Dostarcza dane dla elementu ConnectionMessageEvent.
, klasa EmbeddedSpeechConfig Klasa, która definiuje konfigurację mowy osadzonej (offline).
, klasa EventArgs Klasa podstawowa argumentów zdarzeń.
, klasa EventSignal Klienci mogą łączyć się z sygnałem zdarzenia w celu odbierania zdarzeń lub odłączyć się od sygnału zdarzenia, aby zatrzymać odbieranie zdarzeń.
, klasa EventSignalBase Klienci mogą łączyć się z sygnałem zdarzenia w celu odbierania zdarzeń lub odłączyć się od sygnału zdarzenia, aby zatrzymać odbieranie zdarzeń.
, gramatyka klasy Reprezentuje gramatykę klasy bazowej do dostosowywania rozpoznawania mowy. Dodano element w wersji 1.5.0.
, klasa GrammarList Reprezentuje listę gramatyki dla dynamicznych scenariuszy gramatycznych. Dodano element w wersji 1.7.0.
, klasa GrammarPhrase Reprezentuje frazę, która może być wypowiadana przez użytkownika. Dodano element w wersji 1.5.0.
, klasa HybridSpeechConfig Klasa, która definiuje konfiguracje hybrydowe (chmurowe i osadzone) na potrzeby rozpoznawania mowy lub syntezy mowy.
, klasa KeywordRecognitionEventArgs Klasa zdarzeń emmimited przez KeywordRecognizer.
, klasa KeywordRecognitionModel Reprezentuje model rozpoznawania słów kluczowych używany z metodami StartKeywordRecognitionAsync.
, klasa KeywordRecognitionResult Klasa definiująca wyniki emitowane przez KeywordRecognizer.
, klasa KeywordRecognizer Typ rozpoznawania, który jest wyspecjalizowany do obsługi aktywacji słów kluczowych.
, klasa NoMatchDetails Zawiera szczegółowe informacje dotyczące wyników rozpoznawania NoMatch.
, klasa PersonalVoiceSynthesisRequest Klasa, która definiuje żądanie syntezy mowy dla osobistego głosu (aka.ms/azureai/personal-voice). Ta klasa jest w wersji zapoznawczej i może ulec zmianie. Dodano element w wersji 1.39.0.
, klasa PhraseListGrammar Reprezentuje gramatykę listy fraz dla dynamicznych scenariuszy gramatycznych. Dodano element w wersji 1.5.0.
, klasa WymowaAssessmentConfig Klasa, która definiuje konfigurację oceny wymowy Dodano w wersji 1.14.0.
, klasa WymowaAssessmentResult Klasa wyników oceny wymowy.
, klasa WymowaContentAssessmentResult Klasa wyników oceny zawartości.
, klasa PropertyCollection Klasa do pobierania lub ustawiania wartości właściwości z kolekcji właściwości.
rozpoznawanie klasEventArgs Dostarcza dane dla elementu RecognitionEvent.
rozpoznawanie klasResult Zawiera szczegółowe informacje o wyniku operacji rozpoznawania.
rozpoznawania klas Klasa bazowa rozpoznawania.
, klasa SessionEventArgs Klasa bazowa argumentów zdarzeń sesji.
, klasa SmartHandle Klasa inteligentnego uchwytu.
, klasa SourceLanguageConfig Klasa, która definiuje konfigurację języka źródłowego, dodana w wersji 1.8.0.
, klasa SourceLanguageRecognizer Klasa dla rozpoznawania języka źródłowego. Tej klasy można użyć do wykrywania autonomicznego języka. Dodano element w wersji 1.17.0.
, klasa SpeechConfig Klasa, która definiuje konfiguracje rozpoznawania mowy/intencji lub syntezy mowy.
, klasa SpeechRecognitionCanceledEventArgs Klasa rozpoznawania mowy anulowanych argumentów zdarzeń.
, klasa SpeechRecognitionEventArgs Klasa argumentów zdarzeń rozpoznawania mowy.
, klasa SpeechRecognitionModel Informacje o modelu rozpoznawania mowy.
, klasa SpeechRecognitionResult Klasa podstawowa na potrzeby wyników rozpoznawania mowy.
, klasa SpeechRecognizer Klasa rozpoznawania mowy.
, klasa SpeechSynthesisBookmarkEventArgs Klasa argumentów zdarzeń zakładki syntezy mowy. Dodano element w wersji 1.16.0.
, klasa SpeechSynthesisCancellationDetails Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany. Dodano element w wersji 1.4.0.
, klasa SpeechSynthesisEventArgs Klasa argumentów zdarzeń syntezy mowy. Dodano element w wersji 1.4.0.
, klasa SpeechSynthesisRequest Klasa, która definiuje żądanie syntezy mowy. Ta klasa jest w wersji zapoznawczej i może ulec zmianie. Dodano element w wersji 1.37.0.
, klasa SpeechSynthesisResult Zawiera informacje o wyniku syntezy zamiany tekstu na mowę. Dodano element w wersji 1.4.0.
, klasa SpeechSynthesisVisemeEventArgs Klasa argumentów zdarzeń syntezy mowy viseme. Dodano element w wersji 1.16.0.
, klasa SpeechSynthesisWordBoundaryEventArgs Klasa argumentów zdarzenia granicy słowa syntezy mowy. Dodano element w wersji 1.7.0.
, klasa SpeechSynthesizer Klasa syntezatora mowy. Zaktualizowano w wersji 1.14.0.
, klasa SpeechTranslationModel Informacje o modelu tłumaczenia mowy.
, klasa SynthesisVoicesResult Zawiera informacje o wynikach z listy głosów syntezatorów mowy. Dodano element w wersji 1.16.0.
, klasa VoiceInfo Zawiera informacje o syntezie informacji głosowych zaktualizowane w wersji 1.17.0.

Członków

enum PropertyId

Wartości Opisy
SpeechServiceConnection_Key Klucz subskrypcji usługi Mowa w usługach Cognitive Services. Jeśli używasz rozpoznawania intencji, musisz określić klucz punktu końcowego usługi LUIS dla określonej aplikacji usługi LUIS. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::FromSubscription.
SpeechServiceConnection_Endpoint Punkt końcowy usługi Mowa w usługach Cognitive Services (url). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::FromEndpoint. UWAGA: Ten punkt końcowy nie jest taki sam jak punkt końcowy używany do uzyskiwania tokenu dostępu.
SpeechServiceConnection_Region Region usługi Mowa w usługach Cognitive Services. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::FromSubscription, SpeechConfig::FromEndpoint, SpeechConfig::FromHost, SpeechConfig::FromAuthorizationToken.
SpeechServiceAuthorization_Token Token autoryzacji usługi Mowa w usługach Cognitive Services (czyli token dostępu). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::FromAuthorizationToken, SpeechRecognizer::SetAuthorizationToken, IntentRecognizer::SetAuthorizationToken, TranslationRecognizer::SetAuthorizationToken.
SpeechServiceAuthorization_Type Typ autoryzacji usługi Mowa w usługach Cognitive Services. Obecnie nieużywane.
SpeechServiceConnection_EndpointId Identyfikator punktu końcowego usługi Custom Speech lub Custom Voice Service w usługach Cognitive Services. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::SetEndpointId. UWAGA: Identyfikator punktu końcowego jest dostępny w portalu usługi Custom Speech w obszarze Szczegóły punktu końcowego.
SpeechServiceConnection_Host Host usługi Mowa w usługach Cognitive Services (url). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::FromHost.
SpeechServiceConnection_ProxyHostName Nazwa hosta serwera proxy używanego do nawiązywania połączenia z usługą Speech Service usług Cognitive Services. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::SetProxy. UWAGA: ten identyfikator właściwości został dodany w wersji 1.1.0.
SpeechServiceConnection_ProxyPort Port serwera proxy używany do nawiązywania połączenia z usługą Speech Service usług Cognitive Services. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::SetProxy. UWAGA: ten identyfikator właściwości został dodany w wersji 1.1.0.
SpeechServiceConnection_ProxyUserName Nazwa użytkownika serwera proxy używanego do nawiązywania połączenia z usługą Speech Service usług Cognitive Services. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::SetProxy. UWAGA: ten identyfikator właściwości został dodany w wersji 1.1.0.
SpeechServiceConnection_ProxyPassword Hasło serwera proxy używanego do nawiązywania połączenia z usługą Mowa w usługach Cognitive Services. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::SetProxy. UWAGA: ten identyfikator właściwości został dodany w wersji 1.1.0.
SpeechServiceConnection_Url Ciąg adresu URL utworzony na podstawie konfiguracji mowy. Ta właściwość ma być tylko do odczytu. Zestaw SDK używa go wewnętrznie. UWAGA: Dodano w wersji 1.5.0.
SpeechServiceConnection_ProxyHostBypass Określa listę hostów, dla których nie należy używać serwerów proxy. To ustawienie zastępuje wszystkie inne konfiguracje. Nazwy hostów są rozdzielane przecinkami i są dopasowywane w sposób bez uwzględniania wielkości liter. Symbole wieloznaczne nie są obsługiwane.
SpeechServiceConnection_TranslationToLanguages Lista języków rozdzielonych przecinkami używanych jako języki tłumaczenia docelowego. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia SpeechTranslationConfig::AddTargetLanguage i SpeechTranslationConfig::GetTargetLanguages.
SpeechServiceConnection_TranslationVoice Nazwa tekstu usługi Cognitive Service na głos usługi Mowa. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia SpeechTranslationConfig::SetVoiceName. UWAGA: Prawidłowe nazwy głosów można znaleźć tutaj.
SpeechServiceConnection_TranslationFeatures Funkcje tłumaczenia. Do użytku wewnętrznego.
SpeechServiceConnection_IntentRegion Region usługi Language Understanding. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj elementu LanguageUnderstandingModel.
SpeechServiceConnection_RecoMode Tryb rozpoznawania usługi Mowa w usługach Cognitive Services. Może to być "INTERACTIVE", "CONVERSATION", "DICTATION". Ta właściwość ma być tylko do odczytu. Zestaw SDK używa go wewnętrznie.
SpeechServiceConnection_RecoLanguage Rozpoznawany język mówiony (w formacie BCP-47). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia SpeechConfig::SetSpeechRecognitionLanguage.
Speech_SessionId Identyfikator sesji. Ten identyfikator jest uniwersalnym unikatowym identyfikatorem (aka UUID) reprezentującym określone powiązanie strumienia wejściowego audio i bazowego wystąpienia rozpoznawania mowy, z którym jest powiązana. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SessionEventArgs::SessionId.
SpeechServiceConnection_UserDefinedQueryParameters Parametry zapytania udostępniane przez użytkowników. Zostaną one przekazane do usługi jako parametry zapytania adresu URL. Dodano element w wersji 1.5.0.
SpeechServiceConnection_RecoBackend Ciąg określający zaplecze do użycia na potrzeby rozpoznawania mowy; dozwolone opcje są w trybie online i offline. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Obecnie opcja offline jest prawidłowa tylko wtedy, gdy jest używana funkcja EmbeddedSpeechConfig. Dodano element w wersji 1.19.0.
SpeechServiceConnection_RecoModelName Nazwa modelu, który ma być używany do rozpoznawania mowy. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Obecnie jest to prawidłowe tylko wtedy, gdy jest używana konfiguracja EmbeddedSpeechConfig. Dodano element w wersji 1.19.0.
SpeechServiceConnection_RecoModelKey Ta właściwość jest przestarzała.
SpeechServiceConnection_RecoModelIniFile Ścieżka do pliku ini modelu, który ma być używany do rozpoznawania mowy. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Obecnie jest to prawidłowe tylko wtedy, gdy jest używana konfiguracja EmbeddedSpeechConfig. Dodano element w wersji 1.19.0.
SpeechServiceConnection_SynthLanguage Język mówiony, który ma być syntetyzowany (np. en-US) Dodany w wersji 1.4.0.
SpeechServiceConnection_SynthVoice Nazwa głosu TTS, który ma być używany do syntezy mowy Dodano w wersji 1.4.0.
SpeechServiceConnection_SynthOutputFormat Ciąg określający format dźwięku wyjściowego TTS Dodany w wersji 1.4.0.
SpeechServiceConnection_SynthEnableCompressedAudioTransmission Wskazuje, czy używasz skompresowanego formatu audio do transmisji dźwięku syntezy mowy. Ta właściwość ma wpływ tylko wtedy, gdy SpeechServiceConnection_SynthOutputFormat jest ustawiona na format pcm. Jeśli ta właściwość nie jest ustawiona i GStreamer jest dostępna, zestaw SDK będzie używać skompresowanego formatu do syntetyzowanej transmisji audio i dekodować go. Tę właściwość można ustawić na wartość "false", aby używać nieprzetworzonego formatu pcm do transmisji na przewodach. Dodano element w wersji 1.16.0.
SpeechServiceConnection_SynthBackend Ciąg określający zaplecze TTS; prawidłowe opcje to online i offline. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj EmbeddedSpeechConfig::FromPath lub EmbeddedSpeechConfig::FromPaths, aby ustawić zaplecze syntezy na offline. Dodano element w wersji 1.19.0.
SpeechServiceConnection_SynthOfflineDataPath Ścieżki plików danych dla aparatu syntezy offline; prawidłowe tylko wtedy, gdy zaplecze syntezy jest w trybie offline. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia EmbeddedSpeechConfig::FromPath lub EmbeddedSpeechConfig::FromPaths. Dodano element w wersji 1.19.0.
SpeechServiceConnection_SynthOfflineVoice Nazwa głosu TTS w trybie offline, który ma być używany do syntezy mowy w normalnych okolicznościach, nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia EmbeddedSpeechConfig::SetSpeechSynthesisVoice i EmbeddedSpeechConfig::GetSpeechSynthesisVoiceName. Dodano element w wersji 1.19.0.
SpeechServiceConnection_SynthModelKey Ta właściwość jest przestarzała.
SpeechServiceConnection_VoicesListEndpoint Punkt końcowy interfejsu API interfejsu API (url) w usłudze Speech Service usług Cognitive Services. W normalnych okolicznościach nie trzeba określać tej właściwości, zestaw SDK utworzy ją na podstawie regionu/hosta/punktu końcowego SpeechConfig. Dodano element w wersji 1.16.0.
SpeechServiceConnection_InitialSilenceTimeoutMs Początkowa wartość limitu czasu ciszy (w milisekundach) używana przez usługę. Dodano element w wersji 1.5.0.
SpeechServiceConnection_EndSilenceTimeoutMs Wartość limitu czasu zakończenia ciszy (w milisekundach) używana przez usługę. Dodano element w wersji 1.5.0.
SpeechServiceConnection_EnableAudioLogging Wartość logiczna określająca, czy rejestrowanie audio jest włączone w usłudze, czy nie. Dzienniki audio i zawartości są przechowywane w magazynie należącym do firmy Microsoft lub na własnym koncie magazynu połączonym z subskrypcją usług Cognitive Services (Przynieś własny magazyn (BYOS) z włączoną usługą Mowa. Dodano element w wersji 1.5.0.
SpeechServiceConnection_LanguageIdMode Tryb identyfikatora języka połączenia usługi rozpoznawania mowy. Może to być wartość "AtStart" (wartość domyślna) lub "Continuous". Zobacz dokument identyfikacji języka . Dodano element w wersji 1.25.0.
SpeechServiceConnection_TranslationCategoryId KategoriaId tłumaczenia połączenia z usługą rozpoznawania mowy.
SpeechServiceConnection_AutoDetectSourceLanguages Automatyczne wykrywanie języków źródłowych dodanych w wersji 1.8.0.
SpeechServiceConnection_AutoDetectSourceLanguageResult Wynik automatycznego wykrywania języka źródłowego Dodano w wersji 1.8.0.
SpeechServiceResponse_RequestDetailedResultTrueFalse Żądany format danych wyjściowych odpowiedzi usługi Mowa w usługach Cognitive Services (prosty lub szczegółowy). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj SpeechConfig::SetOutputFormat.
SpeechServiceResponse_RequestProfanityFilterTrueFalse Żądany poziom wulgaryzmów odpowiedzi usługi Mowa w usługach Cognitive Services. Obecnie nieużywane.
SpeechServiceResponse_ProfanityOption Żądane ustawienie wulgaryzmów odpowiedzi usługi Mowa w usługach Cognitive Services. Dozwolone wartości to "maskowane", "usunięte" i "nieprzetworzone". Dodano element w wersji 1.5.0.
SpeechServiceResponse_PostProcessingOption Wartość ciągu określająca, która opcja przetwarzania końcowego powinna być używana przez usługę. Dozwolone wartości to "TrueText". Dodano element w wersji 1.5.0.
SpeechServiceResponse_RequestWordLevelTimestamps Wartość logiczna określająca, czy uwzględnić znaczniki czasu na poziomie wyrazu w wyniku odpowiedzi. Dodano element w wersji 1.5.0.
SpeechServiceResponse_StablePartialResultThreshold Liczba razy, gdy wyraz musi być zwracany w częściowych wynikach. Dodano element w wersji 1.5.0.
SpeechServiceResponse_OutputFormatOption Wartość ciągu określająca opcję formatu wyjściowego w wyniku odpowiedzi. Tylko do użytku wewnętrznego. Dodano element w wersji 1.5.0.
SpeechServiceResponse_RequestSnr Wartość logiczna określająca, czy uwzględnić SNR (współczynnik sygnału do szumu) w wyniku odpowiedzi. Dodano element w wersji 1.18.0.
SpeechServiceResponse_TranslationRequestStablePartialResult Wartość logiczna do żądania stabilizacji częściowych wyników tłumaczenia przez pominięcie wyrazów na końcu. Dodano element w wersji 1.5.0.
SpeechServiceResponse_RequestWordBoundary Wartość logiczna określająca, czy żądać zdarzeń WordBoundary. Dodano element w wersji 1.21.0.
SpeechServiceResponse_RequestPunctuationBoundary Wartość logiczna określająca, czy żądać granicy interpunkcyjnej w zdarzeniach WordBoundary. Wartość domyślna to true. Dodano element w wersji 1.21.0.
SpeechServiceResponse_RequestSentenceBoundary Wartość logiczna określająca, czy żądać granicy zdań w zdarzeniach WordBoundary. Wartość domyślna to false. Dodano element w wersji 1.21.0.
SpeechServiceResponse_SynthesisEventsSyncToAudio Wartość logiczna określająca, czy zestaw SDK powinien synchronizować zdarzenia metadanych syntezy (np. granicę słowa, viseme itp.) do odtwarzania audio. Ma to wpływ tylko wtedy, gdy dźwięk jest odtwarzany za pośrednictwem zestawu SDK. Wartość domyślna to true. Jeśli zostanie ustawiona wartość false, zestaw SDK uruchomi zdarzenia pochodzące z usługi, co może nie być zsynchronizowane z odtwarzaniem dźwięku. Dodano element w wersji 1.31.0.
SpeechServiceResponse_JsonResult Dane wyjściowe odpowiedzi usługi Mowa w usługach Cognitive Services (w formacie JSON). Ta właściwość jest dostępna tylko dla obiektów wyników rozpoznawania.
SpeechServiceResponse_JsonErrorDetails Szczegóły błędu usługi Mowa w usługach Cognitive Services (w formacie JSON). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj CancellationDetails::ErrorDetails.
SpeechServiceResponse_RecognitionLatencyMs Opóźnienie rozpoznawania w milisekundach. Tylko do odczytu, dostępne w końcowych wynikach zamiany mowy/tłumaczenia/intencji. Mierzy to opóźnienie między odebraniem danych wejściowych dźwiękowych przez zestaw SDK, a moment odebrania wyniku końcowego z usługi. Zestaw SDK oblicza różnicę czasu między ostatnim fragmentem dźwięku z danych wejściowych audio, które przyczyniają się do końcowego wyniku, a czasem odebrania końcowego wyniku z usługi mowy. Dodano element w wersji 1.3.0.
SpeechServiceResponse_RecognitionBackend Zaplecze rozpoznawania. Dostępne tylko do odczytu w wynikach rozpoznawania mowy. Wskazuje to, czy rozpoznawanie chmury (online) lub osadzone (offline) zostało użyte do wygenerowania wyniku.
SpeechServiceResponse_SynthesisFirstByteLatencyMs Synteza mowy najpierw opóźnienie bajtów w milisekundach. Tylko do odczytu, dostępne na końcowych wynikach syntezy mowy. Mierzy to opóźnienie między rozpoczęciem przetwarzania syntezy, a moment dostępności pierwszego bajtu dźwięku. Dodano element w wersji 1.17.0.
SpeechServiceResponse_SynthesisFinishLatencyMs Synteza mowy wszystkie bajty opóźnienia w milisekundach. Tylko do odczytu, dostępne na końcowych wynikach syntezy mowy. Mierzy to opóźnienie między rozpoczęciem przetwarzania syntezy, a moment, w którym cały dźwięk jest syntetyzowany. Dodano element w wersji 1.17.0.
SpeechServiceResponse_SynthesisUnderrunTimeMs Underrun czas syntezy mowy w milisekundach. Dostępne tylko do odczytu wyniki w zdarzeniach SynthesisCompleted. Mierzy całkowity czas uruchamiania z właściwości PropertyId::AudioConfig_PlaybackBufferLengthInMs jest wypełniony w celu ukończenia syntezy. Dodano element w wersji 1.17.0.
SpeechServiceResponse_SynthesisConnectionLatencyMs Opóźnienie połączenia syntezy mowy w milisekundach. Tylko do odczytu, dostępne na końcowych wynikach syntezy mowy. Mierzy to opóźnienie między rozpoczęciem przetwarzania syntezy, a momentem ustanowienia połączenia HTTP/WebSocket. Dodano element w wersji 1.26.0.
SpeechServiceResponse_SynthesisNetworkLatencyMs Opóźnienie sieci syntezy mowy w milisekundach. Tylko do odczytu, dostępne na końcowych wynikach syntezy mowy. Mierzy to czas rundy sieciowej. Dodano element w wersji 1.26.0.
SpeechServiceResponse_SynthesisServiceLatencyMs Opóźnienie usługi syntezy mowy w milisekundach. Tylko do odczytu, dostępne na końcowych wynikach syntezy mowy. Mierzy czas przetwarzania usługi, aby zsyntetyzować pierwszy bajt dźwięku. Dodano element w wersji 1.26.0.
SpeechServiceResponse_SynthesisBackend Wskazuje, które zaplecze syntezy zostało zakończone. Tylko do odczytu, dostępne w wynikach syntezy mowy, z wyjątkiem wyniku zdarzenia SynthesisStarted Dodano w wersji 1.17.0.
SpeechServiceResponse_DiarizeIntermediateResults Określa, czy wyniki pośrednie zawierają identyfikację osoby mówiącej.
CancellationDetails_Reason Przyczyna anulowania. Obecnie nieużywane.
CancellationDetails_ReasonText Tekst anulowania. Obecnie nieużywane.
CancellationDetails_ReasonDetailedText Szczegółowy tekst anulowania. Obecnie nieużywane.
LanguageUnderstandingServiceResponse_JsonResult Dane wyjściowe odpowiedzi usługi Language Understanding Service (w formacie JSON). Dostępne za pośrednictwem intentRecognitionResult.Properties.
AudioConfig_DeviceNameForCapture Nazwa urządzenia do przechwytywania dźwięku. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia AudioConfig::FromMicrophoneInput. UWAGA: ten identyfikator właściwości został dodany w wersji 1.3.0.
AudioConfig_NumberOfChannelsForCapture Liczba kanałów do przechwytywania dźwięku. Tylko do użytku wewnętrznego. UWAGA: ten identyfikator właściwości został dodany w wersji 1.3.0.
AudioConfig_SampleRateForCapture Częstotliwość próbkowania (w Hz) na potrzeby przechwytywania dźwięku. Tylko do użytku wewnętrznego. UWAGA: ten identyfikator właściwości został dodany w wersji 1.3.0.
AudioConfig_BitsPerSampleForCapture Liczba bitów każdego przykładu na potrzeby przechwytywania dźwięku. Tylko do użytku wewnętrznego. UWAGA: ten identyfikator właściwości został dodany w wersji 1.3.0.
AudioConfig_AudioSource Źródło audio. Dozwolone wartości to "Mikrofony", "Plik" i "Stream". Dodano element w wersji 1.3.0.
AudioConfig_DeviceNameForRender Nazwa urządzenia do renderowania audio. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj polecenia AudioConfig::FromSpeakerOutput. Dodano element w wersji 1.14.0.
AudioConfig_PlaybackBufferLengthInMs Długość buforu odtwarzania w milisekundach, wartość domyślna to 50 milisekund.
AudioConfig_AudioProcessingOptions Opcje przetwarzania audio w formacie JSON.
Speech_LogFilename Nazwa pliku do zapisywania dzienników. Dodano element w wersji 1.4.0.
Speech_SegmentationSilenceTimeoutMs Czas trwania wykrytej ciszy mierzony w milisekundach, po którym zamiana mowy na tekst określi, że fraza mówiona została zakończona i wygeneruje końcowy wynik rozpoznany. Skonfigurowanie tego limitu czasu może być przydatne w sytuacjach, gdy mówione dane wejściowe są znacznie szybsze lub wolniejsze niż zwykle, a domyślne zachowanie segmentacji stale daje wyniki zbyt długie lub zbyt krótkie. Wartości limitu czasu segmentacji, które są niewłaściwie wysokie lub niskie, mogą negatywnie wpływać na dokładność zamiany mowy na tekst; ta właściwość powinna być starannie skonfigurowana, a wynikowe zachowanie powinno być dokładnie zweryfikowane zgodnie z oczekiwaniami.
Speech_SegmentationMaximumTimeMs Maksymalna długość frazy mówionej podczas korzystania ze strategii segmentacji "Czas". Ponieważ długość frazy mówionej zbliża się do tej wartości, Speech_SegmentationSilenceTimeoutMs rozpocznie się zmniejszanie, dopóki limit czasu ciszy frazy nie zostanie osiągnięty lub fraza osiągnie maksymalną długość.
Speech_SegmentationStrategy Strategia używana do określania, kiedy fraza mówiona została zakończona, a końcowy rozpoznany wynik powinien zostać wygenerowany. Dozwolone wartości to "Default", "Time" i "Semantic".
Conversation_ApplicationId Identyfikator używany do nawiązywania połączenia z usługą zaplecza. Dodano element w wersji 1.5.0.
Conversation_DialogType Typ zaplecza okna dialogowego do nawiązania połączenia. Dodano element w wersji 1.7.0.
Conversation_Initial_Silence_Timeout Limit czasu ciszy nasłuchuje dodano w wersji 1.5.0.
Conversation_From_Id Od identyfikatora do użycia w działaniach rozpoznawania mowy Dodano w wersji 1.5.0.
Conversation_Conversation_Id Identyfikator konwersacji dla sesji. Dodano element w wersji 1.8.0.
Conversation_Custom_Voice_Deployment_Ids Rozdzielona przecinkami lista niestandardowych identyfikatorów wdrożenia głosowego. Dodano element w wersji 1.8.0.
Conversation_Speech_Activity_Template Szablon działania mowy, właściwości sygnatury w szablonie dla działania wygenerowanego przez usługę dla mowy. Dodano element w wersji 1.10.0.
Conversation_ParticipantId Identyfikator uczestnika w bieżącej konwersacji. Dodano element w wersji 1.13.0.
Conversation_Request_Bot_Status_Messages
Conversation_Connection_Id
DataBuffer_TimeStamp Sygnatura czasowa skojarzona z buforem danych zapisywanym przez klienta podczas korzystania ze strumieni wejściowych ściągnięcia/wypychania dźwięku. Sygnatura czasowa jest wartością 64-bitową o rozdzielczości 90 kHz. Jest to taki sam jak sygnatura czasowa prezentacji w strumieniu transportu MPEG. Zobacz https://en.wikipedia.org/wiki/Presentation_timestamp Dodano w wersji 1.5.0.
DataBuffer_UserId Identyfikator użytkownika skojarzony z buforem danych zapisanym przez klienta podczas korzystania ze strumieni wejściowych ściągnięcia/wypychania dźwięku. Dodano element w wersji 1.5.0.
PronunciationAssessment_ReferenceText Tekst referencyjny dźwięku do oceny wymowy. Aby uzyskać te i następujące parametry oceny wymowy, zobacz tabelę Parametry oceny wymowy. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::Create lub PronunciationAssessmentConfig::SetReferenceText. Dodano element w wersji 1.14.0.
PronunciationAssessment_GradingSystem System punktów kalibracji wyniku wymowy (FivePoint lub HundredMark). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::Create. Dodano element w wersji 1.14.0.
PronunciationAssessment_Granularity Stopień szczegółowości oceny wymowy (Phoneme, Word lub FullText). W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::Create. Dodano element w wersji 1.14.0.
PronunciationAssessment_EnableMiscue Określa, czy włączyć błędne obliczenie. Po włączeniu tej opcji wyrazy wymawiane będą porównywane z tekstem odwołania i będą oznaczone pominięciem/wstawieniem na podstawie porównania. Ustawieniem domyślnym jest Fałsz. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::Create. Dodano element w wersji 1.14.0.
PronunciationAssessment_PhonemeAlphabet Alfabet fonetyczny oceny wymowy. Prawidłowe wartości to "SAPI" (wartość domyślna) i "IPA" W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::SetPhonemeAlphabet. Dodano element w wersji 1.20.0.
PronunciationAssessment_NBestPhonemeCount Liczba numerów phoneme oceny wymowy. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::SetNBestPhonemeCount. Dodano element w wersji 1.20.0.
PronunciationAssessment_EnableProsodyAssessment Czy włączyć ocenę prosody. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::EnableProsodyAssessment. Dodano element w wersji 1.33.0.
PronunciationAssessment_Json Ciąg json parametrów oceny wymowy W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::Create. Dodano element w wersji 1.14.0.
PronunciationAssessment_Params Parametry oceny wymowy. Ta właściwość ma być tylko do odczytu. Zestaw SDK używa go wewnętrznie. Dodano element w wersji 1.14.0.
PronunciationAssessment_ContentTopic Temat zawartości oceny wymowy. W normalnych okolicznościach nie należy używać tej właściwości bezpośrednio. Zamiast tego użyj WymowaAssessmentConfig::EnableContentAssessmentWithTopic. Dodano element w wersji 1.33.0.
SpeakerRecognition_Api_Version Wersja interfejsu API zaplecza rozpoznawania osoby mówiącej. Ta właściwość jest dodawana w celu umożliwienia testowania i używania poprzednich wersji interfejsów API rozpoznawania osoby mówiącej, jeśli ma to zastosowanie. Dodano element w wersji 1.18.0.
SpeechTranslation_ModelName Nazwa modelu, który ma być używany do tłumaczenia mowy. Nie używaj tej właściwości bezpośrednio. Obecnie jest to prawidłowe tylko wtedy, gdy jest używana konfiguracja EmbeddedSpeechConfig.
SpeechTranslation_ModelKey Ta właściwość jest przestarzała.
KeywordRecognition_ModelName Nazwa modelu, który ma być używany do rozpoznawania słów kluczowych. Nie używaj tej właściwości bezpośrednio. Obecnie jest to prawidłowe tylko wtedy, gdy jest używana konfiguracja EmbeddedSpeechConfig.
KeywordRecognition_ModelKey Ta właściwość jest przestarzała.
EmbeddedSpeech_EnablePerformanceMetrics Włącz kolekcję osadzonych metryk wydajności mowy, które mogą służyć do oceny możliwości urządzenia do korzystania z osadzonej mowy. Zebrane dane są uwzględniane w wynikach z określonych scenariuszy, takich jak rozpoznawanie mowy. Ustawieniem domyślnym jest "false". Należy pamiętać, że metryki mogą nie być dostępne we wszystkich scenariuszach osadzonej mowy.
SpeechSynthesisRequest_Pitch Skok syntetyzowanej mowy.
SpeechSynthesisRequest_Rate Szybkość syntetyzowanej mowy.
SpeechSynthesisRequest_Volume Objętość syntetyzowanej mowy.

Definiuje identyfikatory właściwości mowy. Zmieniono w wersji 1.4.0.

enum OutputFormat

Wartości Opisy
Prosty
Szczegółowy

Format danych wyjściowych.

wyliczenie wulgaryzmówOption

Wartości Opisy
Zamaskowany Zamienia litery w wulgarnych słowach na znaki gwiazdki.
Usunięte Usuwa wulgarne słowa.
Surowy Nie robi nic do wulgarnych słów.

Usuwa wulgaryzmy (przeklinanie) lub zastępuje litery wulgarnych słów gwiazdami. Dodano element w wersji 1.5.0.

wyliczenie ResultReason

Wartości Opisy
NoMatch Wskazuje, że nie można rozpoznać mowy. Więcej szczegółów można znaleźć w obiekcie NoMatchDetails.
Anulowane Wskazuje, że rozpoznawanie zostało anulowane. Więcej szczegółów można znaleźć przy użyciu obiektu CancellationDetails.
Rozpoznawaniepeech Wskazuje wynik mowy zawiera tekst hipotezy.
RecognizedSpeech Wskazuje, że wynik mowy zawiera ostatni tekst, który został rozpoznany. Rozpoznawanie mowy jest teraz kompletne dla tej frazy.
Rozpoznawanieintent Wskazuje wynik intencji zawiera tekst hipotezy i intencję.
RecognizedIntent Wskazuje wynik intencji zawiera ostateczny tekst i intencję. Rozpoznawanie mowy i określanie intencji są teraz kompletne dla tej frazy.
Tłumaczenie napeech Wskazuje wynik tłumaczenia zawiera tekst hipotezy i jego tłumaczenia.
TranslatedSpeech Wskazuje wynik tłumaczenia zawiera końcowy tekst i odpowiadające im tłumaczenia. Rozpoznawanie mowy i tłumaczenie są teraz kompletne dla tej frazy.
SynthesizingAudio Wskazuje syntetyzowany wynik audio zawiera niezerową ilość danych dźwiękowych.
SynthesizingAudioCompleted Wskazuje, że syntetyzowany dźwięk jest teraz kompletny dla tej frazy.
Rozpoznawaniekeyword Wskazuje wynik mowy zawiera (niezweryfikowany) tekst słowa kluczowego. Dodano element w wersji 1.3.0.
RecognizedKeyword Wskazuje, że rozpoznawanie słów kluczowych zakończyło rozpoznawanie danego słowa kluczowego. Dodano element w wersji 1.3.0.
SynthesizingAudioStarted Wskazuje, że synteza mowy została uruchomiona w wersji 1.4.0.
TłumaczeniepartycipantSpeech Wskazuje wynik transkrypcji zawiera tekst hipotezy i jego tłumaczenia dla innych uczestników konwersacji. Dodano element w wersji 1.8.0.
TranslatedParticipantSpeech Wskazuje wynik transkrypcji zawiera końcowy tekst i odpowiadające im tłumaczenia dla innych uczestników konwersacji. Rozpoznawanie mowy i tłumaczenie są teraz kompletne dla tej frazy. Dodano element w wersji 1.8.0.
TranslatedInstantMessage Wskazuje wynik transkrypcji zawiera komunikat błyskawiczny i odpowiednie tłumaczenia. Dodano element w wersji 1.8.0.
TranslatedParticipantInstantMessage Wskazuje wynik transkrypcji zawiera wiadomość błyskawiczną dla innych uczestników konwersacji i odpowiednich tłumaczeń. Dodano element w wersji 1.8.0.
Rejestrowanie aplikacjiVoiceProfile Wskazuje, że profil głosowy jest zarejestrowany, a klienci muszą wysłać więcej dźwięku, aby utworzyć profil głosowy. Dodano element w wersji 1.12.0.
EnrolledVoiceProfile Profil głosowy został zarejestrowany. Dodano element w wersji 1.12.0.
Osoby rozpoznane Wskazuje pomyślną identyfikację niektórych osób mówiących. Dodano element w wersji 1.12.0.
RecognizedSpeaker Wskazuje, że jeden prelegent został pomyślnie zweryfikowany. Dodano element w wersji 1.12.0.
ResetVoiceProfile Wskazuje, że profil głosowy został pomyślnie zresetowany. Dodano element w wersji 1.12.0.
DeletedVoiceProfile Wskazuje, że profil głosowy został pomyślnie usunięty. Dodano element w wersji 1.12.0.
VoicesListRetrieved Wskazuje, że lista głosów została pomyślnie pobrana. Dodano element w wersji 1.16.0.

Określa możliwe przyczyny wygenerowania wyniku rozpoznawania.

enum CancellationReason

Wartości Opisy
Błąd Wskazuje, że wystąpił błąd podczas rozpoznawania mowy.
EndOfStream Wskazuje, że osiągnięto koniec strumienia audio.
CancelledByUser Wskazuje, że żądanie zostało anulowane przez użytkownika. Dodano element w wersji 1.14.0.

Definiuje możliwe przyczyny anulowania wyniku rozpoznawania.

enum CancellationErrorCode

Wartości Opisy
NoError Brak błędu. Jeśli wartość CancellationReason to EndOfStream, wartość CancellationErrorCode jest ustawiona na Wartość NoError.
AuthenticationFailure Wskazuje błąd uwierzytelniania. Błąd uwierzytelniania występuje, jeśli klucz subskrypcji lub token autoryzacji jest nieprawidłowy, wygasł lub nie jest zgodny z używanym regionem.
BadRequest Wskazuje, że co najmniej jeden parametr rozpoznawania jest nieprawidłowy lub format dźwięku nie jest obsługiwany.
TooManyRequests Wskazuje, że liczba żądań równoległych przekroczyła liczbę dozwolonych współbieżnych transkrypcji dla subskrypcji.
Zakazany Wskazuje, że bezpłatna subskrypcja używana przez żądanie wyczerpała limit przydziału.
ConnectionFailure Wskazuje błąd połączenia.
ServiceTimeout Wskazuje błąd przekroczenia limitu czasu podczas oczekiwania na odpowiedź z usługi.
ServiceError Wskazuje, że usługa zwraca błąd.
ServiceUnavailable Wskazuje, że usługa jest obecnie niedostępna.
RuntimeError Wskazuje nieoczekiwany błąd środowiska uruchomieniowego.
ServiceRedirectTemporary Wskazuje, że usługa rozpoznawania mowy tymczasowo żąda ponownego nawiązania połączenia z innym punktem końcowym.
ServiceRedirectPermanent Wskazuje, że usługa rozpoznawania mowy trwale żąda ponownego nawiązania połączenia z innym punktem końcowym.
EmbeddedModelError Wskazuje, że model mowy osadzonej (SR lub TTS) jest niedostępny lub uszkodzony.

Definiuje kod błędu w przypadku, gdy wartość CancellationReason to Błąd. Dodano element w wersji 1.1.0.

enum NoMatchReason

Wartości Opisy
NotRecognized Wskazuje, że mowa została wykryta, ale nie została rozpoznana.
InitialSilenceTimeout Wskazuje, że początek strumienia audio zawierał tylko milczenie, a usługa upłynął limit czasu oczekiwania na mowę.
InitialBabbleTimeout Wskazuje, że początek strumienia audio zawierał tylko szum, a usługa upłynął limit czasu oczekiwania na mowę.
Słowo kluczoweNotRecognized Wskazuje, że zauważone słowo kluczowe zostało odrzucone przez usługę weryfikacji słowa kluczowego. Dodano element w wersji 1.5.0.
EndSilenceTimeout Wskazuje, że strumień audio zawierał tylko milczenie po ostatnim rozpoznaniu frazy.

Definiuje możliwe przyczyny, dla których wynik rozpoznawania może nie zostać rozpoznany.

enum ActivityJSONType

Wartości Opisy
Zero
Sprzeciwiać się
Tablica
Struna
Podwójny
UInt
Int
Boolowski

Definiuje możliwe typy dla wartości json działania. Dodano element w wersji 1.5.0.

enum SpeechSynthesisOutputFormat

Wartości Opisy
Raw8Khz8BitMonoMULaw raw-8khz-8bit-mono-mulaw
Riff16Khz16KbpsMonoSiren riff-16khz-16kbps-mono-syrena Nieobsługiwana przez usługę. Nie używaj tej wartości.
Audio16Khz16KbpsMonoSiren audio-16khz-16kbps-mono-syrena Nieobsługiwana przez usługę. Nie używaj tej wartości.
Audio16Khz32KBitRateMonoMp3 audio-16khz-32kbitrate-mono-mp3
Audio16Khz128KBitRateMonoMp3 audio-16khz-128kbitrate-mono-mp3
Audio16Khz64KBitRateMonoMp3 audio-16khz-64kbitrate-mono-mp3
Audio24Khz48KBitRateMonoMp3 audio-24khz-48kbitrate-mono-mp3
Audio24Khz96KBitRateMonoMp3 audio-24khz-96kbitrate-mono-mp3
Audio24Khz160KBitRateMonoMp3 audio-24khz-160kbitrate-mono-mp3
Raw16Khz16BitMonoTrueSilk raw-16khz-16bit-mono-truesilk
Riff16Khz16BitMonoPcm riff-16khz-16bit-mono-pcm
Riff8Khz16BitMonoPcm riff-8khz-16bit-mono-pcm
Riff24Khz16BitMonoPcm riff-24khz-16bit-mono-pcm
Riff8Khz8BitMonoMULaw riff-8khz-8bit-mono-mulaw
Raw16Khz16BitMonoPcm raw-16khz-16bit-mono-pcm
Raw24Khz16BitMonoPcm raw-24khz-16bit-mono-pcm
Raw8Khz16BitMonoPcm raw-8khz-16bit-mono-pcm
Ogg16Khz16BitMonoOpus ogg-16khz-16bit-mono-opus
Ogg24Khz16BitMonoOpus ogg-24khz-16bit-mono-opus
Raw48Khz16BitMonoPcm raw-48khz-16bit-mono-pcm
Riff48Khz16BitMonoPcm riff-48khz-16bit-mono-pcm
Audio48Khz96KBitRateMonoMp3 audio-48khz-96kbitrate-mono-mp3
Audio48Khz192KBitRateMonoMp3 audio-48khz-192kbitrate-mono-mp3
Ogg48Khz16BitMonoOpus ogg-48khz-16bit-mono-opus Dodano w wersji 1.16.0
Webm16Khz16BitMonoOpus webm-16khz-16bit-mono-opus Dodano w wersji 1.16.0
Webm24Khz16BitMonoOpus webm-24khz-16bit-mono-opus Dodano w wersji 1.16.0
Raw24Khz16BitMonoTrueSilk raw-24khz-16bit-mono-truesilk Dodano w wersji 1.17.0
Raw8Khz8BitMonoALaw raw-8khz-8bit-mono-alaw Dodano w wersji 1.17.0
Riff8Khz8BitMonoALaw riff-8khz-8bit-mono-alaw Dodano w wersji 1.17.0
Webm24Khz16Bit24KbpsMonoOpus webm-24khz-16bit-24kbps-mono-opus Audio skompresowany przez koder OPUS w kontenerze WebM z szybkością transmisji bitów 24 kb/s zoptymalizowaną pod kątem scenariusza IoT. (Dodano w wersji 1.19.0)
Audio16Khz16Bit32KbpsMonoOpus audio-16khz-16bit-32kbps-mono-opus Audio skompresowane przez koder OPUS bez kontenera, z szybkością transmisji bitów 32 kb/s. (Dodano w wersji 1.20.0)
Audio24Khz16Bit48KbpsMonoOpus audio-24khz-16bit-48kbps-mono-opus Audio skompresowane przez koder OPUS bez kontenera, z szybkością transmisji bitów 48 kb/s. (Dodano w wersji 1.20.0)
Audio24Khz16Bit24KbpsMonoOpus audio-24khz-16bit-24kbps-mono-opus Audio skompresowane przez koder OPUS bez kontenera, z szybkością transmisji bitów 24 kb/s. (Dodano w wersji 1.20.0)
Raw22050Hz16BitMonoPcm raw-22050hz-16bit-mono-pcm Raw PCM audio przy częstotliwości próbkowania 22050Hz i głębokości 16-bitowej. (Dodano w wersji 1.22.0)
Riff22050Hz16BitMonoPcm riff-22050hz-16bit-mono-pcm PCM audio z częstotliwością próbkowania 22050Hz i głębokością 16-bitową, z nagłówkiem RIFF. (Dodano w wersji 1.22.0)
Raw44100Hz16BitMonoPcm raw-44100hz-16bit-mono-pcm Raw PCM audio przy częstotliwości próbkowania 44100Hz i głębokości 16-bitowej. (Dodano w wersji 1.22.0)
Riff44100Hz16BitMonoPcm riff-44100hz-16bit-mono-pcm audio PCM przy częstotliwości próbkowania 44100Hz i głębokości 16-bitowej, z nagłówkiem RIFF. (Dodano w wersji 1.22.0)
AmrWb16000Hz amr-wb-16000hz AMR-WB dźwięk z częstotliwością próbkowania 16kHz. (Dodano w wersji 1.24.0)
G72216Khz64Kbps g722-16khz-64kbps G.722 audio z częstotliwością próbkowania 16kHz i szybkością transmisji bitów 64 kb/s. (Dodano w wersji 1.38.0)

Definiuje możliwe formaty dźwięku wyjściowego syntezy mowy. Zaktualizowano w wersji 1.19.0.

enum StreamStatus

Wartości Opisy
Nieznany Stan strumienia danych audio jest nieznany.
NoData Strumień danych audio nie zawiera żadnych danych.
PartialData Strumień danych audio zawiera częściowe dane żądania wypowiedzi.
AllData Strumień danych audio zawiera wszystkie dane żądania wypowiedzi.
Anulowane Strumień danych audio został anulowany.

Definiuje możliwy stan strumienia danych audio. Dodano element w wersji 1.4.0.

enum ServicePropertyChannel

Wartości Opisy
Parametr UriQuery Używa parametru zapytania identyfikatora URI, aby przekazać ustawienia właściwości do usługi.
HttpHeader Używa httpHeader do ustawiania klucza/wartości w nagłówku HTTP.

Definiuje kanały używane do przekazywania ustawień właściwości do usługi. Dodano element w wersji 1.5.0.

enum VoiceProfileType

Wartości Opisy
TextIndependentIdentIdentification Identyfikacja osoby mówiącej niezależnej od tekstu.
TextDependentVerification Weryfikacja osoby mówiącej zależnej od tekstu.
TextIndependentVerification Weryfikacja niezależna od tekstu.

Definiuje typy profilów głosowych.

Enum RecognitionFactorScope

Wartości Opisy
PartialPhrase Współczynnik rozpoznawania będzie stosowany do gramatyki, do których można odwoływać się jako pojedyncze frazy częściowe.

Definiuje zakres, do którego jest stosowany współczynnik rozpoznawania.

enum WymowaAssessmentGradingSystem

Wartości Opisy
FivePoint Kalibracja pięciu punktów.
SetMark Sto znaków.

Definiuje system punktów do kalibracji wyniku wymowy; wartość domyślna to FivePoint. Dodano element w wersji 1.14.0.

enum WymowaAssessmentGranularity

Wartości Opisy
Fonem Pokazuje wynik na poziomie pełnotekstu, wyrazów i phoneme.
Słowo Pokazuje wynik na poziomie pełnego tekstu i wyrazów.
Tekst pełnotekstowy Pokazuje wynik tylko na poziomie pełnotekstowym.

Definiuje stopień szczegółowości oceny wymowy; wartość domyślna to Phoneme. Dodano element w wersji 1.14.0.

enum SynthesisVoiceType

Wartości Opisy
OnlineNeural Neuronowy głos online.
OnlineStandard Standardowy głos online.
OfflineNowe Głos neuronowy w trybie offline.
Tryb offlineStandard Standardowy głos w trybie offline.

Definiuje typ głosów syntezy dodanych w wersji 1.16.0.

enum SynthesisVoiceGender

Wartości Opisy
Nieznany Nieznana płeć.
Kobieta Głos kobiecy.
Mężczyzna Męski głos.

Definiuje płeć głosów syntezy dodanych w wersji 1.17.0.

wyliczenie SpeechSynthesisBoundaryType

Wartości Opisy
Słowo Granica wyrazów.
Interpunkcja Granica interpunkcji.
Zdanie Granica zdań.

Definiuje typ granicy granicy mowy Dodany w wersji 1.21.0.

enum SegmentationStrategy

Wartości Opisy
Domyślny Użyj domyślnej strategii i ustawień określonych przez usługę Mowa. Należy używać w większości sytuacji.
Godzina Używa strategii opartej na czasie, w której ilość ciszy między mową jest używana do określenia, kiedy wygenerować wynik końcowy.
Semantyczny Używa modelu sztucznej inteligencji do odstraszania końca frazy mówionej na podstawie zawartości frazy.

Strategia używana do określania, kiedy fraza mówiona została zakończona, a końcowy rozpoznany wynik powinien zostać wygenerowany. Dozwolone wartości to "Default", "Time" i "Semantic".