Udostępnij za pośrednictwem


microsoft-cognitiveservices-speech-sdk package

Klasy

ActivityReceivedEventArgs

Definiuje zawartość odebranego komunikatu/zdarzeń.

AudioConfig

Reprezentuje konfigurację danych wejściowych audio służącą do określania typu danych wejściowych do użycia (mikrofon, plik, strumień).

AudioInputStream

Reprezentuje strumień wejściowy audio używany do niestandardowych konfiguracji wejściowych audio.

AudioOutputStream

Reprezentuje strumień wyjściowy audio używany do niestandardowych konfiguracji wyjściowych audio.

AudioStreamFormat

Reprezentuje format strumienia audio używany na potrzeby niestandardowych konfiguracji wejściowych audio.

AutoDetectSourceLanguageConfig

Automatyczna konfiguracja wykrywania języka.

AutoDetectSourceLanguageResult

Format danych wyjściowych

AvatarConfig

Definiuje konfigurację awatara rozmowy.

AvatarEventArgs

Definiuje zawartość do mówienia zdarzeń awatara.

AvatarSynthesizer

Definiuje syntetyzator awatara.

AvatarVideoFormat

Definiuje format wideo wyjściowego awatara.

AvatarWebRTCConnectionResult

Definiuje wynik połączenia awatara WebRTC.

BaseAudioPlayer

Podstawowa klasa odtwarzacza audio TODO: odtwarza tylko PCM na razie.

BotFrameworkConfig

Klasa, która definiuje konfiguracje obiektu łącznika usługi dialogowej na potrzeby używania zaplecza platformy Bot Framework.

CancellationDetails

Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany.

CancellationDetailsBase

Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany.

Connection

Połączenie to klasa serwera proxy do zarządzania połączeniem z usługą rozpoznawania mowy określonego rozpoznawania. Domyślnie rozpoznawanie autonomiczne zarządza połączeniem z usługą w razie potrzeby. Klasa Połączenie udostępnia dodatkowe metody umożliwiające użytkownikom jawne otwieranie lub zamykanie połączenia oraz subskrybowanie zmian stanu połączenia. Użycie połączenia jest opcjonalne i dotyczy głównie scenariuszy, w których wymagane jest precyzyjne dostrajanie zachowania aplikacji na podstawie stanu połączenia. Użytkownicy mogą opcjonalnie wywołać metodę Open(), aby ręcznie skonfigurować połączenie z wyprzedzeniem przed rozpoczęciem rozpoznawania w rozpoznawaniu skojarzonym z tym połączeniem. Jeśli narzędzie rozpoznawania musi nawiązać połączenie z usługą lub je rozłączyć, skonfiguruje lub niezależnie zamknij połączenie. W takim przypadku połączenie zostanie powiadomione przez zmianę stanu połączenia za pośrednictwem zdarzeń Połączony/Rozłączony. Dodano element w wersji 1.2.1.

ConnectionEventArgs

Definiuje ładunek dla zdarzeń połączenia, takich jak Połączone/Rozłączone. Dodano w wersji 1.2.0

ConnectionMessage

ConnectionMessage reprezentuje komunikaty specyficzne dla implementacji wysyłane do usługi rozpoznawania mowy i odbierane z tej usługi. Te komunikaty są udostępniane do celów debugowania i nie powinny być używane w przypadku przypadków użycia w środowisku produkcyjnym w usłudze Mowa w usługach Azure Cognitive Services. Komunikaty wysyłane do usługi rozpoznawania mowy i odbierane z tej usługi mogą ulec zmianie bez powiadomienia. Obejmuje to zawartość wiadomości, nagłówki, ładunki, kolejność itp. Dodano element w wersji 1.11.0.

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

Definiuje zawartość zdarzeń sesji, takich jak SessionStarted/Stopped, SoundStarted/Stopped.

ConversationParticipantsChangedEventArgs

Definiuje zawartość zdarzeń sesji, takich jak SessionStarted/Stopped, SoundStarted/Stopped.

ConversationTranscriber

Wykonuje rozpoznawanie mowy z separacją osoby mówiącej z mikrofonu, pliku lub innych strumieni wejściowych audio i pobiera transkrypcję tekstu w wyniku.

ConversationTranscriptionCanceledEventArgs

Definiuje zawartość elementu RecognitionErrorEvent.

ConversationTranscriptionEventArgs

Definiuje zawartość transkrypcji/transkrypcji zdarzenia konwersacji.

ConversationTranscriptionResult

Definiuje wynik transkrypcji konwersacji.

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

Definiuje ładunek dla zdarzeń sesji, takich jak rozpoczęcie/zakończenie mowy wykryte

ConversationTranslationResult

Wynik tłumaczenia tekstu.

ConversationTranslator

Dołącz, pozostaw lub połącz się z konwersacją.

Coordinate

Definiuje współrzędną w przestrzeni 2D.

CustomCommandsConfig

Klasa, która definiuje konfiguracje obiektu łącznika usługi dialogowej do używania zaplecza CustomCommands.

Diagnostics

Definiuje interfejs API diagnostyki do zarządzania danymi wyjściowymi konsoli Dodany w wersji 1.21.0

DialogServiceConfig

Klasa, która definiuje podstawowe konfiguracje łącznika usługi dialogowej

DialogServiceConnector

Łącznik usługi dialogowej

IntentRecognitionCanceledEventArgs

Zdefiniuj ładunek funkcji rozpoznawania intencji anulowanych zdarzeń wyników.

IntentRecognitionEventArgs

Argumenty zdarzeń wyniku rozpoznawania intencji.

IntentRecognitionResult

Wynik rozpoznawania intencji.

IntentRecognizer

Rozpoznawanie intencji.

KeywordRecognitionModel

Reprezentuje model rozpoznawania słów kluczowych do rozpoznawania, gdy użytkownik mówi słowo kluczowe, aby zainicjować dalsze rozpoznawanie mowy.

LanguageUnderstandingModel

Model usługi Language Understanding

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

Definiuje zawartość obiektu MeetingTranscriptionCanceledEvent.

MeetingTranscriptionEventArgs

Definiuje zawartość zdarzenia transkrypcji/transkrypcji spotkania.

NoMatchDetails

Zawiera szczegółowe informacje dotyczące wyników rozpoznawania NoMatch.

Participant

Reprezentuje uczestnika konwersacji. Dodano w wersji 1.4.0

PhraseListGrammar

Umożliwia dodawanie nowych fraz w celu poprawy rozpoznawania mowy.

Frazy dodane do rozpoznawania są skuteczne na początku następnego rozpoznawania lub przy następnym połączeniu zestawu SpeechSDK z usługą rozpoznawania mowy.

PronunciationAssessmentConfig

Konfiguracja oceny wymowy.

PronunciationAssessmentResult

Wyniki oceny wymowy.

PropertyCollection

Reprezentuje kolekcję właściwości i ich wartości.

PullAudioInputStream

Reprezentuje strumień wejściowy audio używany do niestandardowych konfiguracji wejściowych audio.

PullAudioInputStreamCallback

Abstrakcyjna klasa bazowa, która definiuje metody wywołania zwrotnego (read() i close()) dla niestandardowych strumieni wejściowych audio).

PullAudioOutputStream

Reprezentuje strumień wyjściowy wypychania audio oparty na pamięci używany na potrzeby niestandardowych konfiguracji danych wyjściowych audio.

PushAudioInputStream

Reprezentuje strumień danych wejściowych audio wypychanych opartych na pamięci używany na potrzeby niestandardowych konfiguracji danych wejściowych audio.

PushAudioOutputStream

Reprezentuje strumień wyjściowy audio używany do niestandardowych konfiguracji wyjściowych audio.

PushAudioOutputStreamCallback

Abstrakcyjna klasa bazowa, która definiuje metody wywołania zwrotnego (write() i close()) dla niestandardowych strumieni wyjściowych audio).

RecognitionEventArgs

Definiuje ładunek dla zdarzeń sesji, takich jak rozpoczęcie/zakończenie mowy wykryte

RecognitionResult

Definiuje wynik rozpoznawania mowy.

Recognizer

Definiuje rozpoznawanie klasy bazowej, która zawiera głównie typowe programy obsługi zdarzeń.

ServiceEventArgs

Definiuje ładunek dla dowolnego zdarzenia komunikatu usługi Dodane w wersji 1.9.0

SessionEventArgs

Definiuje zawartość zdarzeń sesji, takich jak SessionStarted/Stopped, SoundStarted/Stopped.

SourceLanguageConfig

Konfiguracja języka źródłowego.

SpeakerAudioDestination

Reprezentuje miejsce docelowe odtwarzania dźwięku osoby mówiącej, które działa tylko w przeglądarce. Uwaga: zestaw SDK spróbuje użyć rozszerzenia źródła multimediów do odtwarzania dźwięku. Format Mp3 ma lepszą obsługę w przeglądarkach Microsoft Edge, Chrome i Safari (komputery), dlatego lepiej jest określić format mp3 na potrzeby odtwarzania.

SpeakerIdentificationModel

Definiuje klasę SpeakerIdentificationModel dla modelu rozpoznawania osoby mówiącej zawiera zestaw profilów, dla których można zidentyfikować osoby mówiące

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

Format danych wyjściowych

SpeakerRecognizer

Definiuje klasę SpeakerRecognizer dla operacji rozpoznawania osoby mówiącej na podstawie operacji profilu głosowego (np. createProfile, deleteProfile)

SpeakerVerificationModel

Definiuje klasę SpeakerVerificationModel dla modelu rozpoznawania osoby mówiącej zawiera profil, dla którego ma być weryfikowany prelegent

SpeechConfig

Konfiguracja mowy.

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

Definiuje zawartość zdarzenia rozpoznawania/rozpoznawania mowy.

SpeechRecognitionResult

Definiuje wynik rozpoznawania mowy.

SpeechRecognizer

Wykonuje rozpoznawanie mowy z mikrofonu, pliku lub innych strumieni wejściowych audio i pobiera transkrypcję tekstu w wyniku.

SpeechSynthesisBookmarkEventArgs

Definiuje zawartość zdarzenia zakładki syntezy mowy.

SpeechSynthesisEventArgs

Definiuje zawartość zdarzeń syntezy mowy.

SpeechSynthesisResult

Definiuje wynik syntezy mowy.

SpeechSynthesisVisemeEventArgs

Definiuje zawartość zdarzenia syntezy mowy.

SpeechSynthesisWordBoundaryEventArgs

Definiuje zawartość zdarzenia granicy słowa syntezy mowy.

SpeechSynthesizer

Definiuje klasę SpeechSynthesizer dla zamiany tekstu na mowę. Zaktualizowano w wersji 1.16.0

SpeechTranslationConfig

Konfiguracja tłumaczenia mowy.

SynthesisResult

Klasa bazowa na potrzeby wyników syntezy

SynthesisVoicesResult

Definiuje wynik syntezy mowy.

Synthesizer
TranslationRecognitionCanceledEventArgs

Zdefiniuj ładunek anulowanych zdarzeń wyników rozpoznawania mowy.

TranslationRecognitionEventArgs

Argumenty zdarzeń wyniku tłumaczenia tekstu.

TranslationRecognitionResult

Wynik tłumaczenia tekstu.

TranslationRecognizer

Rozpoznawanie tłumaczeń

TranslationSynthesisEventArgs

Argumenty zdarzeń syntezy tłumaczenia

TranslationSynthesisResult

Definiuje wynik syntezy tłumaczenia, tj. dane wyjściowe głosu przetłumaczonego tekstu w języku docelowym.

Translations

Reprezentuje kolekcję parametrów i ich wartości.

TurnStatusReceivedEventArgs

Definiuje zawartość odebranego komunikatu/zdarzeń.

User
VoiceInfo

Informacje o głosie syntezy mowy Dodane w wersji 1.20.0.

VoiceProfile

Definiuje klasę profilu głosowego na potrzeby rozpoznawania osoby mówiącej

VoiceProfileCancellationDetails
VoiceProfileClient

Definiuje klasę VoiceProfileClient dla operacji rozpoznawania osoby mówiącej na podstawie operacji profilu głosowego (np. createProfile, deleteProfile)

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

Format danych wyjściowych

VoiceProfilePhraseResult

Format danych wyjściowych

VoiceProfileResult

Format danych wyjściowych

Interfejsy

CancellationEventArgs
ConversationInfo
IParticipant

Reprezentuje uczestnika konwersacji. Dodano w wersji 1.4.0

IPlayer

Reprezentuje interfejs odtwarzacza audio do sterowania odtwarzaniem dźwięku, takich jak wstrzymywanie, wznawianie itp.

IVoiceJson
MeetingInfo
VoiceSignature

Wyliczenia

AudioFormatTag
CancellationErrorCode

Definiuje kod błędu w przypadku, gdy wartość CancellationReason to Błąd. Dodano element w wersji 1.1.0.

CancellationReason

Definiuje możliwe przyczyny anulowania wyniku rozpoznawania.

LanguageIdMode

Tryb identyfikacji języka

LogLevel
NoMatchReason

Definiuje możliwe przyczyny, dla których wynik rozpoznawania może nie zostać rozpoznany.

OutputFormat

Zdefiniuj formaty danych wyjściowych rozpoznawania mowy.

ParticipantChangedReason
ProfanityOption

Opcja wulgaryzmów. Dodano element w wersji 1.7.0.

PronunciationAssessmentGradingSystem

Definiuje system punktów do kalibracji wyniku wymowy; wartość domyślna to FivePoint. Dodano w wersji 1.15.0

PronunciationAssessmentGranularity

Definiuje stopień szczegółowości oceny wymowy; wartość domyślna to Phoneme. Dodano w wersji 1.15.0

PropertyId

Definiuje identyfikatory właściwości mowy.

ResultReason

Definiuje możliwe przyczyny wygenerowania wyniku rozpoznawania.

ServicePropertyChannel

Definiuje kanały używane do przekazywania ustawień właściwości do usługi. Dodano element w wersji 1.7.0.

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

Definiuje typ granicy granicy mowy.

SpeechSynthesisOutputFormat

Zdefiniuj formaty danych wyjściowych syntezy mowy. SpeechSynthesisOutputFormat zaktualizowano w wersji 1.17.0

VoiceProfileType

Format danych wyjściowych