Condividi tramite


microsoft-cognitiveservices-speech-sdk package

Classi

ActivityReceivedEventArgs

Definisce il contenuto dei messaggi/eventi ricevuti.

AudioConfig

Rappresenta la configurazione di input audio utilizzata per specificare il tipo di input da usare (microfono, file, flusso).

AudioInputStream

Rappresenta il flusso di input audio usato per configurazioni di input audio personalizzate.

AudioOutputStream

Rappresenta il flusso di output audio usato per configurazioni di output audio personalizzate.

AudioStreamFormat

Rappresenta il formato del flusso audio usato per configurazioni di input audio personalizzate.

AutoDetectSourceLanguageConfig

Configurazione del rilevamento automatico della lingua.

AutoDetectSourceLanguageResult

Formato di output

AvatarConfig

Definisce la configurazione dell'avatar parlando.

AvatarEventArgs

Definisce il contenuto per gli eventi avatar di discussione.

AvatarSynthesizer

Definisce il sintetizzatore avatar.

AvatarVideoFormat

Definisce il formato video di output avatar.

AvatarWebRTCConnectionResult

Definisce il risultato della connessione WebRTC avatar.

BaseAudioPlayer

Classe di lettore audio di base TODO: riproduce solo PCM per il momento.

BotFrameworkConfig

Classe che definisce le configurazioni per l'oggetto connettore del servizio di dialogo per l'uso di un back-end di Bot Framework.

CancellationDetails

Contiene informazioni dettagliate sul motivo per cui un risultato è stato annullato.

CancellationDetailsBase

Contiene informazioni dettagliate sul motivo per cui un risultato è stato annullato.

Connection

La connessione è una classe proxy per la gestione della connessione al servizio di riconoscimento vocale specificato. Per impostazione predefinita, un Sistema di riconoscimento gestisce in modo autonomo la connessione al servizio quando necessario. La classe Connection fornisce metodi aggiuntivi per consentire agli utenti di aprire o chiudere una connessione in modo esplicito e di sottoscrivere le modifiche dello stato della connessione. L'uso di Connection è facoltativo e principalmente per gli scenari in cui è necessaria l'ottimizzazione del comportamento dell'applicazione in base allo stato della connessione. Gli utenti possono facoltativamente chiamare Open() per configurare manualmente una connessione in anticipo prima di avviare il riconoscimento nel Sistema di riconoscimento associato a questa connessione. Se riconoscimento deve connettersi o disconnettersi al servizio, verrà configurata o arrestata la connessione in modo indipendente. In questo caso, la connessione riceverà una notifica tramite la modifica dello stato della connessione tramite eventi connessi/disconnessi. Aggiunta nella versione 1.2.1.

ConnectionEventArgs

Definisce il payload per gli eventi di connessione, ad esempio Connected/Disconnected. Aggiunta nella versione 1.2.0

ConnectionMessage

ConnectionMessage rappresenta i messaggi specifici di implementazione inviati e ricevuti dal servizio di riconoscimento vocale. Questi messaggi vengono forniti a scopo di debug e non devono essere usati per i casi d'uso di produzione con il servizio Voce di Servizi cognitivi di Azure. I messaggi inviati e ricevuti dal servizio Voce sono soggetti a modifiche senza preavviso. Sono inclusi contenuti dei messaggi, intestazioni, payload, ordinamento e così via. Aggiunta nella versione 1.11.0.

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

Definisce il contenuto per gli eventi di sessione, ad esempio SessionStarted/Stopped, SoundStarted/Stopped.

ConversationParticipantsChangedEventArgs

Definisce il contenuto per gli eventi di sessione, ad esempio SessionStarted/Stopped, SoundStarted/Stopped.

ConversationTranscriber

Esegue il riconoscimento vocale con la separazione dell'altoparlante dal microfono, dal file o da altri flussi di input audio e ottiene il testo trascritto come risultato.

ConversationTranscriptionCanceledEventArgs

Definisce il contenuto di un oggetto RecognitionErrorEvent.

ConversationTranscriptionEventArgs

Definisce il contenuto dell'evento trascritto/trascritto della conversazione.

ConversationTranscriptionResult

Definisce il risultato della trascrizione della conversazione.

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

Definisce il payload per gli eventi di sessione, ad esempio l'inizio/fine del riconoscimento vocale rilevato

ConversationTranslationResult

Risultato del testo della traduzione.

ConversationTranslator

Partecipare, lasciare o connettersi a una conversazione.

Coordinate

Definisce una coordinata nello spazio 2D.

CustomCommandsConfig

Classe che definisce le configurazioni per l'oggetto connettore del servizio di dialogo per l'uso di un back-end CustomCommands.

Diagnostics

Definisce l'API di diagnostica per la gestione dell'output della console Aggiunto nella versione 1.21.0

DialogServiceConfig

Classe che definisce le configurazioni di base per dialog service connector

DialogServiceConnector

Dialog Service Connector

IntentRecognitionCanceledEventArgs

Definire il payload degli eventi di risultato annullati del riconoscimento delle finalità.

IntentRecognitionEventArgs

Argomenti dell'evento dell'evento del risultato del riconoscimento delle finalità.

IntentRecognitionResult

Risultato del riconoscimento delle finalità.

IntentRecognizer

Riconoscimento finalità.

KeywordRecognitionModel

Rappresenta un modello di riconoscimento delle parole chiave per il riconoscimento quando l'utente dice una parola chiave per avviare un ulteriore riconoscimento vocale.

LanguageUnderstandingModel

Modello di comprensione del linguaggio

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

Definisce il contenuto di un oggetto MeetingTranscriptionCanceledEvent.

MeetingTranscriptionEventArgs

Definisce il contenuto dell'evento trascritto/trascritto della riunione.

NoMatchDetails

Contiene informazioni dettagliate per i risultati del riconoscimento NoMatch.

Participant

Rappresenta un partecipante di una conversazione. Aggiunta nella versione 1.4.0

PhraseListGrammar

Consente di aggiungere nuove frasi per migliorare il riconoscimento vocale.

Le frasi aggiunte al riconoscitore sono valide all'inizio del riconoscimento successivo o alla successiva riconnessione di SpeechSDK al servizio di riconoscimento vocale.

PronunciationAssessmentConfig

Configurazione della valutazione della pronuncia.

PronunciationAssessmentResult

Risultati della valutazione della pronuncia.

PropertyCollection

Rappresenta la raccolta di proprietà e i relativi valori.

PullAudioInputStream

Rappresenta il flusso di input audio usato per configurazioni di input audio personalizzate.

PullAudioInputStreamCallback

Classe base astratta che definisce i metodi di callback (read() e close()) per i flussi di input audio personalizzati.

PullAudioOutputStream

Rappresenta il flusso di output audio push supportato dalla memoria usato per le configurazioni di output audio personalizzate.

PushAudioInputStream

Rappresenta il flusso di input audio push supportato dalla memoria usato per configurazioni di input audio personalizzate.

PushAudioOutputStream

Rappresenta il flusso di output audio usato per configurazioni di output audio personalizzate.

PushAudioOutputStreamCallback

Classe base astratta che definisce i metodi di callback (write() e close()) per i flussi di output audio personalizzati.

RecognitionEventArgs

Definisce il payload per gli eventi di sessione, ad esempio l'inizio/fine del riconoscimento vocale rilevato

RecognitionResult

Definisce il risultato del riconoscimento vocale.

Recognizer

Definisce la classe base Recognizer che contiene principalmente gestori eventi comuni.

ServiceEventArgs

Definisce il payload per qualsiasi evento di messaggio del servizio aggiunto nella versione 1.9.0

SessionEventArgs

Definisce il contenuto per gli eventi di sessione, ad esempio SessionStarted/Stopped, SoundStarted/Stopped.

SourceLanguageConfig

Configurazione del linguaggio di origine.

SpeakerAudioDestination

Rappresenta la destinazione audio di riproduzione dell'altoparlante, che funziona solo nel browser. Nota: l'SDK tenterà di usare estensioni di origine multimediale per riprodurre l'audio. Il formato Mp3 ha un supporto migliore in Microsoft Edge, Chrome e Safari (desktop), quindi è meglio specificare il formato mp3 per la riproduzione.

SpeakerIdentificationModel

Definisce la classe SpeakerIdentificationModel per il modello di riconoscimento del parlante contiene un set di profili su cui identificare gli altoparlanti

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

Formato di output

SpeakerRecognizer

Definisce la classe SpeakerRecognizer per le operazioni Di riconoscimento del parlante dall'utente per le operazioni del profilo vocale (ad esempio createProfile, deleteProfile)

SpeakerVerificationModel

Definisce la classe SpeakerVerificationModel per il modello di riconoscimento del parlante contiene un profilo in base al quale verificare un altoparlante

SpeechConfig

Configurazione del riconoscimento vocale.

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

Definisce il contenuto dell'evento di riconoscimento vocale/riconosciuto.

SpeechRecognitionResult

Definisce il risultato del riconoscimento vocale.

SpeechRecognizer

Esegue il riconoscimento vocale da microfono, file o altri flussi di input audio e ottiene il testo trascritto come risultato.

SpeechSynthesisBookmarkEventArgs

Definisce il contenuto dell'evento segnalibro di sintesi vocale.

SpeechSynthesisEventArgs

Definisce il contenuto degli eventi di sintesi vocale.

SpeechSynthesisResult

Definisce il risultato della sintesi vocale.

SpeechSynthesisVisemeEventArgs

Definisce il contenuto dell'evento viseme di sintesi vocale.

SpeechSynthesisWordBoundaryEventArgs

Definisce il contenuto dell'evento limite delle parole di sintesi vocale.

SpeechSynthesizer

Definisce la classe SpeechSynthesizer per la sintesi vocale. Aggiornato nella versione 1.16.0

SpeechTranslationConfig

Configurazione della traduzione vocale.

SynthesisResult

Classe base per i risultati della sintesi

SynthesisVoicesResult

Definisce il risultato della sintesi vocale.

Synthesizer
TranslationRecognitionCanceledEventArgs

Definire il payload degli eventi di risultato annullati del riconoscimento vocale.

TranslationRecognitionEventArgs

Argomenti dell'evento di risultato del testo di traduzione.

TranslationRecognitionResult

Risultato del testo della traduzione.

TranslationRecognizer

Riconoscimento traduzione

TranslationSynthesisEventArgs

Argomenti dell'evento Translation Synthesis

TranslationSynthesisResult

Definisce il risultato della sintesi della traduzione, ovvero l'output vocale del testo tradotto nella lingua di destinazione.

Translations

Rappresenta la raccolta di parametri e i relativi valori.

TurnStatusReceivedEventArgs

Definisce il contenuto dei messaggi/eventi ricevuti.

User
VoiceInfo

Informazioni sulla voce Sintesi vocale aggiunta nella versione 1.20.0.

VoiceProfile

Definisce la classe Profilo vocale per il riconoscimento del parlante

VoiceProfileCancellationDetails
VoiceProfileClient

Definisce la classe VoiceProfileClient per le operazioni di riconoscimento del parlante dall'utente per le operazioni del profilo vocale(ad esempio createProfile, deleteProfile)

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

Formato di output

VoiceProfilePhraseResult

Formato di output

VoiceProfileResult

Formato di output

Interfacce

CancellationEventArgs
ConversationInfo
IParticipant

Rappresenta un partecipante di una conversazione. Aggiunta nella versione 1.4.0

IPlayer

Rappresenta l'interfaccia del lettore audio per controllare la riproduzione audio, ad esempio pausa, ripresa e così via.

IVoiceJson
MeetingInfo
VoiceSignature

Enumerazioni

AudioFormatTag
CancellationErrorCode

Definisce il codice di errore nel caso in cui CancellationReason sia Error. Aggiunta nella versione 1.1.0.

CancellationReason

Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe essere annullato.

LanguageIdMode

Modalità di identificazione della lingua

LogLevel
NoMatchReason

Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe non essere riconosciuto.

OutputFormat

Definire i formati di output di Riconoscimento vocale.

ParticipantChangedReason
ProfanityOption

Opzione volgarità. Aggiunta nella versione 1.7.0.

PronunciationAssessmentGradingSystem

Definisce il sistema di punti per la calibrazione del punteggio di pronuncia; il valore predefinito è FivePoint. Aggiunta nella versione 1.15.0

PronunciationAssessmentGranularity

Definisce la granularità della valutazione della pronuncia; il valore predefinito è Phoneme. Aggiunta nella versione 1.15.0

PropertyId

Definisce gli ID proprietà voce.

ResultReason

Definisce i possibili motivi per cui potrebbe essere generato un risultato di riconoscimento.

ServicePropertyChannel

Definisce i canali usati per passare le impostazioni delle proprietà al servizio. Aggiunta nella versione 1.7.0.

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

Definisce il tipo di limite dell'evento limite di sintesi vocale.

SpeechSynthesisOutputFormat

Definire i formati di output audio di sintesi vocale. SpeechSynthesisOutputFormat aggiornato nella versione 1.17.0

VoiceProfileType

Formato di output