Freigeben über


speech Paket

Microsoft Speech SDK für Python

Module

audio

Klassen, die sich mit der Verarbeitung von Audioeingaben für die verschiedenen Erkennungsfunktionen und der Audioausgabe des Sprachsynthesizers befassen.

dialog

Klassen im Zusammenhang mit dem Dialogdienstconnector.

enums

Microsoft Speech SDK für Python

intent

Klassen im Zusammenhang mit der Absichtserkennung von Sprache.

interop

Microsoft Speech SDK für Python

languageconfig

Klassen, die sich mit der Behandlung von Sprachkonfigurationen befassen

properties

Microsoft Speech SDK für Python

speech

Klassen im Zusammenhang mit dem Erkennen von Text aus Sprache, der Synthetisierung von Sprache aus Text und allgemeinen Klassen, die in den verschiedenen Erkennungsmodulen verwendet werden.

transcription

Klassen im Zusammenhang mit der Konversationstranskription.

translation

Klassen im Zusammenhang mit der Sprachübersetzung in andere Sprachen.

version

Microsoft Speech SDK für Python

Klassen

AudioDataStream

Stellt den Audiodatenstrom dar, der zum Betreiben von Audiodaten als Stream verwendet wird.

Generiert einen Audiodatenstrom aus einem Sprachsyntheseergebnis (Typ SpeechSynthesisResult) oder einem Schlüsselwort (keyword) Erkennungsergebnis (Typ KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Stellt das Ergebnis der Automatischen Erkennung der Quellsprache dar.

Das Ergebnis kann anhand eines Spracherkennungsergebnisses initialisiert werden.

CancellationDetails

Microsoft Speech SDK für Python

Connection

Proxyklasse zum Verwalten der Verbindung mit dem Spracherkennungsdienst des angegebenen Recognizer.

Standardmäßig verwaltet ein Recognizer automatisch die Verbindung mit dem Dienst bei Bedarf. Die Connection -Klasse bietet zusätzliche Methoden für Benutzer, um eine Verbindung explizit zu öffnen oder zu schließen und eine Verbindung status Änderungen zu abonnieren. Die Verwendung von Connection ist optional. Es ist für Szenarien vorgesehen, in denen eine Feinabstimmung des Anwendungsverhaltens basierend auf der Verbindung status erforderlich ist. Benutzer können optional aufrufen open , um eine Dienstverbindung manuell zu initiieren, bevor sie mit der Erkennung des Recognizer diesem Connectionzugeordneten beginnen. Nach dem Starten einer Erkennung schlägt der Aufruf open fehl oder close schlägt fehl. Dies wirkt sich nicht auf die Erkennung oder die laufende Erkennung aus. Die Verbindung kann aus verschiedenen Gründen nicht mehr hergestellt werden. Die Erkennung versucht immer, die Verbindung nach Bedarf neu zu erstellen, um den laufenden Betrieb zu gewährleisten. In all diesen Fällen connected/disconnected weisen Ereignisse auf die Änderung der Verbindung status hin.

Hinweis

Aktualisiert in Version 1.17.0.

Konstruktor für die interne Verwendung.

ConnectionEventArgs

Stellt Daten für das ConnectionEvent bereit.

Hinweis

Hinzugefügt in Version 1.2.0

Konstruktor für die interne Verwendung.

EventSignal

Clients können eine Verbindung mit dem Ereignissignal herstellen, um Ereignisse zu empfangen, oder die Verbindung mit dem Ereignissignal trennen, um den Empfang von Ereignissen zu beenden.

Konstruktor für die interne Verwendung.

KeywordRecognitionEventArgs

Klasse für Schlüsselwort (keyword) Erkennungsereignisargumente.

Konstruktor für die interne Verwendung.

KeywordRecognitionModel

Stellt ein Schlüsselwort (keyword) Erkennungsmodell dar.

KeywordRecognitionResult

Ergebnis eines Schlüsselwort (keyword) Erkennungsvorgangs.

Konstruktor für die interne Verwendung.

KeywordRecognizer

Eine Schlüsselwort (keyword)-Erkennung.

NoMatchDetails

Microsoft Speech SDK für Python

PhraseListGrammar

Klasse, die das Hinzufügen von Ausdruckshinweisen zur Laufzeit ermöglicht, um die Spracherkennung zu unterstützen.

Ausdrücke, die der Erkennung hinzugefügt werden, sind zu Beginn der nächsten Erkennung wirksam, oder wenn die Spracherkennung das nächste Mal eine Verbindung mit dem Sprachdienst herstellen muss.

Hinweis

In Version 1.5.0 hinzugefügt.

Konstruktor für die interne Verwendung.

PronunciationAssessmentConfig

Stellt die Konfiguration der Aussprachebewertung dar.

Hinweis

In Version 1.14.0 hinzugefügt.

Die Konfiguration kann auf zwei Arten initialisiert werden:

  • aus Parametern: Verweistext übergeben, Bewertungssystem, Granularität, Miscue aktivieren und Szenario-ID.

  • from json: Übergeben einer JSON-Zeichenfolge

Die Parameterdetails finden Sie unter https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Enthält das Ergebnis der Aussprachebewertung auf Phonemebene

Hinweis

In Version 1.14.0 hinzugefügt.

PronunciationAssessmentResult

Stellt das Ergebnis der Aussprachebewertung dar.

Hinweis

In Version 1.14.0 hinzugefügt.

Das Ergebnis kann anhand eines Spracherkennungsergebnisses initialisiert werden.

PronunciationAssessmentWordResult

Enthält Das Ergebnis der Aussprachebewertung auf Wortebene

Hinweis

In Version 1.14.0 hinzugefügt.

PropertyCollection

Klasse zum Abrufen oder Festlegen eines Eigenschaftswerts aus einer Eigenschaftsauflistung.

RecognitionEventArgs

Stellt Daten für das RecognitionEvent bereit.

Konstruktor für die interne Verwendung.

RecognitionResult

Detaillierte Informationen zum Ergebnis eines Erkennungsvorgangs.

Konstruktor für die interne Verwendung.

Recognizer

Basisklasse für verschiedene Erkennungen

ResultFuture

Das Ergebnis eines asynchronen Vorgangs.

privater Konstruktor

SessionEventArgs

Basisklasse für Sitzungsereignisargumente.

Konstruktor für die interne Verwendung.

SourceLanguageRecognizer

Eine Quellspracherkennung – eigenständige Spracherkennung, kann für die Erkennung einer einzelnen Sprache oder einer kontinuierlichen Spracherkennung verwendet werden.

Hinweis

In Version 1.18.0 hinzugefügt.

SpeechConfig

Klasse, die Konfigurationen für sprach-/absichtserkennung und Sprachsynthese definiert.

Die Konfiguration kann auf unterschiedliche Weise initialisiert werden:

  • aus abonnement: übergeben Sie einen Abonnementschlüssel und eine Region

  • von Endpunkt: Übergeben Sie einen Endpunkt. Abonnementschlüssel oder Autorisierungstoken sind optional.

  • vom Host: Übergeben Sie eine Hostadresse. Abonnementschlüssel oder Autorisierungstoken sind optional.

  • aus Autorisierungstoken: Übergeben eines Autorisierungstokens und einer Region

SpeechRecognitionCanceledEventArgs

Klasse für Spracherkennungsargumente für abgebrochene Ereignisse.

Konstruktor für die interne Verwendung.

SpeechRecognitionEventArgs

Klasse für Spracherkennungsereignisargumente.

Konstruktor für die interne Verwendung.

SpeechRecognitionResult

Basisklasse für Spracherkennungsergebnisse.

Konstruktor für die interne Verwendung.

SpeechRecognizer

Eine Spracherkennung. Wenn Sie Informationen zur Quellsprache angeben müssen, geben Sie nur einen dieser drei Parameter an: Sprache, source_language_config oder auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Klasse für Textmarkenereignisargumente der Sprachsynthese.

Hinweis

In Version 1.16.0 hinzugefügt.

Konstruktor für die interne Verwendung.

SpeechSynthesisCancellationDetails

Enthält ausführliche Informationen dazu, warum ein Ergebnis abgebrochen wurde.

SpeechSynthesisEventArgs

Klasse für Sprachsyntheseereignisargumente.

Konstruktor für die interne Verwendung.

SpeechSynthesisResult

Ergebnis eines Sprachsynthesevorgangs.

Konstruktor für die interne Verwendung.

SpeechSynthesisVisemeEventArgs

Klasse für Sprachsynthese- viseme-Ereignisargumente.

Hinweis

In Version 1.16.0 hinzugefügt.

Konstruktor für die interne Verwendung.

SpeechSynthesisWordBoundaryEventArgs

Klasse für Sprachsynthese-Wortgrenzenereignisargumente.

Hinweis

Aktualisiert in Version 1.21.0.

Konstruktor für die interne Verwendung.

SpeechSynthesizer

Ein Sprachsynthesizer.

SyllableLevelTimingResult

Enthält das Ergebnis des Timings auf Silbenebene

Hinweis

In Version 1.20.0 hinzugefügt.

SynthesisVoicesResult

Enthält ausführliche Informationen zur Liste der abgerufenen Synthesestimden.

Hinweis

In Version 1.16.0 hinzugefügt.

Konstruktor für die interne Verwendung.

VoiceInfo

Enthält ausführliche Informationen zu den Synthesestimminformationen.

Hinweis

Aktualisiert in Version 1.17.0.

Konstruktor für die interne Verwendung.

Enumerationen

AudioStreamContainerFormat

Definiert das unterstützte Audiostreamcontainerformat.

AudioStreamWaveFormat

Stellt das im WAV-Container angegebene Format dar.

CancellationErrorCode

Definiert Fehlercode für den Fall, dass "CancellationReason" "Error" ist.

CancellationReason

Definiert die möglichen Gründe, warum ein Erkennungsergebnis abgebrochen werden kann.

NoMatchReason

Definiert die möglichen Gründe, aus dem ein Erkennungsergebnis möglicherweise nicht erkannt wird.

OutputFormat

Ausgabeformat.

ProfanityOption

Entfernt Profanität (Fluchen) oder ersetzt Buchstaben profaner Wörter durch Sterne.

PronunciationAssessmentGradingSystem

Definiert das Punktsystem für die Kalibrierung der Aussprachebewertung; Der Standardwert ist FivePoint.

PronunciationAssessmentGranularity

Definiert die Granularität der Ausspracheauswertung; Der Standardwert ist Phoneme.

PropertyId

Definiert Spracheigenschaften-IDs.

ResultReason

Gibt die möglichen Gründe an, aus dem ein Erkennungsergebnis generiert werden kann.

ServicePropertyChannel

Definiert Kanäle, die zum Übergeben von Eigenschafteneinstellungen an den Dienst verwendet werden.

SpeechSynthesisOutputFormat

Definiert die möglichen Audioformate der Sprachsyntheseausgabe.

StreamStatus

Definiert die mögliche status des Audiodatenstroms.

SynthesisVoiceGender

Definiert das Geschlecht von Synthesestimmchen

SynthesisVoiceType

Definiert den Typ der Synthesestimmungen