命名空间Microsoft::CognitiveServices::Speech

总结

成员 描述
枚举 PropertyId 定义语音属性 ID。 版本 1.4.0 已更改。
枚举 OutputFormat 输出格式。
枚举 ProfanityOption 删除亵渎(咒骂),或用星星替换亵渎字词的字母。 在版本 1.5.0 中添加。
枚举 ResultReason 指定可能生成识别结果的原因。
枚举 CancellationReason 定义可能取消识别结果的原因。
枚举 CancellationErrorCode 定义 CancellationReason 为 Error 的错误代码。 已在版本 1.1.0 中添加。
枚举 NoMatchReason 定义无法识别识别结果的可能原因。
枚举 ActivityJSONType 定义活动 json 值的可能类型。 在版本 1.5.0 中添加。
枚举 SpeechSynthesisOutputFormat 定义可能的语音合成输出音频格式。 已在版本 1.19.0 中更新。
枚举 StreamStatus 定义音频数据流的可能状态。 在版本 1.4.0 中添加。
枚举 ServicePropertyChannel 定义用于将属性设置传递给服务的通道。 在版本 1.5.0 中添加。
枚举 VoiceProfileType 定义语音配置文件类型。
枚举 RecognitionFactorScope 定义应用识别因子的范围。
枚举发音AssessmentGradingSystem 定义发音分数校准的点系统;默认值为 FivePoint。 已在版本 1.14.0 中添加。
枚举发音AssessmentGranularity 定义发音评估粒度;默认值为 Phoneme。 已在版本 1.14.0 中添加。
枚举 SynthesisVoiceType 定义在版本 1.16.0 中添加的合成语音的类型。
枚举 SynthesisVoiceGender 定义在版本 1.17.0 中添加的合成语音的性别。
枚举 SpeechSynthesisBoundaryType 定义在版本 1.21.0 中添加的语音合成边界事件的边界类型。
枚举分段 用于确定口语短语何时结束和最终识别结果的策略应生成。 允许的值为“Default”、“Time”和“Semantic”。
类 AsyncRecognizer AsyncRecognizer 抽象基类。
类 AudioDataStream 表示用于将音频数据作为流操作的音频数据流。 在版本 1.4.0 中添加。
类 AutoDetectSourceLanguageConfig 定义在 1.13.0 中更新的自动检测源配置的类。
类 AutoDetectSourceLanguageResult 包含在 1.8.0 中添加的自动检测到的源语言结果。
类 BaseAsyncRecognizer BaseAsyncRecognizer 类。
类 CancellationDetails 包含有关取消结果的原因的详细信息。
类 ClassLanguageModel 表示动态语法方案的语法列表。 在版本 1.7.0 中添加。
类 Connection 连接是一个代理类,用于管理与指定识别器语音服务的连接。 默认情况下,识别器会根据需要自主管理与服务的连接。 Connection 类为用户提供其他方法来显式打开或关闭连接并订阅连接状态更改。 连接的使用是可选的。 它适用于需要根据连接状态微调应用程序行为的情况。 用户可以选择调用 Open()在开始识别与此连接关联的识别器上开始识别之前手动启动服务连接。 启动识别后,调用 Open() 或 Close() 可能会失败。 这不会影响识别器或正在进行的识别。 连接可能会因各种原因而断开,识别器将始终尝试根据需要恢复连接,以确保正在进行的操作。 在所有这些情况下,Connected/Disconnected 事件将指示连接状态的更改。 已在版本 1.17.0 中更新。
类 ConnectionEventArgs 提供 ConnectionEvent 的数据。 在版本 1.2.0 中添加。
类 ConnectionMessage ConnectionMessage 表示从语音服务发送和接收的实现特定消息。 这些消息用于调试目的,不应用于 Azure 认知服务语音服务的生产用例。 发送到语音服务并从中接收的消息可能会更改,而不通知。 这包括消息内容、标头、有效负载、排序等。在版本 1.10.0 中添加。
类 ConnectionMessageEventArgs 为 ConnectionMessageEvent 提供数据。
类 EmbeddedSpeechConfig 定义嵌入式(脱机)语音配置的类。
类 EventArgs 事件参数的基类。
类 EventSignal 客户端可以连接到事件信号来接收事件,或从事件信号断开连接以停止接收事件。
类 EventSignalBase 客户端可以连接到事件信号来接收事件,或从事件信号断开连接以停止接收事件。
类语法 表示用于自定义语音识别的基类语法。 在版本 1.5.0 中添加。
类 GrammarList 表示动态语法方案的语法列表。 在版本 1.7.0 中添加。
类 GrammarPhrase 表示用户可能说出的短语。 在版本 1.5.0 中添加。
类 HybridSpeechConfig 定义用于语音识别或语音合成的混合(云和嵌入式)配置的类。
类 KeywordRecognitionEventArgs KeywordRecognizer所省略的事件的类。
类 KeywordRecognitionModel 表示与 StartKeywordRecognitionAsync 方法一起使用的关键字识别模型。
类 KeywordRecognitionResult 定义由 KeywordRecognizer发出的结果的类。
类 KeywordRecognizer 专用于仅处理关键字激活的识别器类型。
类 NoMatchDetails 包含 NoMatch 识别结果的详细信息。
类 PersonalVoiceSynthesisRequest 定义个人语音的语音合成请求的类(aka.ms/azureai/personal-voice)。 此类以预览版提供,可能会更改。 在版本 1.39.0 中添加。
类 PhraseListGrammar 表示动态语法方案的短语列表语法。 在版本 1.5.0 中添加。
类发音AssessmentConfig 定义在 1.14.0 中添加的发音评估配置的类。
类发音AssessmentResult 发音评估结果的类。
类发音ContentAssessmentResult 内容评估结果的类。
类 PropertyCollection 用于从属性集合中检索或设置属性值的类。
类 RecognitionEventArgs 为 RecognitionEvent 提供数据。
类 RecognitionResult 包含有关识别操作结果的详细信息。
类识别器 识别器基类。
类 SessionEventArgs 会话事件参数的基类。
类 SmartHandle 智能句柄类。
类 SourceLanguageConfig 定义源语言配置的类,在 1.8.0 中添加。
类 SourceLanguageRecognizer 源语言识别器的类。 可以将此类用于独立语言检测。 在版本 1.17.0 中添加。
类 SpeechConfig 定义语音/意向识别或语音合成的配置的类。
类 SpeechRecognitionCanceledEventArgs 语音识别取消事件参数的类。
类 SpeechRecognitionEventArgs 语音识别事件参数的类。
类 SpeechRecognitionModel 语音识别模型信息。
类 SpeechRecognitionResult 语音识别结果的基类。
类 SpeechRecognizer 语音识别器的类。
类 SpeechSynthesisBookmarkEventArgs 语音合成书签事件参数的类。 已在版本 1.16.0 中添加。
类 SpeechSynthesisCancellationDetails 包含有关取消结果的原因的详细信息。 在版本 1.4.0 中添加。
类 SpeechSynthesisEventArgs 语音合成事件参数的类。 在版本 1.4.0 中添加。
类 SpeechSynthesisRequest 定义语音合成请求的类。 此类以预览版提供,可能会更改。 在版本 1.37.0 中添加。
类 SpeechSynthesisResult 包含有关文本到语音合成的结果的信息。 在版本 1.4.0 中添加。
类 SpeechSynthesisVisemeEventArgs 语音合成 viseme 事件参数的类。 已在版本 1.16.0 中添加。
类 SpeechSynthesisWordBoundaryEventArgs 语音合成单词边界事件参数的类。 在版本 1.7.0 中添加。
类 SpeechSynthesizer 语音合成器类。 已在版本 1.14.0 中更新。
类 SpeechTranslationModel 语音翻译模型信息。
类 SynthesisVoicesResult 包含有关语音合成器列表的结果的信息。 已在版本 1.16.0 中添加。
类 VoiceInfo 包含有关 1.17.0 版中更新的合成语音信息的信息。

成员

enum PropertyId

描述
SpeechServiceConnection_Key 认知服务语音服务订阅密钥。 如果使用意向识别器,则需要为特定的 LUIS 应用指定 LUIS 终结点密钥。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::FromSubscription
SpeechServiceConnection_Endpoint 认知服务语音服务终结点(url)。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::FromEndpoint。 注意:此终结点与用于获取访问令牌的终结点不同。
SpeechServiceConnection_Region 认知服务语音服务区域。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::FromSubscriptionSpeechConfig::FromEndpointSpeechConfig::FromHostSpeechConfig::FromAuthorizationToken
SpeechServiceAuthorization_Token 认知服务语音服务授权令牌(即访问令牌)。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::FromAuthorizationTokenSpeechRecognizer::SetAuthorizationToken、IntentRecognizer::SetAuthorizationToken、TranslationRecognizer::SetAuthorizationToken。
SpeechServiceAuthorization_Type 认知服务语音服务授权类型。 当前未使用。
SpeechServiceConnection_EndpointId 认知服务自定义语音或自定义语音服务终结点 ID。在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetEndpointId。 注意:终结点 ID 在自定义语音门户中可用,在终结点详细信息下列出。
SpeechServiceConnection_Host 认知服务语音服务主机(url)。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::FromHost
SpeechServiceConnection_ProxyHostName 用于连接到认知服务语音服务的代理服务器的主机名。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:已在版本 1.1.0 中添加此属性 ID。
SpeechServiceConnection_ProxyPort 用于连接到认知服务语音服务的代理服务器的端口。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:已在版本 1.1.0 中添加此属性 ID。
SpeechServiceConnection_ProxyUserName 用于连接到认知服务语音服务的代理服务器的用户名。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:已在版本 1.1.0 中添加此属性 ID。
SpeechServiceConnection_ProxyPassword 用于连接到认知服务语音服务的代理服务器的密码。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:已在版本 1.1.0 中添加此属性 ID。
SpeechServiceConnection_Url 通过语音配置生成的 URL 字符串。 此属性旨在为只读。 SDK 在内部使用它。 注意:在版本 1.5.0 中添加。
SpeechServiceConnection_ProxyHostBypass 指定不应为其使用代理的主机列表。 此设置将替代所有其他配置。 主机名用逗号分隔,并以不区分大小写的方式进行匹配。 不支持通配符。
SpeechServiceConnection_TranslationToLanguages 用作目标翻译语言的逗号分隔语言的列表。 在正常情况下,不应直接使用此属性。 请改用 SpeechTranslationConfig::AddTargetLanguage 和 SpeechTranslationConfig::GetTargetLanguages。
SpeechServiceConnection_TranslationVoice 认知服务文本转语音服务语音的名称。 在正常情况下,不应直接使用此属性。 请改用 SpeechTranslationConfig::SetVoiceName。 注意:可在此处找到有效的语音名称
SpeechServiceConnection_TranslationFeatures 翻译功能。 供内部使用。
SpeechServiceConnection_IntentRegion 语言理解服务区域。 在正常情况下,不应直接使用此属性。 请改用 LanguageUnderstandingModel。
SpeechServiceConnection_RecoMode 认知服务语音识别模式。 可以是“INTERACTIVE”、“CONVERSATION”、“DICTATION”。 此属性旨在为只读。 SDK 在内部使用它。
SpeechServiceConnection_RecoLanguage 要识别的口语(采用 BCP-47 格式)。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetSpeechRecognitionLanguage
Speech_SessionId 会话 ID。此 ID 是一个通用唯一标识符(即 UUID),表示音频输入流的特定绑定及其绑定到的基础语音识别实例。 在正常情况下,不应直接使用此属性。 请改用 SessionEventArgs::SessionId
SpeechServiceConnection_UserDefinedQueryParameters 用户提供的查询参数。 它们将作为 URL 查询参数传递给服务。 在版本 1.5.0 中添加。
SpeechServiceConnection_RecoBackend 指定要用于语音识别的后端的字符串;允许的选项处于联机和脱机状态。 在正常情况下,不应直接使用此属性。 目前,仅当使用 EmbeddedSpeechConfig 时,脱机选项才有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_RecoModelName 要用于语音识别的模型的名称。 在正常情况下,不应直接使用此属性。 目前,仅当使用 EmbeddedSpeechConfig 时才有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_RecoModelKey 此属性已弃用。
SpeechServiceConnection_RecoModelIniFile 要用于语音识别的模型的 ini 文件的路径。 在正常情况下,不应直接使用此属性。 目前,仅当使用 EmbeddedSpeechConfig 时才有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthLanguage 要合成的口语(例如 en-US)在版本 1.4.0 中添加。
SpeechServiceConnection_SynthVoice 要用于语音合成的 TTS 语音的名称,在版本 1.4.0 中添加。
SpeechServiceConnection_SynthOutputFormat 用于指定在版本 1.4.0 中添加的 TTS 输出音频格式的字符串。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission 指示是否使用压缩的音频格式进行语音合成音频传输。 此属性仅影响SpeechServiceConnection_SynthOutputFormat设置为 pcm 格式时。 如果未设置此属性并且 GStreamer 可用,SDK 将使用压缩格式进行合成音频传输,并对其进行解码。 可以将此属性设置为“false”,以使用原始 pcm 格式在网络上传输。 已在版本 1.16.0 中添加。
SpeechServiceConnection_SynthBackend 要指定 TTS 后端的字符串;有效选项处于联机和脱机状态。 在正常情况下,不应直接使用此属性。 请改用 EmbeddedSpeechConfig::FromPathEmbeddedSpeechConfig::FromPaths 将合成后端设置为脱机。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthOfflineDataPath 脱机合成引擎的数据文件路径:仅在合成后端脱机时有效。 在正常情况下,不应直接使用此属性。 请改用 EmbeddedSpeechConfig::FromPathEmbeddedSpeechConfig::FromPaths。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthOfflineVoice 在正常情况下,要用于语音合成的脱机 TTS 语音的名称,不应直接使用此属性。 请改用 EmbeddedSpeechConfig::SetSpeechSynthesisVoiceEmbeddedSpeechConfig::GetSpeechSynthesisVoiceName。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthModelKey 此属性已弃用。
SpeechServiceConnection_VoicesListEndpoint 认知服务语音服务语音列表 API 终结点(url)。 在正常情况下,无需指定此属性,SDK 将基于 SpeechConfig的区域/主机/终结点构造此属性。 已在版本 1.16.0 中添加。
SpeechServiceConnection_InitialSilenceTimeoutMs 服务使用的初始静音超时值(以毫秒为单位)。 在版本 1.5.0 中添加。
SpeechServiceConnection_EndSilenceTimeoutMs 服务使用的结束静音超时值(以毫秒为单位)。 在版本 1.5.0 中添加。
SpeechServiceConnection_EnableAudioLogging 一个布尔值,该值指定是否在服务中启用音频日志记录。 音频和内容日志存储在Microsoft拥有的存储中,或存储在链接到认知服务订阅(启用自带存储(BYOS)的语音资源)的自己的存储帐户中。 在版本 1.5.0 中添加。
SpeechServiceConnection_LanguageIdMode 语音服务连接语言标识符模式。 可以是“AtStart”(默认值),也可以是“连续”。 请参阅 语言标识 文档。 在 1.25.0 中添加。
SpeechServiceConnection_TranslationCategoryId 语音服务连接转换 categoryId。
SpeechServiceConnection_AutoDetectSourceLanguages 自动检测版本 1.8.0 中添加的源语言。
SpeechServiceConnection_AutoDetectSourceLanguageResult 在版本 1.8.0 中添加的自动检测源语言结果。
SpeechServiceResponse_RequestDetailedResultTrueFalse 请求的认知服务语音服务响应输出格式(简单或详细)。 在正常情况下,不应直接使用此属性。 请改用 SpeechConfig::SetOutputFormat
SpeechServiceResponse_RequestProfanityFilterTrueFalse 请求的认知服务语音服务响应输出不雅内容级别。 当前未使用。
SpeechServiceResponse_ProfanityOption 请求的认知服务语音服务响应输出不雅设置。 允许的值是“masked”、“removed”和“raw”。 在版本 1.5.0 中添加。
SpeechServiceResponse_PostProcessingOption 一个字符串值,该值指定服务应使用哪个后期处理选项。 允许的值为“TrueText”。 在版本 1.5.0 中添加。
SpeechServiceResponse_RequestWordLevelTimestamps 一个布尔值,指定是否在响应结果中包含字级时间戳。 在版本 1.5.0 中添加。
SpeechServiceResponse_StablePartialResultThreshold 单词必须以部分结果返回的次数。 在版本 1.5.0 中添加。
SpeechServiceResponse_OutputFormatOption 一个字符串值,该值指定响应结果中的输出格式选项。 仅供内部使用。 在版本 1.5.0 中添加。
SpeechServiceResponse_RequestSnr 一个布尔值,该值指定是否在响应结果中包含 SNR(信号与干扰比率)。 在版本 1.18.0 中添加。
SpeechServiceResponse_TranslationRequestStablePartialResult 一个布尔值,用于通过省略末尾的单词来请求稳定翻译部分结果。 在版本 1.5.0 中添加。
SpeechServiceResponse_RequestWordBoundary 一个布尔值,指定是否请求 WordBoundary 事件。 在版本 1.21.0 中添加。
SpeechServiceResponse_RequestPunctuationBoundary 一个布尔值,该值指定是否在 WordBoundary 事件中请求标点边界。 默认值为 true。 在版本 1.21.0 中添加。
SpeechServiceResponse_RequestSentenceBoundary 一个布尔值,该值指定是否在 WordBoundary Events 中请求句子边界。 默认值为 false。 在版本 1.21.0 中添加。
SpeechServiceResponse_SynthesisEventsSyncToAudio 一个布尔值,指定 SDK 是否应将合成元数据事件(例如单词边界、viseme 等)同步到音频播放。 这仅在通过 SDK 播放音频时生效。 默认值为 true。 如果设置为 false,SDK 会在事件来自服务时触发事件,这可能与音频播放不同步。 在版本 1.31.0 中添加。
SpeechServiceResponse_JsonResult 认知服务语音服务响应输出(采用 JSON 格式)。 此属性仅适用于识别结果对象。
SpeechServiceResponse_JsonErrorDetails 认知服务语音服务错误详细信息(采用 JSON 格式)。 在正常情况下,不应直接使用此属性。 请改用 CancellationDetails::ErrorDetails
SpeechServiceResponse_RecognitionLatencyMs 识别延迟(以毫秒为单位)。 只读,可用于最终语音/翻译/意向结果。 这会测量 SDK 接收音频输入时与从服务接收最终结果之间的延迟。 SDK 从导致最终结果的音频输入中计算最后一个音频片段与从语音服务接收最终结果的时间之间的时间差。 在版本 1.3.0 中添加。
SpeechServiceResponse_RecognitionBackend 识别后端。 只读,可用于语音识别结果。 这表示是使用云(联机)还是嵌入式(脱机)识别来生成结果。
SpeechServiceResponse_SynthesisFirstByteLatencyMs 语音合成第一个字节延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这会测量开始处理合成时与第一个字节音频可用时的延迟。 在版本 1.17.0 中添加。
SpeechServiceResponse_SynthesisFinishLatencyMs 语音合成所有字节延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这会测量开始处理合成的时间与合成整个音频的合成时间之间的延迟。 在版本 1.17.0 中添加。
SpeechServiceResponse_SynthesisUnderrunTimeMs 语音合成的运行不足时间(以毫秒为单位)。 只读,可用于 SynthesisCompleted 事件中的结果。 这将度量 PropertyId::AudioConfig_PlaybackBufferLengthInMs 的总运行时间填充到完成的合成。 在版本 1.17.0 中添加。
SpeechServiceResponse_SynthesisConnectionLatencyMs 语音合成连接延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这会测量在开始处理合成时与建立 HTTP/WebSocket 连接之间的延迟。 在版本 1.26.0 中添加。
SpeechServiceResponse_SynthesisNetworkLatencyMs 语音合成网络延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这将测量网络往返时间。 在版本 1.26.0 中添加。
SpeechServiceResponse_SynthesisServiceLatencyMs 语音合成服务延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这会测量服务处理时间以合成第一个音频字节。 在版本 1.26.0 中添加。
SpeechServiceResponse_SynthesisBackend 指示合成完成的后端。 只读,可用于语音合成结果,除了在版本 1.17.0 中添加的 SynthesisStarted 事件的结果。
SpeechServiceResponse_DiarizeIntermediateResults 确定中间结果是否包含说话人识别。
CancellationDetails_Reason 取消原因。 当前未使用。
CancellationDetails_ReasonText 取消文本。 当前未使用。
CancellationDetails_ReasonDetailedText 取消详细文本。 当前未使用。
LanguageUnderstandingServiceResponse_JsonResult 语言理解服务响应输出(采用 JSON 格式)。 可通过 IntentRecognitionResult.Properties 获取。
AudioConfig_DeviceNameForCapture 音频捕获的设备名称。 在正常情况下,不应直接使用此属性。 请改用 AudioConfig::FromMicrophoneInput。 注意:已在版本 1.3.0 中添加此属性 ID。
AudioConfig_NumberOfChannelsForCapture 音频捕获的通道数。 仅供内部使用。 注意:已在版本 1.3.0 中添加此属性 ID。
AudioConfig_SampleRateForCapture 音频捕获的采样率(以 Hz 为单位)。 仅供内部使用。 注意:已在版本 1.3.0 中添加此属性 ID。
AudioConfig_BitsPerSampleForCapture 用于音频捕获的每个示例的位数。 仅供内部使用。 注意:已在版本 1.3.0 中添加此属性 ID。
AudioConfig_AudioSource 音频源。 允许的值为“麦克风”、“文件”和“Stream”。 在版本 1.3.0 中添加。
AudioConfig_DeviceNameForRender 音频呈现的设备名称。 在正常情况下,不应直接使用此属性。 请改用 AudioConfig::FromSpeakerOutput。 已在版本 1.14.0 中添加。
AudioConfig_PlaybackBufferLengthInMs 播放缓冲区长度(以毫秒为单位),默认值为 50 毫秒。
AudioConfig_AudioProcessingOptions JSON 格式的音频处理选项。
Speech_LogFilename 要写入日志的文件名。 在版本 1.4.0 中添加。
Speech_SegmentationSilenceTimeoutMs 检测到的沉默持续时间(以毫秒为单位),之后语音转文本将确定语音短语已结束并生成最终识别的结果。 在语音输入明显快或慢于平常的情况下,配置此超时可能很有用,默认分段行为会持续产生太长或太短的结果。 不适当的高或低分段超时值可能会对语音转文本的准确性产生负面影响;应仔细配置此属性,并且应按预期彻底验证生成的行为。
Speech_SegmentationMaximumTimeMs 使用“时间”分段策略时,口语短语的最大长度。 随着口语短语的长度接近此值,Speech_SegmentationSilenceTimeoutMs将开始减少,直到达到短语静音超时或短语达到最大长度为止。
Speech_SegmentationStrategy 用于确定口语短语何时结束和最终识别结果的策略应生成。 允许的值为“Default”、“Time”和“Semantic”。
Conversation_ApplicationId 用于连接到后端服务的标识符。 在版本 1.5.0 中添加。
Conversation_DialogType 要连接到的对话后端的类型。 在版本 1.7.0 中添加。
Conversation_Initial_Silence_Timeout 在版本 1.5.0 中添加的侦听的静音超时。
Conversation_From_Id 从 ID 开始用于在版本 1.5.0 中添加的语音识别活动。
Conversation_Conversation_Id 会话的 ConversationId。 在版本 1.8.0 中添加。
Conversation_Custom_Voice_Deployment_Ids 自定义语音部署 ID 的逗号分隔列表。 在版本 1.8.0 中添加。
Conversation_Speech_Activity_Template 语音活动模板,标记服务为语音生成的活动的模板中的属性。 在版本 1.10.0 中添加。
Conversation_ParticipantId 当前对话中的参与者标识符。 在版本 1.13.0 中添加。
Conversation_Request_Bot_Status_Messages
Conversation_Connection_Id
DataBuffer_TimeStamp 使用拉取/推送音频输入流时,与客户端写入的数据缓冲区关联的时间戳。 时间戳是分辨率为 90 kHz 的 64 位值。 它与 MPEG 传输流中的表示时间戳相同。 请参阅版本 1.5.0 中添加 https://en.wikipedia.org/wiki/Presentation_timestamp
DataBuffer_UserId 使用拉取/推送音频输入流时,与客户端写入的数据缓冲区关联的用户 ID。 在版本 1.5.0 中添加。
PronunciationAssessment_ReferenceText 用于发音评估的音频参考文本。 有关此发音评估参数和以下发音评估参数,请参阅表 发音评估参数。 在正常情况下,不应直接使用此属性。 请改用 PronunciationAssessmentConfig::CreatePronunciationAssessmentConfig::SetReferenceText。 已在版本 1.14.0 中添加。
PronunciationAssessment_GradingSystem 发音分数校准的点系统(FivePoint 或 HundredMark)。 在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::Create。 已在版本 1.14.0 中添加。
PronunciationAssessment_Granularity 发音评估粒度(Phoneme、Word 或 FullText)。 在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::Create。 已在版本 1.14.0 中添加。
PronunciationAssessment_EnableMiscue 定义是否启用错误计算。 启用此功能后,将比较发音的字词与参考文本进行比较,并根据比较使用省略/插入进行标记。 默认设置为 False。 在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::Create。 已在版本 1.14.0 中添加。
PronunciationAssessment_PhonemeAlphabet 发音评估音素字母表。 有效值为“SAPI”(默认值)和“IPA”在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::SetPhonemeAlphabet。 在版本 1.20.0 中添加。
PronunciationAssessment_NBestPhonemeCount 发音评估 nbest 音素计数。 在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::SetNBestPhonemeCount。 在版本 1.20.0 中添加。
PronunciationAssessment_EnableProsodyAssessment 是否启用 prosody 评估。 在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::EnableProsodyAssessment。 在版本 1.33.0 中添加。
PronunciationAssessment_Json 在正常情况下,发音评估参数的 json 字符串不应直接使用此属性。 请改用 发音AssessmentConfig::Create。 已在版本 1.14.0 中添加。
PronunciationAssessment_Params 发音评估参数。 此属性旨在为只读。 SDK 在内部使用它。 已在版本 1.14.0 中添加。
PronunciationAssessment_ContentTopic 发音评估的内容主题。 在正常情况下,不应直接使用此属性。 请改用 PronunciationAssessmentConfig::EnableContentAssessmentWithTopic。 在版本 1.33.0 中添加。
SpeakerRecognition_Api_Version 说话人识别后端 API 版本。 添加此属性以允许测试和使用早期版本的说话人识别 API(如果适用)。 在版本 1.18.0 中添加。
SpeechTranslation_ModelName 要用于语音翻译的模型的名称。 请勿直接使用此属性。 目前,仅当使用 EmbeddedSpeechConfig 时才有效。
SpeechTranslation_ModelKey 此属性已弃用。
KeywordRecognition_ModelName 要用于关键字识别的模型的名称。 请勿直接使用此属性。 目前,仅当使用 EmbeddedSpeechConfig 时才有效。
KeywordRecognition_ModelKey 此属性已弃用。
EmbeddedSpeech_EnablePerformanceMetrics 启用嵌入式语音性能指标的集合,该指标可用于评估设备使用嵌入式语音的功能。 收集的数据包含在特定方案(如语音识别)的结果中。 默认设置为“false”。 请注意,并非所有嵌入式语音方案都提供指标。
SpeechSynthesisRequest_Pitch 合成语音的音调。
SpeechSynthesisRequest_Rate 合成语音的速率。
SpeechSynthesisRequest_Volume 合成语音的音量。

定义语音属性 ID。 版本 1.4.0 已更改。

enum OutputFormat

描述
简单
详细

输出格式。

enum ProfanityOption

描述
蒙面 用星形字符替换不雅字词中的字母。
删除 删除亵渎词。
对亵渎词不做任何操作。

删除亵渎(咒骂),或用星星替换亵渎字词的字母。 在版本 1.5.0 中添加。

enum ResultReason

描述
NoMatch 指示无法识别语音。 可以在 NoMatchDetails 对象中找到更多详细信息。
取消 指示已取消识别。 可以使用 CancellationDetails 对象找到更多详细信息。
RecognizingSpeech 指示语音结果包含假设文本。
RecognizedSpeech 指示语音结果包含已识别的最终文本。 此短语的语音识别现已完成。
RecognizingIntent 指示意向结果包含假设文本和意向。
RecognizedIntent 指示意向结果包含最终文本和意向。 此短语的语音识别和意向确定现已完成。
翻译Speech 指示翻译结果包含假设文本及其翻译(s)。
TranslatedSpeech 指示翻译结果包含最终文本和相应的翻译(s)。 语音识别和翻译现在已完成此短语。
合成Audio 指示合成的音频结果包含非零量的音频数据。
SynthesizingAudioCompleted 指示此短语的合成音频现已完成。
RecognizingKeyword 指示语音结果包含关键字文本(未验证)。 在版本 1.3.0 中添加。
RecognizedKeyword 指示关键字识别已完成识别给定关键字。 在版本 1.3.0 中添加。
SynthesizingAudioStarted 指示语音合成现已在版本 1.4.0 中添加。
翻译ParticipantSpeech 指示听录结果包含会话中其他参与者的假设文本及其翻译。 在版本 1.8.0 中添加。
TranslatedParticipantSpeech 指示听录结果包含对话中其他参与者的最终文本和相应的翻译(s)。 语音识别和翻译现在已完成此短语。 在版本 1.8.0 中添加。
TranslatedInstantMessage 指示听录结果包含即时消息和相应的翻译(s)。 在版本 1.8.0 中添加。
TranslatedParticipantInstantMessage 指示听录结果包含对话中其他参与者的即时消息和相应的翻译(s)。 在版本 1.8.0 中添加。
EnrollingVoiceProfile 指示正在注册语音配置文件,客户需要发送更多音频来创建语音配置文件。 在版本 1.12.0 中添加。
EnrolledVoiceProfile 语音配置文件已注册。 在版本 1.12.0 中添加。
RecognizedSpeakers 指示某些说话人的成功识别。 在版本 1.12.0 中添加。
RecognizedSpeaker 指示已成功验证一个扬声器。 在版本 1.12.0 中添加。
ResetVoiceProfile 指示语音配置文件已成功重置。 在版本 1.12.0 中添加。
DeletedVoiceProfile 指示已成功删除语音配置文件。 在版本 1.12.0 中添加。
VoicesListRetrieved 指示已成功检索语音列表。 已在版本 1.16.0 中添加。

指定可能生成识别结果的原因。

enum CancellationReason

描述
错误 指示语音识别期间发生错误。
EndOfStream 指示已到达音频流的末尾。
CancelledByUser 指示用户已取消请求。 已在版本 1.14.0 中添加。

定义可能取消识别结果的原因。

enum CancellationErrorCode

描述
NoError 无错误。 如果 CancellationReason 为 EndOfStream,则 CancellationErrorCode 设置为 NoError。
AuthenticationFailure 指示身份验证错误。 如果订阅密钥或授权令牌无效、已过期或与正在使用的区域不匹配,则会发生身份验证错误。
BadRequest 指示一个或多个识别参数无效,或者不支持音频格式。
TooManyRequests 指示并行请求数超过了订阅允许的并发听录数。
禁止 指示请求使用的免费订阅已超出配额。
ConnectionFailure 指示连接错误。
ServiceTimeout 指示等待服务响应时的超时错误。
ServiceError 指示服务返回错误。
ServiceUnavailable 指示服务当前不可用。
RuntimeError 指示意外的运行时错误。
ServiceRedirectTemporary 指示语音服务正在暂时请求重新连接到其他终结点。
ServiceRedirectPermanent 指示语音服务正在永久请求重新连接到其他终结点。
EmbeddedModelError 指示嵌入的语音(SR 或 TTS)模型不可用或损坏。

定义 CancellationReason 为 Error 的错误代码。 已在版本 1.1.0 中添加。

enum NoMatchReason

描述
NotRecognized 指示检测到语音,但无法识别。
InitialSilenceTimeout 指示音频流的开始仅包含静音,服务超时等待语音。
InitialBabbleTimeout 指示音频流的开始仅包含噪音,服务超时等待语音。
KeywordNotRecognized 指示关键字验证服务已拒绝发现关键字。 在版本 1.5.0 中添加。
EndSilenceTimeout 指示音频流仅包含最后一个识别短语后的静音。

定义无法识别识别结果的可能原因。

enum ActivityJSONType

描述
对象
数组
字符串
UInt
Int
布尔

定义活动 json 值的可能类型。 在版本 1.5.0 中添加。

enum SpeechSynthesisOutputFormat

描述
Raw8Khz8BitMonoMULaw raw-8khz-8bit-mono-mulaw
Riff16Khz16KbpsMonoSiren 服务不支持 riff-16khz-16kbps-mono-siren。 请勿使用此值。
Audio16Khz16KbpsMonoSiren 服务不支持 audio-16khz-16kbps-mono-siren。 请勿使用此值。
Audio16Khz32KBitRateMonoMp3 audio-16khz-32kbitrate-mono-mp3
Audio16Khz128KBitRateMonoMp3 audio-16khz-128kbitrate-mono-mp3
Audio16Khz64KBitRateMonoMp3 audio-16khz-64kbitrate-mono-mp3
Audio24Khz48KBitRateMonoMp3 audio-24khz-48kbitrate-mono-mp3
Audio24Khz96KBitRateMonoMp3 audio-24khz-96kbitrate-mono-mp3
Audio24Khz160KBitRateMonoMp3 audio-24khz-160kbitrate-mono-mp3
Raw16Khz16BitMonoTrueSilk raw-16khz-16bit-mono-truesilk
Riff16Khz16BitMonoPcm riff-16khz-16bit-mono-pcm
Riff8Khz16BitMonoPcm riff-8khz-16bit-mono-pcm
Riff24Khz16BitMonoPcm riff-24khz-16bit-mono-pcm
Riff8Khz8BitMonoMULaw riff-8khz-8bit-mono-mulaw
Raw16Khz16BitMonoPcm raw-16khz-16bit-mono-pcm
Raw24Khz16BitMonoPcm raw-24khz-16bit-mono-pcm
Raw8Khz16BitMonoPcm raw-8khz-16bit-mono-pcm
Ogg16Khz16BitMonoOpus ogg-16khz-16bit-mono-opus
Ogg24Khz16BitMonoOpus ogg-24khz-16bit-mono-opus
Raw48Khz16BitMonoPcm raw-48khz-16bit-mono-pcm
Riff48Khz16BitMonoPcm riff-48khz-16bit-mono-pcm
Audio48Khz96KBitRateMonoMp3 audio-48khz-96kbitrate-mono-mp3
Audio48Khz192KBitRateMonoMp3 audio-48khz-192kbitrate-mono-mp3
Ogg48Khz16BitMonoOpus ogg-48khz-16bit-mono-opus 已在版本 1.16.0 中添加
Webm16Khz16BitMonoOpus 在版本 1.16.0 中添加的 webm-16khz-16bit-mono-opus
Webm24Khz16BitMonoOpus 在版本 1.16.0 中添加的 webm-24khz-16bit-mono-opus
Raw24Khz16BitMonoTrueSilk raw-24khz-16bit-mono-truesilk 已在版本 1.17.0 中添加
Raw8Khz8BitMonoALaw raw-8khz-8bit-mono-alaw 在版本 1.17.0 中添加
Riff8Khz8BitMonoALaw riff-8khz-8bit-mono-alaw 已在版本 1.17.0 中添加
Webm24Khz16Bit24KbpsMonoOpus webm-24khz-16bit-24kbps-mono-opus 音频由 WebM 容器中的 OPUS 编解码器压缩,比特率为 24kbps,针对 IoT 方案进行了优化。 (在 1.19.0 中添加)
Audio16Khz16Bit32KbpsMonoOpus audio-16khz-16bit-32kbps-mono-opus 音频由不带容器的 OPUS 编解码器压缩,比特率为 32kbps。 (1.20.0 中添加)
Audio24Khz16Bit48KbpsMonoOpus audio-24khz-16bit-48kbps-mono-opus Audio 由不带容器的 OPUS 编解码器压缩,比特率为 48kbps。 (1.20.0 中添加)
Audio24Khz16Bit24KbpsMonoOpus audio-24khz-16bit-24kbps-mono-opus Audio 由不带容器的 OPUS 编解码器压缩,比特率为 24kbps。 (1.20.0 中添加)
Raw22050Hz16BitMonoPcm raw-22050hz-16bit-mono-pcm Raw PCM 音频,采样率为 22050Hz,深度为 16 位。 (在 1.22.0 中添加)
Riff22050Hz16BitMonoPcm riff-22050hz-16bit-mono-pcm PCM 音频采用 22050Hz 采样率和 16 位深度,具有 RIFF 标头。 (在 1.22.0 中添加)
Raw44100Hz16BitMonoPcm raw-44100hz-16bit-mono-pcm Raw PCM 音频,采样率为 44100Hz,深度为 16 位。 (在 1.22.0 中添加)
Riff44100Hz16BitMonoPcm riff-44100hz-16bit-mono-pcm PCM 音频采用 44100Hz 采样率和 16 位深度,具有 RIFF 标头。 (在 1.22.0 中添加)
AmrWb16000Hz amr-wb-16000hz AMR-WB 音频,采样率为 16kHz。 (1.24.0 中添加)
G72216Khz64Kbps g722-16khz-64kbps G.722 音频,采样率为 16kHz,比特率为 64kbps。 (在 1.38.0 中添加)

定义可能的语音合成输出音频格式。 已在版本 1.19.0 中更新。

enum StreamStatus

描述
未知 音频数据流状态未知。
NoData 音频数据流不包含任何数据。
PartialData 音频数据流包含语音请求的部分数据。
AllData 音频数据流包含语音请求的所有数据。
取消 音频数据流已取消。

定义音频数据流的可能状态。 在版本 1.4.0 中添加。

enum ServicePropertyChannel

描述
UriQueryParameter 使用 URI 查询参数将属性设置传递给服务。
HttpHeader 使用 HttpHeader 在 HTTP 标头中设置键/值。

定义用于将属性设置传递给服务的通道。 在版本 1.5.0 中添加。

enum VoiceProfileType

描述
TextIndependentIdentification 与文本无关的说话人识别。
TextDependentVerification 与文本相关的说话人验证。
TextIndependentVerification 与文本无关的验证。

定义语音配置文件类型。

枚举 RecognitionFactorScope

描述
PartialPhrase 识别因子将应用于可作为单个部分短语引用的语法。

定义应用识别因子的范围。

enum 发音AssessmentGradingSystem

描述
FivePoint 五点校准。
HundredMark 百马克。

定义发音分数校准的点系统;默认值为 FivePoint。 已在版本 1.14.0 中添加。

enum 发音AssessmentGranularity

描述
音素 显示全文、单词和音素级别的分数。
显示全文和单词级别的分数。
FullText 仅显示全文级别的分数。

定义发音评估粒度;默认值为 Phoneme。 已在版本 1.14.0 中添加。

enum SynthesisVoiceType

描述
OnlineNeural 联机神经语音。
OnlineStandard 联机标准语音。
OfflineNeural 脱机神经语音。
OfflineStandard 脱机标准语音。

定义在版本 1.16.0 中添加的合成语音的类型。

enum SynthesisVoiceGender

描述
未知 性别未知。
女性 女性的声音。
男性声音。

定义在版本 1.17.0 中添加的合成语音的性别。

enum SpeechSynthesisBoundaryType

描述
Word 边界。
标点 标点边界。
句子边界。

定义在版本 1.21.0 中添加的语音合成边界事件的边界类型。

enum SegmentationStrategy

描述
违约 使用语音服务确定的默认策略和设置。 在大多数情况下使用。
时间 使用基于时间的策略,其中语音之间的沉默量用于确定何时生成最终结果。
语义 使用 AI 模型根据短语的内容阻止口语的结尾。

用于确定口语短语何时结束和最终识别结果的策略应生成。 允许的值为“Default”、“Time”和“Semantic”。