Compartir a través de


Espacio de nombres Microsoft::CognitiveServices::Speech

Resumen

Miembros Descripciones
PropertyId de enumeración Define los identificadores de propiedad de voz. Se ha cambiado en la versión 1.4.0.
enumeración OutputFormat Formato de salida.
enumeración ProfanityOption Quita palabras soeces (juradas) o reemplaza letras de palabras profanas por estrellas. Se agregó en la versión 1.5.0.
enumeración ResultReason Especifica los posibles motivos por los que se puede generar un resultado de reconocimiento.
enumeración CancellationReason Define las posibles razones por las que se puede cancelar un resultado de reconocimiento.
enumeración CancellationErrorCode Define el código de error en caso de que CancellationReason sea Error. Se agregó en la versión 1.1.0.
enumeración NoMatchReason Define las posibles razones por las que es posible que no se reconozca un resultado de reconocimiento.
enumeración ActivityJSONType Define los tipos posibles para un valor json de actividad. Se agregó en la versión 1.5.0.
enumeración SpeechSynthesisOutputFormat Define los posibles formatos de audio de salida de síntesis de voz. Actualizado en la versión 1.19.0.
enumeración StreamStatus Define el estado posible de la secuencia de datos de audio. Se agregó en la versión 1.4.0.
enumeración ServicePropertyChannel Define los canales usados para pasar la configuración de propiedades al servicio. Se agregó en la versión 1.5.0.
enumeración VoiceProfileType Define los tipos de perfil de voz.
enumeración RecognitionFactorScope Define el ámbito al que se aplica un factor de reconocimiento.
enumeración PronunciationAssessmentGradingSystem Define el sistema de puntos para la calibración de la puntuación de pronunciación; el valor predeterminado es FivePoint. Se agregó en la versión 1.14.0.
enumeración PronunciationAssessmentGranularity Define la granularidad de evaluación de pronunciación; el valor predeterminado es Phoneme. Se agregó en la versión 1.14.0.
enumeración SynthesisVoiceType Define el tipo de voces de síntesis agregadas en la versión 1.16.0.
enumeración SynthesisVoiceGender Define el género de las voces de síntesis agregadas en la versión 1.17.0.
enumeración SpeechSynthesisBoundaryType Define el tipo de límite del evento de límite de síntesis de voz agregado en la versión 1.21.0.
enumeración SegmentationStrategy Estrategia que se usa para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final. Los valores permitidos son "Default", "Time" y "Semantic".
clase AsyncRecognizer Clase base abstracta AsyncRecognizer.
clase AudioDataStream Representa la secuencia de datos de audio que se usa para operar datos de audio como una secuencia. Se agregó en la versión 1.4.0.
clase AutoDetectSourceLanguageConfig Clase que define la configuración de origen de detección automática actualizada en 1.13.0.
clase AutoDetectSourceLanguageResult Contiene el resultado del idioma de origen detectado automáticamente agregado en 1.8.0.
clase BaseAsyncRecognizer Clase BaseAsyncRecognizer.
clase CancellationDetails Contiene información detallada sobre por qué se canceló un resultado.
clase ClassLanguageModel Representa una lista de gramáticas para escenarios de gramática dinámica. Se agregó en la versión 1.7.0.
clase Connection Connection es una clase de proxy para administrar la conexión al servicio de voz del reconocedor especificado. De forma predeterminada, un Reconocedor administra de forma autónoma la conexión con el servicio cuando sea necesario. La clase Connection proporciona métodos adicionales para que los usuarios abran o cierren explícitamente una conexión y para suscribirse a los cambios de estado de conexión. El uso de Connection es opcional. Está pensado para escenarios en los que se necesita un ajuste preciso del comportamiento de la aplicación en función del estado de conexión. Opcionalmente, los usuarios pueden llamar a Open() para iniciar manualmente una conexión de servicio antes de iniciar el reconocimiento en el reconocedor asociado a esta conexión. Después de iniciar un reconocimiento, es posible que se produzca un error al llamar a Open() o Close(). Esto no afectará al reconocedor ni al reconocimiento continuo. La conexión puede quitarse por varias razones, el Reconocedor siempre intentará reinstituer la conexión según sea necesario para garantizar las operaciones en curso. En todos estos casos, los eventos conectados o desconectados indicarán el cambio del estado de conexión. Actualizado en la versión 1.17.0.
clase ConnectionEventArgs Proporciona datos para ConnectionEvent. Se agregó en la versión 1.2.0.
clase ConnectionMessage ConnectionMessage representa los mensajes específicos de implementación enviados y recibidos del servicio de voz. Estos mensajes se proporcionan con fines de depuración y no deben usarse para casos de uso de producción con El servicio voz de Azure Cognitive Services. Los mensajes enviados y recibidos desde el servicio voz están sujetos a cambios sin previo aviso. Esto incluye contenido de mensajes, encabezados, cargas, pedidos, etc. Se agregó en la versión 1.10.0.
clase ConnectionMessageEventArgs Proporciona datos para ConnectionMessageEvent.
clase EmbeddedSpeechConfig Clase que define la configuración de voz insertada (sin conexión).
clase EventArgs Clase base para argumentos de evento.
clase EventSignal Los clientes pueden conectarse a la señal de evento para recibir eventos o desconectar de la señal de evento para dejar de recibir eventos.
clase EventSignalBase Los clientes pueden conectarse a la señal de evento para recibir eventos o desconectar de la señal de evento para dejar de recibir eventos.
clase Grammar Representa la gramática de clases base para personalizar el reconocimiento de voz. Se agregó en la versión 1.5.0.
clase GrammarList Representa una lista de gramáticas para escenarios de gramática dinámica. Se agregó en la versión 1.7.0.
clase GrammarPhrase Representa una frase que el usuario puede hablar. Se agregó en la versión 1.5.0.
clase HybridSpeechConfig Clase que define configuraciones híbridas (en la nube y insertadas) para el reconocimiento de voz o la síntesis de voz.
clase KeywordRecognitionEventArgs Clase para los eventos que KeywordRecognizer.
clase KeywordRecognitionModel Representa el modelo de reconocimiento de palabras clave usado con métodos StartKeywordRecognitionAsync.
clase KeywordRecognitionResult Clase que define los resultados emitidos por el KeywordRecognizer.
clase KeywordRecognizer Tipo de reconocedor especializado para controlar solo la activación de palabras clave.
clase NoMatchDetails Contiene información detallada sobre los resultados del reconocimiento NoMatch.
clase PersonalVoiceSynthesisRequest Clase que define la solicitud de síntesis de voz para la voz personal (aka.ms/azureai/personal-voice). Esta clase está en versión preliminar y está sujeta a cambios. Se agregó en la versión 1.39.0.
clase PhraseListGrammar Representa una gramática de lista de frases para escenarios de gramática dinámica. Se agregó en la versión 1.5.0.
clase PronunciationAssessmentConfig Clase que define la configuración de evaluación de pronunciación agregada en 1.14.0.
clase PronunciationAssessmentResult Clase para los resultados de la evaluación de pronunciación.
clase PronunciationContentAssessmentResult Clase para los resultados de la evaluación de contenido.
clase PropertyCollection Clase para recuperar o establecer un valor de propiedad de una colección de propiedades.
clase RecognitionEventArgs Proporciona datos para RecognitionEvent.
clase RecognitionResult Contiene información detallada sobre el resultado de una operación de reconocimiento.
class Recognizer Clase base recognizer.
clase SessionEventArgs Clase base para argumentos de evento de sesión.
clase SmartHandle Clase de controlador inteligente.
clase SourceLanguageConfig Clase que define la configuración del lenguaje de origen, agregada en la versión 1.8.0.
clase SourceLanguageRecognizer Clase para reconocedores de lenguaje de origen. Puede usar esta clase para la detección de idioma independiente. Se agregó en la versión 1.17.0.
clase SpeechConfig Clase que define configuraciones para el reconocimiento de voz o intención, o síntesis de voz.
clase SpeechRecognitionCanceledEventArgs Clase para argumentos de evento cancelados de reconocimiento de voz.
clase SpeechRecognitionEventArgs Clase para argumentos de evento de reconocimiento de voz.
clase SpeechRecognitionModel Información del modelo de reconocimiento de voz.
clase SpeechRecognitionResult Clase base para los resultados del reconocimiento de voz.
clase SpeechRecognizer Clase para reconocedores de voz.
clase SpeechSynthesisBookmarkEventArgs Clase para argumentos de evento de marcador de síntesis de voz. Se agregó en la versión 1.16.0.
clase SpeechSynthesisCancellationDetails Contiene información detallada sobre por qué se canceló un resultado. Se agregó en la versión 1.4.0.
clase SpeechSynthesisEventArgs Clase para argumentos de evento de síntesis de voz. Se agregó en la versión 1.4.0.
clase SpeechSynthesisRequest Clase que define la solicitud de síntesis de voz. Esta clase está en versión preliminar y está sujeta a cambios. Se agregó en la versión 1.37.0.
clase SpeechSynthesisResult Contiene información sobre el resultado de la síntesis de texto a voz. Se agregó en la versión 1.4.0.
clase SpeechSynthesisVisemeEventArgs Clase para argumentos de evento viseme de síntesis de voz. Se agregó en la versión 1.16.0.
clase SpeechSynthesisWordBoundaryEventArgs Clase para argumentos de evento de límite de palabra de síntesis de voz. Se agregó en la versión 1.7.0.
clase SpeechSynthesizer Clase para sintetizador de voz. Actualizado en la versión 1.14.0.
clase SpeechTranslationModel Información del modelo de traducción de voz.
clase SynthesisVoicesResult Contiene información sobre el resultado de la lista de voces de sintetizadores de voz. Se agregó en la versión 1.16.0.
clase VoiceInfo Contiene información sobre la información de voz de síntesis actualizada en la versión 1.17.0.

Miembros

enum PropertyId

Valores Descripciones
SpeechServiceConnection_Key Clave de suscripción de Cognitive Services Speech Service. Si usa un reconocedor de intenciones, debe especificar la clave de punto de conexión de LUIS para la aplicación de LUIS concreta. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromSubscription.
SpeechServiceConnection_Endpoint El punto de conexión de Speech Service (url) de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromEndpoint. NOTA: Este punto de conexión no es el mismo que el que se usa para obtener un token de acceso.
SpeechServiceConnection_Region La región de Speech Service de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromSubscription, SpeechConfig::FromEndpoint, SpeechConfig::FromHost, SpeechConfig::FromAuthorizationToken.
SpeechServiceAuthorization_Token El token de autorización de Speech Service de Cognitive Services (también conocido como token de acceso). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromAuthorizationToken, SpeechRecognizer::SetAuthorizationToken, IntentRecognizer::SetAuthorizationToken, TranslationRecognizer::SetAuthorizationToken.
SpeechServiceAuthorization_Type Tipo de autorización de Cognitive Services Speech Service. Actualmente no se está usando.
SpeechServiceConnection_EndpointId Identificador de punto de conexión de Cognitive Services Custom Speech o Custom Voice Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetEndpointId. NOTA: El identificador de punto de conexión está disponible en el Portal de Voz personalizada, que aparece en Detalles del punto de conexión.
SpeechServiceConnection_Host Host (url) de Cognitive Services Speech Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::FromHost.
SpeechServiceConnection_ProxyHostName Nombre de host del servidor proxy que se usa para conectarse al servicio voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0.
SpeechServiceConnection_ProxyPort Puerto del servidor proxy que se usa para conectarse al servicio Voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0.
SpeechServiceConnection_ProxyUserName Nombre de usuario del servidor proxy que se usa para conectarse al servicio voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0.
SpeechServiceConnection_ProxyPassword Contraseña del servidor proxy que se usa para conectarse al servicio voz de Cognitive Services. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetProxy. NOTA: Este identificador de propiedad se agregó en la versión 1.1.0.
SpeechServiceConnection_Url Cadena de dirección URL creada a partir de la configuración de voz. Esta propiedad está pensada para ser de solo lectura. El SDK lo usa internamente. NOTA: Se ha agregado en la versión 1.5.0.
SpeechServiceConnection_ProxyHostBypass Especifica la lista de hosts para los que no se deben usar los servidores proxy. Esta configuración invalida todas las demás configuraciones. Los nombres de host se separan por comas y se coinciden de forma que no distinguen mayúsculas de minúsculas. No se admiten caracteres comodín.
SpeechServiceConnection_TranslationToLanguages Lista de idiomas separados por comas usados como idiomas de traducción de destino. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechTranslationConfig::AddTargetLanguage y SpeechTranslationConfig::GetTargetLanguages.
SpeechServiceConnection_TranslationVoice Nombre de la voz de Cognitive Service Text to Speech Service. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechTranslationConfig::SetVoiceName. NOTA: Los nombres de voz válidos se pueden encontrar aquí.
SpeechServiceConnection_TranslationFeatures Características de traducción. Para uso interno.
SpeechServiceConnection_IntentRegion Región del servicio Language Understanding. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use LanguageUnderstandingModel.
SpeechServiceConnection_RecoMode El modo de reconocimiento de Speech Service de Cognitive Services. Puede ser "INTERACTIVE", "CONVERSATION", "DICTATION". Esta propiedad está pensada para ser de solo lectura. El SDK lo usa internamente.
SpeechServiceConnection_RecoLanguage Idioma hablado que se va a reconocer (en formato BCP-47). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetSpeechRecognitionLanguage.
Speech_SessionId Identificador de sesión. Este identificador es un identificador único universal (también conocido como UUID) que representa un enlace específico de una secuencia de entrada de audio y la instancia de reconocimiento de voz subyacente a la que está enlazado. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SessionEventArgs::SessionId.
SpeechServiceConnection_UserDefinedQueryParameters Parámetros de consulta proporcionados por los usuarios. Se pasarán al servicio como parámetros de consulta url. Se agregó en la versión 1.5.0.
SpeechServiceConnection_RecoBackend Cadena que se va a especificar el back-end que se va a usar para el reconocimiento de voz; las opciones permitidas están en línea y sin conexión. En circunstancias normales, no debe usar esta propiedad directamente. Actualmente, la opción sin conexión solo es válida cuando se usa EmbeddedSpeechConfig. Se agregó en la versión 1.19.0.
SpeechServiceConnection_RecoModelName Nombre del modelo que se va a usar para el reconocimiento de voz. En circunstancias normales, no debe usar esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig. Se agregó en la versión 1.19.0.
SpeechServiceConnection_RecoModelKey Esta propiedad está en desuso.
SpeechServiceConnection_RecoModelIniFile Ruta de acceso al archivo ini del modelo que se va a usar para el reconocimiento de voz. En circunstancias normales, no debe usar esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig. Se agregó en la versión 1.19.0.
SpeechServiceConnection_SynthLanguage Lenguaje hablado que se va a sintetizar (por ejemplo, en-US) Agregado en la versión 1.4.0.
SpeechServiceConnection_SynthVoice Nombre de la voz TTS que se usará para la síntesis de voz agregada en la versión 1.4.0.
SpeechServiceConnection_SynthOutputFormat Cadena para especificar el formato de audio de salida de TTS agregado en la versión 1.4.0.
SpeechServiceConnection_SynthEnableCompressedAudioTransmission Indica si se usa el formato de audio comprimido para la transmisión de audio de síntesis de voz. Esta propiedad solo afecta cuando SpeechServiceConnection_SynthOutputFormat se establece en un formato pcm. Si esta propiedad no está establecida y GStreamer está disponible, el SDK usará el formato comprimido para la transmisión de audio sintetizada y lo descodificará. Puede establecer esta propiedad en "false" para usar el formato pcm sin procesar para la transmisión en la conexión. Se agregó en la versión 1.16.0.
SpeechServiceConnection_SynthBackend Cadena que se va a especificar el back-end de TTS; las opciones válidas están en línea y sin conexión. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use EmbeddedSpeechConfig::FromPath o EmbeddedSpeechConfig::FromPaths para establecer el back-end de síntesis en sin conexión. Se agregó en la versión 1.19.0.
SpeechServiceConnection_SynthOfflineDataPath Las rutas de acceso del archivo de datos para el motor de síntesis sin conexión; solo es válido cuando el back-end de síntesis está sin conexión. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use EmbeddedSpeechConfig::FromPath o EmbeddedSpeechConfig::FromPaths. Se agregó en la versión 1.19.0.
SpeechServiceConnection_SynthOfflineVoice El nombre de la voz TTS sin conexión que se usará para la síntesis de voz En circunstancias normales, no debe usar esta propiedad directamente. En su lugar, use EmbeddedSpeechConfig::SetSpeechSynthesisVoice y EmbeddedSpeechConfig::GetSpeechSynthesisVoiceName. Se agregó en la versión 1.19.0.
SpeechServiceConnection_SynthModelKey Esta propiedad está en desuso.
SpeechServiceConnection_VoicesListEndpoint Las voces de Speech Service de Cognitive Services enumeran el punto de conexión de API (url). En circunstancias normales, no es necesario especificar esta propiedad, el SDK lo construirá en función de la región, host o punto de conexión de SpeechConfig. Se agregó en la versión 1.16.0.
SpeechServiceConnection_InitialSilenceTimeoutMs Valor de tiempo de espera de silencio inicial (en milisegundos) usado por el servicio. Se agregó en la versión 1.5.0.
SpeechServiceConnection_EndSilenceTimeoutMs Valor de tiempo de espera de silencio final (en milisegundos) usado por el servicio. Se agregó en la versión 1.5.0.
SpeechServiceConnection_EnableAudioLogging Valor booleano que especifica si el registro de audio está habilitado en el servicio o no. Los registros de audio y contenido se almacenan en el almacenamiento propiedad de Microsoft o en su propia cuenta de almacenamiento vinculada a su suscripción de Cognitive Services (Traiga su propio almacenamiento [BYOS]) habilitado para el recurso de voz). Se agregó en la versión 1.5.0.
SpeechServiceConnection_LanguageIdMode Modo de identificador de idioma de conexión del servicio de voz. Puede ser "AtStart" (valor predeterminado) o "Continuous". Consulte documento de identificación del idioma. Agregado en la versión 1.25.0.
SpeechServiceConnection_TranslationCategoryId CategoryId de traducción de conexión del servicio de voz.
SpeechServiceConnection_AutoDetectSourceLanguages Los idiomas de origen de detección automática agregados en la versión 1.8.0.
SpeechServiceConnection_AutoDetectSourceLanguageResult Resultado de detección automática del idioma de origen agregado en la versión 1.8.0.
SpeechServiceResponse_RequestDetailedResultTrueFalse El formato de salida de respuesta solicitado de Cognitive Services Speech Service (simple o detallado). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use SpeechConfig::SetOutputFormat.
SpeechServiceResponse_RequestProfanityFilterTrueFalse El nivel de palabra soece de respuesta de Cognitive Services Speech Service solicitado. Actualmente no se está usando.
SpeechServiceResponse_ProfanityOption Configuración de palabra soece de salida de respuesta de Cognitive Services Speech Service solicitada. Los valores permitidos son "masked", "removed" y "raw". Se agregó en la versión 1.5.0.
SpeechServiceResponse_PostProcessingOption Valor de cadena que especifica qué opción posterior al procesamiento debe usar el servicio. Los valores permitidos son "TrueText". Se agregó en la versión 1.5.0.
SpeechServiceResponse_RequestWordLevelTimestamps Valor booleano que especifica si se deben incluir marcas de tiempo de nivel de palabra en el resultado de la respuesta. Se agregó en la versión 1.5.0.
SpeechServiceResponse_StablePartialResultThreshold Número de veces que una palabra debe estar en resultados parciales que se van a devolver. Se agregó en la versión 1.5.0.
SpeechServiceResponse_OutputFormatOption Valor de cadena que especifica la opción de formato de salida en el resultado de la respuesta. Solo uso interno. Se agregó en la versión 1.5.0.
SpeechServiceResponse_RequestSnr Valor booleano que especifica si se debe incluir SNR (relación de señal a ruido) en el resultado de la respuesta. Se agregó en la versión 1.18.0.
SpeechServiceResponse_TranslationRequestStablePartialResult Valor booleano que se va a solicitar para estabilizar los resultados parciales de traducción omitiendo palabras al final. Se agregó en la versión 1.5.0.
SpeechServiceResponse_RequestWordBoundary Valor booleano que especifica si se van a solicitar eventos de WordBoundary. Se agregó en la versión 1.21.0.
SpeechServiceResponse_RequestPunctuationBoundary Valor booleano que especifica si se va a solicitar el límite de puntuación en eventos de WordBoundary. El valor predeterminado es true. Se agregó en la versión 1.21.0.
SpeechServiceResponse_RequestSentenceBoundary Valor booleano que especifica si se va a solicitar el límite de oración en eventos de WordBoundary. El valor predeterminado es false. Se agregó en la versión 1.21.0.
SpeechServiceResponse_SynthesisEventsSyncToAudio Valor booleano que especifica si el SDK debe sincronizar los eventos de metadatos de síntesis (por ejemplo, límite de palabras, visema, etc.) con la reproducción de audio. Esto solo surte efecto cuando el audio se reproduce a través del SDK. El valor predeterminado es true. Si se establece en false, el SDK activará los eventos a medida que proceden del servicio, lo que puede estar fuera de sincronización con la reproducción de audio. Se agregó en la versión 1.31.0.
SpeechServiceResponse_JsonResult Salida de respuesta de Speech Service de Cognitive Services (en formato JSON). Esta propiedad solo está disponible en objetos de resultado de reconocimiento.
SpeechServiceResponse_JsonErrorDetails Los detalles del error de Cognitive Services Speech Service (en formato JSON). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use CancellationDetails::ErrorDetails.
SpeechServiceResponse_RecognitionLatencyMs Latencia de reconocimiento en milisegundos. Solo lectura, disponible en los resultados finales de voz, traducción o intención. Esto mide la latencia entre cuando el SDK recibe una entrada de audio y el momento en que se recibe el resultado final del servicio. El SDK calcula la diferencia de tiempo entre el último fragmento de audio de la entrada de audio que contribuye al resultado final y la hora en que se recibe el resultado final del servicio de voz. Se agregó en la versión 1.3.0.
SpeechServiceResponse_RecognitionBackend Back-end de reconocimiento. Solo lectura, disponible en los resultados del reconocimiento de voz. Esto indica si se usó el reconocimiento en la nube (en línea) o incrustado (sin conexión) para generar el resultado.
SpeechServiceResponse_SynthesisFirstByteLatencyMs La síntesis de voz tiene la primera latencia de bytes en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide la latencia entre cuando se inicia la síntesis para procesarse y el momento en que está disponible el primer audio de bytes. Se agregó en la versión 1.17.0.
SpeechServiceResponse_SynthesisFinishLatencyMs La síntesis de voz todas las latencias de bytes en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide la latencia entre cuando se inicia la síntesis para procesarse y el momento en que se sintetiza todo el audio. Se agregó en la versión 1.17.0.
SpeechServiceResponse_SynthesisUnderrunTimeMs Tiempo de ejecución inferior para la síntesis de voz en milisegundos. Solo lectura, disponible en los resultados de los eventos SynthesisCompleted. Esto mide el tiempo total de infraejecución de PropertyId::AudioConfig_PlaybackBufferLengthInMs se rellena para completar la síntesis. Se agregó en la versión 1.17.0.
SpeechServiceResponse_SynthesisConnectionLatencyMs Latencia de conexión de síntesis de voz en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide la latencia entre cuando se inicia la síntesis para procesarse y el momento en que se establece la conexión HTTP/WebSocket. Se agregó en la versión 1.26.0.
SpeechServiceResponse_SynthesisNetworkLatencyMs Latencia de red de síntesis de voz en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide el tiempo de ida y vuelta de red. Se agregó en la versión 1.26.0.
SpeechServiceResponse_SynthesisServiceLatencyMs Latencia del servicio de síntesis de voz en milisegundos. Solo lectura, disponible en los resultados finales de la síntesis de voz. Esto mide el tiempo de procesamiento del servicio para sintetizar el primer byte de audio. Se agregó en la versión 1.26.0.
SpeechServiceResponse_SynthesisBackend Indica qué back-end finaliza la síntesis. Solo lectura, disponible en los resultados de síntesis de voz, excepto el resultado en el evento SynthesisStarted Agregado en la versión 1.17.0.
SpeechServiceResponse_DiarizeIntermediateResults Determina si los resultados intermedios contienen identificación del hablante.
CancellationDetails_Reason Motivo de cancelación. Actualmente no se está usando.
CancellationDetails_ReasonText Texto de cancelación. Actualmente no se está usando.
CancellationDetails_ReasonDetailedText Texto detallado de cancelación. Actualmente no se está usando.
LanguageUnderstandingServiceResponse_JsonResult Salida de respuesta de Language Understanding Service (en formato JSON). Disponible a través de IntentRecognitionResult.Properties.
AudioConfig_DeviceNameForCapture Nombre del dispositivo para la captura de audio. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use AudioConfig::FromMicrophoneInput. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0.
AudioConfig_NumberOfChannelsForCapture Número de canales para la captura de audio. Solo uso interno. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0.
AudioConfig_SampleRateForCapture Frecuencia de muestreo (en Hz) para la captura de audio. Solo uso interno. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0.
AudioConfig_BitsPerSampleForCapture Número de bits de cada muestra para la captura de audio. Solo uso interno. NOTA: Este identificador de propiedad se agregó en la versión 1.3.0.
AudioConfig_AudioSource Origen de audio. Los valores permitidos son "Micrófonos", "Archivo" y "Stream". Se agregó en la versión 1.3.0.
AudioConfig_DeviceNameForRender Nombre del dispositivo para la representación de audio. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use AudioConfig::FromSpeakerOutput. Se agregó en la versión 1.14.0.
AudioConfig_PlaybackBufferLengthInMs La longitud del búfer de reproducción en milisegundos, el valor predeterminado es de 50 milisegundos.
AudioConfig_AudioProcessingOptions Opciones de procesamiento de audio en formato JSON.
Speech_LogFilename Nombre de archivo que se va a escribir registros. Se agregó en la versión 1.4.0.
Speech_SegmentationSilenceTimeoutMs Duración del silencio detectado, medido en milisegundos, después de lo cual la conversión de voz a texto determinará una frase hablada y generará un resultado reconocido final. La configuración de este tiempo de espera puede ser útil en situaciones en las que la entrada hablada sea significativamente más rápida o más lenta que el comportamiento de segmentación predeterminado y habitual produce resultados que son demasiado largos o demasiado cortos. Los valores de tiempo de espera de segmentación que son inadecuados o bajos pueden afectar negativamente a la precisión de la conversión de voz a texto; esta propiedad debe configurarse cuidadosamente y el comportamiento resultante debe validarse exhaustivamente según lo previsto.
Speech_SegmentationMaximumTimeMs Longitud máxima de una frase hablada cuando se usa la estrategia de segmentación "Time". A medida que la longitud de una frase hablada se aproxima a este valor, el Speech_SegmentationSilenceTimeoutMs comenzará a reducirse hasta que se alcance el tiempo de espera del silencio de frases o la frase alcance la longitud máxima.
Speech_SegmentationStrategy Estrategia que se usa para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final. Los valores permitidos son "Default", "Time" y "Semantic".
Conversation_ApplicationId Identificador usado para conectarse al servicio back-end. Se agregó en la versión 1.5.0.
Conversation_DialogType Tipo de back-end de diálogo al que conectarse. Se agregó en la versión 1.7.0.
Conversation_Initial_Silence_Timeout Tiempo de espera de silencio para escuchar agregado en la versión 1.5.0.
Conversation_From_Id De id que se usará en las actividades de reconocimiento de voz agregadas en la versión 1.5.0.
Conversation_Conversation_Id ConversationId para la sesión. Se agregó en la versión 1.8.0.
Conversation_Custom_Voice_Deployment_Ids Lista separada por comas de identificadores de implementación de voz personalizados. Se agregó en la versión 1.8.0.
Conversation_Speech_Activity_Template Plantilla de actividad de voz, propiedades de marca de la plantilla en la actividad generada por el servicio para voz. Se agregó en la versión 1.10.0.
Conversation_ParticipantId Identificador del participante en la conversación actual. Se agregó en la versión 1.13.0.
Conversation_Request_Bot_Status_Messages
Conversation_Connection_Id
DataBuffer_TimeStamp Marca de tiempo asociada al búfer de datos escrito por el cliente cuando se usan flujos de entrada de audio pull/Push. La marca de tiempo es un valor de 64 bits con una resolución de 90 kHz. Es igual que la marca de tiempo de presentación en una secuencia de transporte MPEG. Consulte https://en.wikipedia.org/wiki/Presentation_timestamp Agregado en la versión 1.5.0.
DataBuffer_UserId Identificador de usuario asociado al búfer de datos escrito por el cliente al usar flujos de entrada de audio pull/Push. Se agregó en la versión 1.5.0.
PronunciationAssessment_ReferenceText Texto de referencia del audio para la evaluación de pronunciación. Para ello y los siguientes parámetros de evaluación de pronunciación, consulte la tabla parámetros de evaluación de pronunciación. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create o PronunciationAssessmentConfig::SetReferenceText. Se agregó en la versión 1.14.0.
PronunciationAssessment_GradingSystem Sistema de puntos para la calibración de la puntuación de pronunciación (FivePoint o HundredMark). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0.
PronunciationAssessment_Granularity Granularidad de evaluación de pronunciación (Phoneme, Word o FullText). En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0.
PronunciationAssessment_EnableMiscue Define si se habilita el cálculo de incorrectamente. Con esta opción habilitada, las palabras pronunciadas se compararán con el texto de referencia y se marcarán con omisión o inserción en función de la comparación. La configuración predeterminada es False. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0.
PronunciationAssessment_PhonemeAlphabet Alfabeto fonético de evaluación de pronunciación. Los valores válidos son "SAPI" (valor predeterminado) y "IPA" En circunstancias normales, no debe tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::SetPhonemeAlphabet. Se agregó en la versión 1.20.0.
PronunciationAssessment_NBestPhonemeCount Recuento de fonemas nbest de evaluación de pronunciación. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::SetNBestPhonemeCount. Se agregó en la versión 1.20.0.
PronunciationAssessment_EnableProsodyAssessment Si se va a habilitar la evaluación de la prosodia. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::EnableProsodyAssessment. Se agregó en la versión 1.33.0.
PronunciationAssessment_Json Cadena json de parámetros de evaluación de pronunciación En circunstancias normales, no debe tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::Create. Se agregó en la versión 1.14.0.
PronunciationAssessment_Params Parámetros de evaluación de pronunciación. Esta propiedad está pensada para ser de solo lectura. El SDK lo usa internamente. Se agregó en la versión 1.14.0.
PronunciationAssessment_ContentTopic Tema de contenido de la evaluación de pronunciación. En circunstancias normales, no debería tener que usar esta propiedad directamente. En su lugar, use PronunciationAssessmentConfig::EnableContentAssessmentWithTopic. Se agregó en la versión 1.33.0.
SpeakerRecognition_Api_Version Versión de la API de back-end de Speaker Recognition. Esta propiedad se agrega para permitir las pruebas y el uso de versiones anteriores de speaker Recognition API, si procede. Se agregó en la versión 1.18.0.
SpeechTranslation_ModelName Nombre de un modelo que se va a usar para la traducción de voz. No utilice esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig.
SpeechTranslation_ModelKey Esta propiedad está en desuso.
KeywordRecognition_ModelName Nombre de un modelo que se va a usar para el reconocimiento de palabras clave. No utilice esta propiedad directamente. Actualmente, esto solo es válido cuando se usa EmbeddedSpeechConfig.
KeywordRecognition_ModelKey Esta propiedad está en desuso.
EmbeddedSpeech_EnablePerformanceMetrics Habilite la recopilación de métricas de rendimiento de voz insertadas que se pueden usar para evaluar la capacidad de un dispositivo para usar la voz insertada. Los datos recopilados se incluyen en los resultados de escenarios específicos, como el reconocimiento de voz. El valor predeterminado es "false". Tenga en cuenta que es posible que las métricas no estén disponibles en todos los escenarios de voz insertados.
SpeechSynthesisRequest_Pitch El tono de la voz sintetizada.
SpeechSynthesisRequest_Rate Velocidad de la voz sintetizada.
SpeechSynthesisRequest_Volume Volumen de la voz sintetizada.

Define los identificadores de propiedad de voz. Se ha cambiado en la versión 1.4.0.

enumeración OutputFormat

Valores Descripciones
Sencillo
Detallado

Formato de salida.

enumeración ProfanityOption

Valores Descripciones
Enmascarado Reemplaza letras en palabras soeces por caracteres de estrella.
Quitado Quita palabras soeces.
Crudo No hace nada para palabras soeces.

Quita palabras soeces (juradas) o reemplaza letras de palabras profanas por estrellas. Se agregó en la versión 1.5.0.

enumeración ResultReason

Valores Descripciones
NoMatch Indica que no se pudo reconocer la voz. Puede encontrar más detalles en el objeto NoMatchDetails.
Cancelado Indica que se canceló el reconocimiento. Puede encontrar más detalles mediante el objeto CancellationDetails.
ReconocerSpeech Indica que el resultado de voz contiene texto de hipótesis.
RecognizeSpeech Indica que el resultado de voz contiene texto final que se ha reconocido. El reconocimiento de voz ya está completo para esta frase.
ReconocerIntent Indica que el resultado de la intención contiene texto y intención de hipótesis.
RecognizeIntent Indica que el resultado de la intención contiene el texto final y la intención. El reconocimiento de voz y la determinación de intención ahora están completos para esta frase.
Traducción DeSpeech Indica que el resultado de la traducción contiene texto de hipótesis y sus traducciones.
TranslatedSpeech Indica que el resultado de la traducción contiene texto final y las traducciones correspondientes. El reconocimiento de voz y la traducción ya están completos para esta frase.
SynthesizingAudio Indica que el resultado de audio sintetizado contiene una cantidad distinta de cero de datos de audio.
SynthesizingAudioCompleted Indica que el audio sintetizado ya está completo para esta frase.
ReconocerKeyword Indica que el resultado de voz contiene texto de palabra clave (no comprobado). Se agregó en la versión 1.3.0.
RecognizeKeyword Indica que el reconocimiento de palabras clave completó el reconocimiento de la palabra clave especificada. Se agregó en la versión 1.3.0.
SynthesizingAudioStarted Indica que la síntesis de voz se ha iniciado ahora Agregada en la versión 1.4.0.
Traducción deParticipantSpeech Indica que el resultado de la transcripción contiene texto de hipótesis y sus traducciones para otros participantes de la conversación. Se agregó en la versión 1.8.0.
TranslatedParticipantSpeech Indica que el resultado de la transcripción contiene texto final y las traducciones correspondientes para otros participantes de la conversación. El reconocimiento de voz y la traducción ya están completos para esta frase. Se agregó en la versión 1.8.0.
TranslatedInstantMessage Indica que el resultado de la transcripción contiene el mensaje instantáneo y las traducciones correspondientes. Se agregó en la versión 1.8.0.
TranslatedParticipantInstantMessage Indica que el resultado de la transcripción contiene el mensaje instantáneo para otros participantes de la conversación y las traducciones correspondientes. Se agregó en la versión 1.8.0.
EnrollingVoiceProfile Indica que el perfil de voz se está inscribiendo y los clientes necesitan enviar más audio para crear un perfil de voz. Se agregó en la versión 1.12.0.
EnrolledVoiceProfile Se ha inscrito el perfil de voz. Se agregó en la versión 1.12.0.
RecognizeSpeakers Indica la identificación correcta de algunos hablantes. Se agregó en la versión 1.12.0.
RecognizeSpeaker Indica que se ha comprobado correctamente un hablante. Se agregó en la versión 1.12.0.
ResetVoiceProfile Indica que un perfil de voz se ha restablecido correctamente. Se agregó en la versión 1.12.0.
DeletedVoiceProfile Indica que un perfil de voz se ha eliminado correctamente. Se agregó en la versión 1.12.0.
VoicesListRetrieved Indica que la lista de voces se ha recuperado correctamente. Se agregó en la versión 1.16.0.

Especifica los posibles motivos por los que se puede generar un resultado de reconocimiento.

enumeración CancellationReason

Valores Descripciones
Error Indica que se produjo un error durante el reconocimiento de voz.
EndOfStream Indica que se alcanzó el final de la secuencia de audio.
CancelledByUser Indica que el usuario canceló la solicitud. Se agregó en la versión 1.14.0.

Define las posibles razones por las que se puede cancelar un resultado de reconocimiento.

enumeración CancellationErrorCode

Valores Descripciones
NoError No hay ningún error. Si CancellationReason es EndOfStream, CancellationErrorCode se establece en NoError.
AuthenticationFailure Indica un error de autenticación. Se produce un error de autenticación si la clave de suscripción o el token de autorización no son válidos, expiran o no coinciden con la región que se está usando.
BadRequest Indica que uno o varios parámetros de reconocimiento no son válidos o no se admite el formato de audio.
TooManyRequests Indica que el número de solicitudes paralelas superó el número de transcripciones simultáneas permitidas para la suscripción.
Prohibido Indica que la suscripción gratuita usada por la solicitud se quedó sin cuota.
ConnectionFailure Indica un error de conexión.
ServiceTimeout Indica un error de tiempo de espera al esperar la respuesta del servicio.
ServiceError Indica que el servicio devuelve un error.
ServiceUnavailable Indica que el servicio no está disponible actualmente.
RuntimeError Indica un error inesperado en tiempo de ejecución.
ServiceRedirectTemporary Indica que el servicio de voz solicita temporalmente una reconexión a un punto de conexión diferente.
ServiceRedirectPermanent Indica que el servicio de voz solicita permanentemente una reconexión a otro punto de conexión.
EmbeddedModelError Indica que el modelo de voz incrustada (SR o TTS) no está disponible o dañado.

Define el código de error en caso de que CancellationReason sea Error. Se agregó en la versión 1.1.0.

enumeración NoMatchReason

Valores Descripciones
NotRecognized Indica que se detectó la voz, pero no se reconoció.
InitialSilenceTimeout Indica que el inicio de la secuencia de audio solo contenía silencio y el servicio agotaba el tiempo de espera en espera de voz.
InitialBabbleTimeout Indica que el inicio de la secuencia de audio solo contenía ruido y el servicio agotaba el tiempo de espera en espera de voz.
KeywordNotRecognized Indica que el servicio de comprobación de palabras clave ha rechazado la palabra clave detectada. Se agregó en la versión 1.5.0.
EndSilenceTimeout Indica que la secuencia de audio solo contenía silencio después de la última frase reconocida.

Define las posibles razones por las que es posible que no se reconozca un resultado de reconocimiento.

enum ActivityJSONType

Valores Descripciones
Nulo
Objeto
Arreglo
Cuerda
Doble
UInt
Int
Booleano

Define los tipos posibles para un valor json de actividad. Se agregó en la versión 1.5.0.

enumeración SpeechSynthesisOutputFormat

Valores Descripciones
Raw8Khz8BitMonoMULaw raw-8khz-8bit-mono-mulaw
Riff16Khz16KbpsMonoSiren riff-16khz-16kbps-mono-siren No admitido por el servicio. No use este valor.
Audio16Khz16KbpsMonoSiren audio-16khz-16kbps-mono-siren No admitido por el servicio. No use este valor.
Audio16Khz32KBitRateMonoMp3 audio-16khz-32kbitrate-mono-mp3
Audio16Khz128KBitRateMonoMp3 audio-16khz-128kbitrate-mono-mp3
Audio16Khz64KBitRateMonoMp3 audio-16khz-64kbitrate-mono-mp3
Audio24Khz48KBitRateMonoMp3 audio-24khz-48kbitrate-mono-mp3
Audio24Khz96KBitRateMonoMp3 audio-24khz-96kbitrate-mono-mp3
Audio24Khz160KBitRateMonoMp3 audio-24khz-160kbitrate-mono-mp3
Raw16Khz16BitMonoTrueSilk raw-16khz-16bit-mono-truesilk
Riff16Khz16BitMonoPcm riff-16khz-16bit-mono-pcm
Riff8Khz16BitMonoPcm riff-8khz-16bit-mono-pcm
Riff24Khz16BitMonoPcm riff-24khz-16bit-mono-pcm
Riff8Khz8BitMonoMULaw riff-8khz-8bit-mono-mulaw
Raw16Khz16BitMonoPcm raw-16khz-16bit-mono-pcm
Raw24Khz16BitMonoPcm raw-24khz-16bit-mono-pcm
Raw8Khz16BitMonoPcm raw-8khz-16bit-mono-pcm
Ogg16Khz16BitMonoOpus ogg-16khz-16bit-mono-opus
Ogg24Khz16BitMonoOpus ogg-24khz-16bit-mono-opus
Raw48Khz16BitMonoPcm raw-48khz-16bit-mono-pcm
Riff48Khz16BitMonoPcm riff-48khz-16bit-mono-pcm
Audio48Khz96KBitRateMonoMp3 audio-48khz-96kbitrate-mono-mp3
Audio48Khz192KBitRateMonoMp3 audio-48khz-192kbitrate-mono-mp3
Ogg48Khz16BitMonoOpus ogg-48khz-16bit-mono-opus Agregado en la versión 1.16.0
Webm16Khz16BitMonoOpus webm-16khz-16bit-mono-opus Agregado en la versión 1.16.0
Webm24Khz16BitMonoOpus webm-24khz-16bit-mono-opus Agregado en la versión 1.16.0
Raw24Khz16BitMonoTrueSilk raw-24khz-16bit-mono-truesilk Agregado en la versión 1.17.0
Raw8Khz8BitMonoALaw raw-8khz-8bit-mono-alaw Agregado en la versión 1.17.0
Riff8Khz8BitMonoALaw riff-8khz-8bit-mono-alaw Agregado en la versión 1.17.0
Webm24Khz16Bit24KbpsMonoOpus webm-24khz-16bit-24kbps-mono-opus Audio comprimido por el códec OPUS en un contenedor WebM, con velocidad de bits de 24 kbps, optimizada para escenarios de IoT. (Agregado en la versión 1.19.0)
Audio16Khz16Bit32KbpsMonoOpus audio-16khz-16bit-32kbps-mono-opus Audio comprimido por códec OPUS sin contenedor, con velocidad de bits de 32 kbps. (Agregado en la versión 1.20.0)
Audio24Khz16Bit48KbpsMonoOpus audio-24khz-16bit-48kbps-mono-opus Audio comprimido por códec OPUS sin contenedor, con velocidad de bits de 48 kbps. (Agregado en la versión 1.20.0)
Audio24Khz16Bit24KbpsMonoOpus audio-24khz-16bit-24kbps-mono-opus Audio comprimido por códec OPUS sin contenedor, con velocidad de bits de 24 kbps. (Agregado en la versión 1.20.0)
Raw22050Hz16BitMonoPcm raw-22050hz-16bit-mono-pcm Audio PCM sin procesar a velocidad de muestreo de 22050Hz y profundidad de 16 bits. (Agregado en la versión 1.22.0)
Riff22050Hz16BitMonoPcm riff-22050hz-16bit-mono-pcm PCM audio a velocidad de muestreo de 22050Hz y profundidad de 16 bits, con encabezado RIFF. (Agregado en la versión 1.22.0)
Raw44100Hz16BitMonoPcm raw-44100hz-16bit-mono-pcm Audio PCM sin procesar a velocidad de muestreo de 44100Hz y profundidad de 16 bits. (Agregado en la versión 1.22.0)
Riff44100Hz16BitMonoPcm riff-44100hz-16bit-mono-pcm PCM audio a 44100Hz frecuencia de muestreo y profundidad de 16 bits, con encabezado RIFF. (Agregado en la versión 1.22.0)
AmrWb16000Hz amr-wb-16000hz AMR-WB audio a 16kHz frecuencia de muestreo. (Agregado en la versión 1.24.0)
G72216Khz64Kbps g722-16khz-64kbps G.722 audio a velocidad de muestreo de 16kHz y velocidad de bits de 64 kbps. (Agregado en la versión 1.38.0)

Define los posibles formatos de audio de salida de síntesis de voz. Actualizado en la versión 1.19.0.

enumeración StreamStatus

Valores Descripciones
Desconocido El estado del flujo de datos de audio es desconocido.
NoData La secuencia de datos de audio no contiene datos.
PartialData La secuencia de datos de audio contiene datos parciales de una solicitud de habla.
AllData El flujo de datos de audio contiene todos los datos de una solicitud de habla.
Cancelado Se canceló la secuencia de datos de audio.

Define el estado posible de la secuencia de datos de audio. Se agregó en la versión 1.4.0.

enum ServicePropertyChannel

Valores Descripciones
UriQueryParameter Usa el parámetro de consulta URI para pasar la configuración de propiedades al servicio.
HttpHeader Usa HttpHeader para establecer una clave/valor en un encabezado HTTP.

Define los canales usados para pasar la configuración de propiedades al servicio. Se agregó en la versión 1.5.0.

enumeración VoiceProfileType

Valores Descripciones
TextIndependentIdentification Identificación del hablante independiente del texto.
TextDependentVerification Comprobación del hablante dependiente del texto.
TextIndependentVerification Comprobación independiente del texto.

Define los tipos de perfil de voz.

enumeración RecognitionFactorScope

Valores Descripciones
PartialPhrase Un factor de reconocimiento se aplicará a las gramáticas a las que se puede hacer referencia como frases parciales individuales.

Define el ámbito al que se aplica un factor de reconocimiento.

enumeración PronunciationAssessmentGradingSystem

Valores Descripciones
FivePoint Calibración de cinco puntos.
HundredMark Cien marcas.

Define el sistema de puntos para la calibración de la puntuación de pronunciación; el valor predeterminado es FivePoint. Se agregó en la versión 1.14.0.

enumeración PronunciationAssessmentGranularity

Valores Descripciones
Fonema Muestra la puntuación en el nivel de texto completo, palabra y phoneme.
Palabra Muestra la puntuación en el nivel de texto completo y palabra.
FullText Muestra la puntuación solo en el nivel de texto completo.

Define la granularidad de evaluación de pronunciación; el valor predeterminado es Phoneme. Se agregó en la versión 1.14.0.

enum SynthesisVoiceType

Valores Descripciones
OnlineNeural Voz neuronal en línea.
OnlineStandard Voz estándar en línea.
OfflineNeural Voz neuronal sin conexión.
OfflineStandard Voz estándar sin conexión.

Define el tipo de voces de síntesis agregadas en la versión 1.16.0.

enum SynthesisVoiceGender

Valores Descripciones
Desconocido Género desconocido.
Hembra Voz femenina.
Masculino Voz masculina.

Define el género de las voces de síntesis agregadas en la versión 1.17.0.

enumeración SpeechSynthesisBoundaryType

Valores Descripciones
Palabra Límite de Word.
Puntuación Límite de puntuación.
Frase Límite de oración.

Define el tipo de límite del evento de límite de síntesis de voz agregado en la versión 1.21.0.

enum SegmentationStrategy

Valores Descripciones
Predeterminado Use la estrategia y la configuración predeterminadas según lo determinado por el servicio voz. Use en la mayoría de las situaciones.
Hora Usa una estrategia basada en tiempo en la que se usa la cantidad de silencio entre la voz para determinar cuándo generar un resultado final.
Semántica Usa un modelo de IA para deternificar el final de una frase hablada en función del contenido de la frase.

Estrategia que se usa para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final. Los valores permitidos son "Default", "Time" y "Semantic".