Compartir vía


Inicio rápido: Creación de una palabra clave personalizada

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En este inicio rápido va a aprender los aspectos básicos del trabajo con palabras clave personalizadas. Una palabra clave es una palabra o frase corta que permite activar el producto mediante la voz. Cree modelos de palabras clave en Speech Studio. Luego exporte un archivo de modelos para usarlo con el SDK de Voz en las aplicaciones.

Requisitos previos

Creación de una palabra clave en Speech Studio

Antes de que pueda usar una palabra clave personalizada, deberá crear una palabra clave con la página Custom Keyword (Palabra clave personalizada) en Speech Studio. Después de proporcionar una palabra clave, se genera un archivo .table que puede usar con el SDK de Voz.

Importante

Los modelos de palabra clave personalizada y los archivos .table resultantes solo pueden crearse en Speech Studio. No se pueden crear palabras clave personalizadas a partir del SDK o mediante llamadas REST.

  1. Vaya a Speech Studio e inicie sesión. Si no tiene una suscripción de Voz, vaya a Create Speech Services (Crear servicios de Voz).

  2. En la página Palabra clave personalizada, seleccione Crear un proyecto.

  3. Escriba un Nombre, una Descripción y un Idioma para el proyecto de palabra clave personalizada. Solo puede elegir un idioma por proyecto. Además, la compatibilidad está limitada actualmente a inglés (Estados Unidos) y chino (mandarín, simplificado).

    Descripción del proyecto de palabra clave

  4. Seleccione el nombre del proyecto en la lista.

    Selección del proyecto de palabra clave.

  5. Para crear una palabra clave personalizada para el asistente virtual, seleccione Crear un nuevo modelo.

  6. Escriba un Nombre para el modelo, una Descripción y la Palabra clave que prefiera y después seleccione Siguiente. Consulte las directrices sobre cómo elegir una palabra clave eficaz.

    Escriba su palabra clave

  7. El portal creará pronunciaciones candidatas para la palabra clave. Para escuchar cada candidata, seleccione los botones de reproducción y desactive las casillas situadas junto a las pronunciaciones incorrectas. Seleccione todas las pronunciaciones que correspondan a como espera que los usuarios digan la palabra clave y luego seleccione Siguiente para empezar a generar el modelo de palabras clave.

    Captura de pantalla que muestra dónde elegir las pronunciaciones correctas

  8. Seleccione un tipo de modelo y luego Crear. Puede ver una lista de regiones que admiten el tipo de modelo Avanzado en la documentación Compatibilidad con la región de reconocimiento de palabras clave.

  9. El modelo puede tardar hasta 30 minutos en generarse. La lista de palabras clave cambia de Procesando a Correcto cuando el modelo esté completo.

    Revisión de la palabra clave.

  10. En el menú contraíble de la izquierda, seleccione Optimizar para obtener opciones para optimizar y descargar el modelo. El archivo descargado es un archivo .zip. Extraiga el archivo y verá un archivo con la extensión .table. El archivo .table se usa con el SDK, así que asegúrese de anotar su ruta de acceso.

    Descarga de la tabla de modelos.

Uso de un modelo de palabras clave con el SDK de Voz

En primer lugar, cargue el archivo del modelo de palabra clave mediante la función estática FromFile(), que devuelve un KeywordRecognitionModel. Use la ruta de acceso al archivo .table que descargó de Speech Studio. Además, debe crear una configuración AudioConfig con el micrófono predeterminado y, a continuación, cree una instancia nueva de KeywordRecognizer mediante la configuración de audio.

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

var keywordModel = KeywordRecognitionModel.FromFile("your/path/to/Activate_device.table");
using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
using var keywordRecognizer = new KeywordRecognizer(audioConfig);

Importante

Si prefiere probar un modelo de palabras clave directamente con ejemplos de audio mediante el método AudioConfig.fromStreamInput(), asegúrese de usar ejemplos que tengan al menos 1,5 segundos de silencio antes de la primera palabra clave. De esta forma, el tiempo será adecuado para que el motor de reconocimiento de palabras clave se inicialice y llegue al estado de escucha antes de detectar la primera palabra clave.

A continuación, se ejecuta el reconocimiento de palabras clave mediante una llamada a RecognizeOnceAsync() en la que se pasa el objeto de modelo. Este método inicia una sesión de reconocimiento de palabras clave que continúa hasta que se reconoce la palabra clave. Por lo tanto, normalmente se usa este modelo de diseño en aplicaciones multiproceso o en casos de uso en los que puede esperar una palabra de activación indefinidamente.

KeywordRecognitionResult result = await keywordRecognizer.RecognizeOnceAsync(keywordModel);

Nota:

El ejemplo que se muestra aquí usa el reconocimiento de palabras clave local, ya que no requiere un objeto SpeechConfig para el contexto de autenticación y no se comunica con el servidor back-end. Sin embargo, puede ejecutar el reconocimiento y la verificación de palabras clave mediante una conexión directa con el back-end.

Reconocimiento continuo

Otras clases del SDK de voz admiten el reconocimiento continuo (tanto de voz como de intenciones) junto con el reconocimiento de palabras clave. El SDK le permite usar el mismo código que usaría normalmente para el reconocimiento continuo, con la posibilidad de hacer referencia a un archivo .table en el modelo de palabras clave.

Para la conversión de voz a texto, siga el mismo patrón de diseño que se muestra en la guía de reconocimiento de voz para configurar el reconocimiento continuo. A continuación, reemplace la llamada a recognizer.StartContinuousRecognitionAsync() por recognizer.StartKeywordRecognitionAsync(KeywordRecognitionModel) y pase el objeto KeywordRecognitionModel. Para detener el reconocimiento continuo con el reconocimiento de palabras clave, use recognizer.StopKeywordRecognitionAsync() en lugar de recognizer.StopContinuousRecognitionAsync().

El reconocimiento de intenciones usa un patrón idéntico con las funciones StartKeywordRecognitionAsync y StopKeywordRecognitionAsync.

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

El SDK de Voz para C++ admite el reconocimiento de palabras clave, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y conocer los conceptos, o consulte la referencia de C++ y los ejemplos vinculados desde el principio de este artículo.

author: eric-urban ms.service: azure-ai-speech ms.topic: include ms.date: 9/12/2024 ms.author: eur

Creación de una palabra clave en Speech Studio

Antes de que pueda usar una palabra clave personalizada, deberá crear una palabra clave con la página Custom Keyword (Palabra clave personalizada) en Speech Studio. Después de proporcionar una palabra clave, se genera un archivo .table que puede usar con el SDK de Voz.

Importante

Los modelos de palabra clave personalizada y los archivos .table resultantes solo pueden crearse en Speech Studio. No se pueden crear palabras clave personalizadas a partir del SDK o mediante llamadas REST.

  1. Vaya a Speech Studio e inicie sesión. Si no tiene una suscripción de Voz, vaya a Create Speech Services (Crear servicios de Voz).

  2. En la página Palabra clave personalizada, seleccione Crear un proyecto.

  3. Escriba un Nombre, una Descripción y un Idioma para el proyecto de palabra clave personalizada. Solo puede elegir un idioma por proyecto. Además, la compatibilidad está limitada actualmente a inglés (Estados Unidos) y chino (mandarín, simplificado).

    Descripción del proyecto de palabra clave

  4. Seleccione el nombre del proyecto en la lista.

    Selección del proyecto de palabra clave.

  5. Para crear una palabra clave personalizada para el asistente virtual, seleccione Crear un nuevo modelo.

  6. Escriba un Nombre para el modelo, una Descripción y la Palabra clave que prefiera y después seleccione Siguiente. Consulte las directrices sobre cómo elegir una palabra clave eficaz.

    Escriba su palabra clave

  7. El portal creará pronunciaciones candidatas para la palabra clave. Para escuchar cada candidata, seleccione los botones de reproducción y desactive las casillas situadas junto a las pronunciaciones incorrectas. Seleccione todas las pronunciaciones que correspondan a como espera que los usuarios digan la palabra clave y luego seleccione Siguiente para empezar a generar el modelo de palabras clave.

    Captura de pantalla que muestra dónde elegir las pronunciaciones correctas

  8. Seleccione un tipo de modelo y luego Crear. Puede ver una lista de regiones que admiten el tipo de modelo Avanzado en la documentación Compatibilidad con la región de reconocimiento de palabras clave.

  9. El modelo puede tardar hasta 30 minutos en generarse. La lista de palabras clave cambia de Procesando a Correcto cuando el modelo esté completo.

    Revisión de la palabra clave.

  10. En el menú contraíble de la izquierda, seleccione Optimizar para obtener opciones para optimizar y descargar el modelo. El archivo descargado es un archivo .zip. Extraiga el archivo y verá un archivo con la extensión .table. El archivo .table se usa con el SDK, así que asegúrese de anotar su ruta de acceso.

    Descarga de la tabla de modelos.

Uso de un modelo de palabras clave con el SDK de Voz

Consulte la documentación de referencia para usar el modelo de palabras clave personalizadas con el SDK de Go.

Documentación de referencia | Ejemplos adicionales en GitHub

El SDK de Voz para Java admite el reconocimiento de palabras clave, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y conocer los conceptos, o consulte la referencia de Java y los ejemplos vinculados desde el principio de este artículo.

Documentación de referencia | Paquete (npm) | Ejemplos adicionales en GitHub | Código fuente de la biblioteca

El SDK de Voz para JavaScript no admite el reconocimiento de palabras clave. Seleccione otro lenguaje de programación o la referencia de JavaScript y los ejemplos vinculados desde el principio de este artículo.

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

En este inicio rápido va a aprender los aspectos básicos del trabajo con palabras clave personalizadas. Una palabra clave es una palabra o frase corta que permite activar el producto mediante la voz. Cree modelos de palabras clave en Speech Studio. Luego exporte un archivo de modelos para usarlo con el SDK de Voz en las aplicaciones.

Requisitos previos

Creación de una palabra clave en Speech Studio

Antes de que pueda usar una palabra clave personalizada, deberá crear una palabra clave con la página Custom Keyword (Palabra clave personalizada) en Speech Studio. Después de proporcionar una palabra clave, se genera un archivo .table que puede usar con el SDK de Voz.

Importante

Los modelos de palabra clave personalizada y los archivos .table resultantes solo pueden crearse en Speech Studio. No se pueden crear palabras clave personalizadas a partir del SDK o mediante llamadas REST.

  1. Vaya a Speech Studio e inicie sesión. Si no tiene una suscripción de Voz, vaya a Create Speech Services (Crear servicios de Voz).

  2. En la página Palabra clave personalizada, seleccione Crear un proyecto.

  3. Escriba un Nombre, una Descripción y un Idioma para el proyecto de palabra clave personalizada. Solo puede elegir un idioma por proyecto. Además, la compatibilidad está limitada actualmente a inglés (Estados Unidos) y chino (mandarín, simplificado).

    Descripción del proyecto de palabra clave

  4. Seleccione el nombre del proyecto en la lista.

    Selección del proyecto de palabra clave.

  5. Para crear una palabra clave personalizada para el asistente virtual, seleccione Crear un nuevo modelo.

  6. Escriba un Nombre para el modelo, una Descripción y la Palabra clave que prefiera y después seleccione Siguiente. Consulte las directrices sobre cómo elegir una palabra clave eficaz.

    Escriba su palabra clave

  7. El portal creará pronunciaciones candidatas para la palabra clave. Para escuchar cada candidata, seleccione los botones de reproducción y desactive las casillas situadas junto a las pronunciaciones incorrectas. Seleccione todas las pronunciaciones que correspondan a como espera que los usuarios digan la palabra clave y luego seleccione Siguiente para empezar a generar el modelo de palabras clave.

    Captura de pantalla que muestra dónde elegir las pronunciaciones correctas

  8. Seleccione un tipo de modelo y luego Crear. Puede ver una lista de regiones que admiten el tipo de modelo Avanzado en la documentación Compatibilidad con la región de reconocimiento de palabras clave.

  9. El modelo puede tardar hasta 30 minutos en generarse. La lista de palabras clave cambia de Procesando a Correcto cuando el modelo esté completo.

    Revisión de la palabra clave.

  10. En el menú contraíble de la izquierda, seleccione Optimizar para obtener opciones para optimizar y descargar el modelo. El archivo descargado es un archivo .zip. Extraiga el archivo y verá un archivo con la extensión .table. El archivo .table se usa con el SDK, así que asegúrese de anotar su ruta de acceso.

    Descarga de la tabla de modelos.

Uso de un modelo de palabras clave con el SDK de Voz

Consulte el ejemplo de GitHub para usar el modelo de palabra clave personalizada con el SDK de Objective C.

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

En este inicio rápido va a aprender los aspectos básicos del trabajo con palabras clave personalizadas. Una palabra clave es una palabra o frase corta que permite activar el producto mediante la voz. Cree modelos de palabras clave en Speech Studio. Luego exporte un archivo de modelos para usarlo con el SDK de Voz en las aplicaciones.

Requisitos previos

Creación de una palabra clave en Speech Studio

Antes de que pueda usar una palabra clave personalizada, deberá crear una palabra clave con la página Custom Keyword (Palabra clave personalizada) en Speech Studio. Después de proporcionar una palabra clave, se genera un archivo .table que puede usar con el SDK de Voz.

Importante

Los modelos de palabra clave personalizada y los archivos .table resultantes solo pueden crearse en Speech Studio. No se pueden crear palabras clave personalizadas a partir del SDK o mediante llamadas REST.

  1. Vaya a Speech Studio e inicie sesión. Si no tiene una suscripción de Voz, vaya a Create Speech Services (Crear servicios de Voz).

  2. En la página Palabra clave personalizada, seleccione Crear un proyecto.

  3. Escriba un Nombre, una Descripción y un Idioma para el proyecto de palabra clave personalizada. Solo puede elegir un idioma por proyecto. Además, la compatibilidad está limitada actualmente a inglés (Estados Unidos) y chino (mandarín, simplificado).

    Descripción del proyecto de palabra clave

  4. Seleccione el nombre del proyecto en la lista.

    Selección del proyecto de palabra clave.

  5. Para crear una palabra clave personalizada para el asistente virtual, seleccione Crear un nuevo modelo.

  6. Escriba un Nombre para el modelo, una Descripción y la Palabra clave que prefiera y después seleccione Siguiente. Consulte las directrices sobre cómo elegir una palabra clave eficaz.

    Escriba su palabra clave

  7. El portal creará pronunciaciones candidatas para la palabra clave. Para escuchar cada candidata, seleccione los botones de reproducción y desactive las casillas situadas junto a las pronunciaciones incorrectas. Seleccione todas las pronunciaciones que correspondan a como espera que los usuarios digan la palabra clave y luego seleccione Siguiente para empezar a generar el modelo de palabras clave.

    Captura de pantalla que muestra dónde elegir las pronunciaciones correctas

  8. Seleccione un tipo de modelo y luego Crear. Puede ver una lista de regiones que admiten el tipo de modelo Avanzado en la documentación Compatibilidad con la región de reconocimiento de palabras clave.

  9. El modelo puede tardar hasta 30 minutos en generarse. La lista de palabras clave cambia de Procesando a Correcto cuando el modelo esté completo.

    Revisión de la palabra clave.

  10. En el menú contraíble de la izquierda, seleccione Optimizar para obtener opciones para optimizar y descargar el modelo. El archivo descargado es un archivo .zip. Extraiga el archivo y verá un archivo con la extensión .table. El archivo .table se usa con el SDK, así que asegúrese de anotar su ruta de acceso.

    Descarga de la tabla de modelos.

Uso de un modelo de palabras clave con el SDK de Voz

Consulte el ejemplo de GitHub para usar el modelo de palabra clave personalizada con el SDK de Objective C. Aunque actualmente no tenemos una muestra de Swift para la paridad, los conceptos son similares.

Nota:

Si va a usar el reconocimiento de palabras clave en la aplicación Swift en iOS, tenga en cuenta que los nuevos modelos de palabras clave creados en Speech Studio requerirán el uso de la agrupación xcframework del SDK de Voz desde https://aka.ms/csspeech/iosbinaryembedded o el pod de MicrosoftCognitiveServicesSpeechEmbedded-iOS en el proyecto.

Documentación de referencia | Paquete (PyPi) | Ejemplos adicionales en GitHub

En este inicio rápido va a aprender los aspectos básicos del trabajo con palabras clave personalizadas. Una palabra clave es una palabra o frase corta que permite activar el producto mediante la voz. Cree modelos de palabras clave en Speech Studio. Luego exporte un archivo de modelos para usarlo con el SDK de Voz en las aplicaciones.

Requisitos previos

Creación de una palabra clave en Speech Studio

Antes de que pueda usar una palabra clave personalizada, deberá crear una palabra clave con la página Custom Keyword (Palabra clave personalizada) en Speech Studio. Después de proporcionar una palabra clave, se genera un archivo .table que puede usar con el SDK de Voz.

Importante

Los modelos de palabra clave personalizada y los archivos .table resultantes solo pueden crearse en Speech Studio. No se pueden crear palabras clave personalizadas a partir del SDK o mediante llamadas REST.

  1. Vaya a Speech Studio e inicie sesión. Si no tiene una suscripción de Voz, vaya a Create Speech Services (Crear servicios de Voz).

  2. En la página Palabra clave personalizada, seleccione Crear un proyecto.

  3. Escriba un Nombre, una Descripción y un Idioma para el proyecto de palabra clave personalizada. Solo puede elegir un idioma por proyecto. Además, la compatibilidad está limitada actualmente a inglés (Estados Unidos) y chino (mandarín, simplificado).

    Descripción del proyecto de palabra clave

  4. Seleccione el nombre del proyecto en la lista.

    Selección del proyecto de palabra clave.

  5. Para crear una palabra clave personalizada para el asistente virtual, seleccione Crear un nuevo modelo.

  6. Escriba un Nombre para el modelo, una Descripción y la Palabra clave que prefiera y después seleccione Siguiente. Consulte las directrices sobre cómo elegir una palabra clave eficaz.

    Escriba su palabra clave

  7. El portal creará pronunciaciones candidatas para la palabra clave. Para escuchar cada candidata, seleccione los botones de reproducción y desactive las casillas situadas junto a las pronunciaciones incorrectas. Seleccione todas las pronunciaciones que correspondan a como espera que los usuarios digan la palabra clave y luego seleccione Siguiente para empezar a generar el modelo de palabras clave.

    Captura de pantalla que muestra dónde elegir las pronunciaciones correctas

  8. Seleccione un tipo de modelo y luego Crear. Puede ver una lista de regiones que admiten el tipo de modelo Avanzado en la documentación Compatibilidad con la región de reconocimiento de palabras clave.

  9. El modelo puede tardar hasta 30 minutos en generarse. La lista de palabras clave cambia de Procesando a Correcto cuando el modelo esté completo.

    Revisión de la palabra clave.

  10. En el menú contraíble de la izquierda, seleccione Optimizar para obtener opciones para optimizar y descargar el modelo. El archivo descargado es un archivo .zip. Extraiga el archivo y verá un archivo con la extensión .table. El archivo .table se usa con el SDK, así que asegúrese de anotar su ruta de acceso.

    Descarga de la tabla de modelos.

Uso de un modelo de palabras clave con el SDK de Voz

Consulte el ejemplo en GitHub para usar el modelo de palabra clave personalizado con el SDK de Python.

Referencia de la API de REST de conversión de voz en texto | Referencia de la API de REST de conversión de voz en texto para audios de corta duración | Ejemplos adicionales sobre GitHub

La API REST de conversión de voz en texto no admite el reconocimiento de palabras clave. Seleccione otro lenguaje de programación o la referencia y los ejemplos vinculados desde el principio de este artículo.

La CLI de Voz admite el reconocimiento de palabras clave, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y conocer los conceptos.

Pasos siguientes