Compartir a través de


Uso del recurso Bring Your Own Storage (BYOS) Speech para la conversión de voz en texto

Traiga su propio almacenamiento (BYOS) se puede usar en los siguientes escenarios de conversión de voz en texto:

  • Transcripción de Azure Batch
  • Transcripción en tiempo real con registro de resultados de audio y transcripción habilitado
  • Voz personalizada

Se puede usar un par de recurso de Voz y cuenta de almacenamiento para todos los escenarios simultáneamente.

En este artículo se explica en profundidad cómo usar un recurso de voz habilitado para BYOS en todos los escenarios de voz a texto. El artículo implica que tiene un recurso de Voz habilitado para BYOS totalmente configurado y una cuenta de almacenamiento asociada.

Almacenamiento de datos

Al usar BYOS, el servicio voz no mantiene ningún artefacto de cliente después de que se complete el procesamiento de datos (transcripción, entrenamiento del modelo, pruebas de modelos). Sin embargo, algunos metadatos que no se derivan del contenido del usuario se almacenan en el entorno local del servicio voz. Por ejemplo, en el escenario de Habla personalizada, el servicio mantiene cierta información sobre los puntos de conexión personalizados, como los modelos que usan.

La cuenta de almacenamiento asociada a BYOS almacena los datos siguientes:

Nota:

Opcional en esta sección significa que es posible, pero no es necesario almacenar los artefactos concretos en la cuenta de almacenamiento asociada a BYOS. Si es necesario, se pueden almacenar en otro lugar.

Transcripción de Azure Batch

  • Audio de origen (opcional)
  • Resultados de transcripción de Bach

Transcripción en tiempo real con el registro de resultados de audio y de transcripción habilitados

  • Registros de resultados de audio y transcripción

Habla personalizada

  • Archivos de origen de conjuntos de datos para entrenamiento y pruebas de modelos (opcional)
  • Todos los datos y metadatos relacionados con los modelos personalizados hospedados por el recurso de voz habilitado para BYOS (incluidas las copias de conjuntos de datos para el entrenamiento y las pruebas del modelo)

Transcripción de Azure Batch

La transcripción por lotes se usa para transcribir una gran cantidad de datos de audio en el almacenamiento. Si no está familiarizado con la transcripción de Batch, consulte primero este artículo.

Siga estos pasos para ejecutar la transcripción de Batch con el recurso de voz habilitado para BYOS:

  1. Inicie la transcripción de Batch como se describe en esta guía.

    Importante

    No use el parámetro destinationContainerUrl en la solicitud de transcripción. Si usa BYOS, los resultados de la transcripción se almacenan automáticamente en la cuenta de almacenamiento asociada a BYOS.

    Si usa el parámetro destinationContainerUrl, funcionará, pero proporcionará una seguridad significativamente menor para los datos, debido al uso de SAS ad hoc. Consulte los detalles aquí.

  2. Una vez completada la transcripción, obtenga los resultados de la transcripción según esta guía. Considere usar el parámetro sasValidityInSeconds (consulte la sección siguiente).

El servicio de voz usa el contenedor de blob customspeech-artifacts en la cuenta de almacenamiento asociada a BYOS para almacenar los resultados intermedios y finales de la transcripción.

Precaución

El servicio de voz se basa en rutas de acceso de contenedor de blob predefinidas y nombres de archivo para que el módulo de transcripción de Batch funcione correctamente. No mueva, cambie el nombre ni modifique de ninguna manera el contenido del contenedor customspeech-artifacts.

Si lo hace, es muy probable que resulte difícil depurar errores del servicio 4xx y 5xx.

Tampoco cree soluciones que usen directamente archivos y carpetas del contenedor customspeech-artifacts. Use herramientas estándar para interactuar con la transcripción de Batch. Consulte los detalles de la sección transcripción de Batch.

Obtener los resultados de transcripción de Batch a través de la API de REST

La API de REST de Conversión de voz en texto es totalmente compatible con los recursos de voz habilitados para BYOS. Sin embargo, dado que los datos se almacenan ahora en la cuenta de almacenamiento habilitada para BYOS, las solicitudes como Obtener archivos de transcripción interactúan con la cuenta de almacenamiento asociada a BYOS Blob Storage, en lugar de los recursos internos del servicio voz. Permite usar el mismo código basado en la API de REST para los recursos de voz habilitados para BYOS y "normales".

Para obtener la máxima seguridad, use el parámetro sasValidityInSeconds con el valor establecido en 0 en las solicitudes, que devuelven direcciones URL de archivo de datos, como la solicitud Obtener archivos de transcripción. Esta es una dirección URL de solicitud de ejemplo:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Esta solicitud devuelve direcciones URL directas de la cuenta de almacenamiento a los archivos de datos (sin SAS u otras adiciones). Por ejemplo:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

La dirección URL de este formato garantiza que solo las identidades de Microsoft Entra ID (usuarios, entidades de servicio, identidades administradas) con derechos de acceso suficientes (como el rol Lector de datos de Storage Blob) puedan acceder a los datos desde la dirección URL.

Advertencia

Si se omite el parámetro sasValidityInSeconds en la solicitud Obtener archivos de transcripción o similares, se generará una SAS de delegación de usuarios con la validez de 5 días para cada dirección URL de archivo de datos devuelta. Esta SAS está firmada por la identidad administrada asignada por el sistema del recurso de voz habilitado para BYOS. Debido a ello, la SAS permite el acceso a los datos, incluso si el acceso a la clave de la cuenta de almacenamiento está deshabilitado. Consulte los detalles aquí.

Transcripción en tiempo real con el registro de resultados de audio y transcripción habilitado

Puede habilitar el registro tanto para la entrada de audio como para el reconocimiento de voz al usar la conversión de voz en texto o la traducción de voz. Consulte la descripción completa en este artículo.

Si usa BYOS, encontrará los registros en el contenedor de blob customspeech-audiologs en la cuenta de almacenamiento asociada a BYOS.

Advertencia

Los datos de registro se conservan durante 5 días. Después de este período, los registros se eliminan automáticamente. Esto también es válido para los recursos de voz habilitados para BYOS. Si desea mantener los registros más largos, copie los archivos y carpetas correspondientes desde el contenedor de blob customspeech-audiologs directamente o use la API de REST.

Obtención de los registros de transcripción en tiempo real a través de la API de REST

La API de REST de Conversión de voz en texto es totalmente compatible con los recursos de voz habilitados para BYOS. Sin embargo, dado que los datos se almacenan ahora en la cuenta de almacenamiento habilitada para BYOS, las solicitudes como Obtener los registros del modelo base interactúan con la cuenta de almacenamiento asociada a BYOS Blob Storage, en lugar de los recursos internos del servicio voz. Permite usar el mismo código basado en la API de REST para los recursos de voz habilitados para BYOS y "normales".

Para obtener la máxima seguridad, use el parámetro sasValidityInSeconds con el valor establecido en 0 en las solicitudes, que devuelven direcciones URL de archivo de datos, como la solicitud Obtener los registros del modelo base. Esta es una dirección URL de solicitud de ejemplo:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Esta solicitud devuelve direcciones URL directas de la cuenta de almacenamiento a los archivos de datos (sin SAS u otras adiciones). Por ejemplo:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

La dirección URL de este formato garantiza que solo las identidades de Microsoft Entra ID (usuarios, entidades de servicio, identidades administradas) con derechos de acceso suficientes (como el rol Lector de datos de Storage Blob) puedan acceder a los datos desde la dirección URL.

Advertencia

Si se omite el parámetro sasValidityInSeconds en la solicitud Obtener registros del modelo base o similares, se generará una SAS de delegación de usuarios con la validez de 5 días para cada dirección URL de archivo de datos devuelta. Esta SAS está firmada por la identidad administrada asignada por el sistema del recurso de voz habilitado para BYOS. Debido a ello, la SAS permite el acceso a los datos, incluso si el acceso a la clave de la cuenta de almacenamiento está deshabilitado. Consulte los detalles aquí.

Voz personalizada

Con Habla personalizada puede evaluar y mejorar la precisión del reconocimiento de voz de sus aplicaciones y productos. Se puede usar un modelo de voz personalizado para la conversión de voz en texto en tiempo real, la traducción de voz y la transcripción por lotes. Para más información, consulte la Introducción a Habla personalizada.

No hay nada específico sobre cómo se usa Habla personalizada con el recurso de voz habilitado para BYOS. La única diferencia es dónde se almacenan todos los datos relacionados con el modelo personalizado, que el servicio voz recopila y genera automáticamente. Los datos se almacenan en los siguientes contenedores de blobs de la cuenta de almacenamiento asociada a BYOS:

  • customspeech-models: ubicación de los modelos de voz personalizada
  • customspeech-artifacts: ubicación de todos los demás datos relacionados con Habla personalizada

La estructura del contenedor de blobs se proporciona solo para su información y está sujeta a cambios sin previo aviso.

Precaución

El servicio Voz se basa en rutas de acceso de contenedor de blobs predefinidas y nombres de archivo para que el módulo de Habla personalizada funcione correctamente. No mueva, cambie el nombre ni modifique de ninguna manera el contenido del contenedor customspeech-models ni las carpetas relacionadas con Habla personalizada del contenedor customspeech-artifacts.

Si lo hace, es muy probable que resulte difícil depurar los errores y puede dar lugar a la necesidad de volver a entrenar el modelo personalizado.

Tampoco cree soluciones que usen directamente archivos y carpetas del contenedor customspeech-artifacts. Use herramientas estándar, como la API REST y Speech Studio para interactuar con los datos relacionados con Habla personalizada. Consulte los detalles en la sección Habla personalizada.

Uso de la API REST con Habla personalizada

La API de REST de Conversión de voz en texto es totalmente compatible con los recursos de voz habilitados para BYOS. Sin embargo, dado que los datos se almacenan ahora en la cuenta de almacenamiento habilitada para BYOS, las solicitudes como Datasets_ListFiles interactuar con el almacenamiento de blobs de la cuenta de almacenamiento asociada a BYOS, en lugar de los recursos internos del servicio voz. Permite usar el mismo código basado en la API de REST para los recursos de voz habilitados para BYOS y "normales".

Para obtener la máxima seguridad, use el parámetro sasValidityInSeconds con el valor establecido en 0 en las solicitudes, que devuelven direcciones URL de archivos de datos, como la solicitud Obtener archivos de conjuntos de datos. Esta es una dirección URL de solicitud de ejemplo:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Esta solicitud devuelve direcciones URL directas de la cuenta de almacenamiento a los archivos de datos (sin SAS u otras adiciones). Por ejemplo:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

La dirección URL de este formato garantiza que solo las identidades de Microsoft Entra ID (usuarios, entidades de servicio, identidades administradas) con derechos de acceso suficientes (como el rol Lector de datos de Storage Blob) puedan acceder a los datos desde la dirección URL.

Advertencia

Si se omite el parámetro sasValidityInSeconds en la solicitud Obtener archivos de conjuntos de datos o similares, se generará una SAS de delegación de usuarios con la validez de 5 días para cada dirección URL de archivo de datos devuelta. Esta SAS está firmada por la identidad administrada asignada por el sistema del recurso de voz habilitado para BYOS. Debido a ello, la SAS permite el acceso a los datos, incluso si el acceso a la clave de la cuenta de almacenamiento está deshabilitado. Consulte los detalles aquí.

Pasos siguientes