Contêineres conversão de fala em texto com o Docker

Artigo
09/17/2024

O contêiner de conversão de fala em texto transcreve gravações de voz em tempo real ou de áudio em lote com resultados intermediários. Neste artigo, você aprende como baixar, instalar e executar um contêiner de Conversão de fala em texto.

Para obter mais informações sobre os pré-requisitos, validar se um contêiner está sendo executado, executar vários contêineres no mesmo host e executar contêineres desconectados, consulte Instalar e executar contêineres de Fala com o Docker.

Imagens de contêiner

A imagem do contêiner de conversão de fala em texto para todas as versões e localidades suportadas pode ser encontrada na agregação Registro de Contêineres da Microsoft (MCR). Ela reside no repositório azure-cognitive-services/speechservices/ e é chamada speech-to-text.

O nome da imagem de contêiner totalmente qualificado é mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. Acrescente uma versão específica ou acrescente :latest para obter a versão mais recente.

Versão	Caminho
Mais recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` A marca `latest` efetua pull da imagem mais recente para a localidade `en-US`.
4.10.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.10.0-amd64-mr-in`

Todas as marcas, exceto latest, estão disponíveis no seguinte formato e diferenciam maiúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

As marcas também estão disponíveis no formato JSON para sua conveniência. O corpo inclui o caminho do contêiner e a lista de marcas. As marcas não são classificadas por versão, mas "latest" é sempre incluída no final da lista, conforme mostrado neste trecho:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    <--redacted for brevity-->    
    "4.10.0-amd64-sw-tz",
    "4.10.0-amd64-ta-in",
    "4.10.0-amd64-th-th",
    "4.10.0-amd64-tr-tr",
    "4.10.0-amd64-vi-vn",
    "4.10.0-amd64-wuu-cn",
    "4.10.0-amd64-yue-cn",
    "4.10.0-amd64-zh-cn",
    "4.10.0-amd64-zh-cn-sichuan",
    "4.10.0-amd64-zh-hk",
    "4.10.0-amd64-zh-tw",
    "4.10.0-amd64-zu-za",
    "latest"
  ]
}

Obtenha a imagem de contêiner com o docker pull

Você precisa dos pré-requisitos, incluindo o hardware necessário. Veja também a alocação recomendada de recursos para cada contêiner de Fala.

Use o comando docker pull para baixar uma imagem de contêiner do Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Importante

A marca latest efetua pull da imagem mais recente para a localidade en-US. Para obter versões e localidades adicionais, confira imagens do contêiner de conversão de fala em texto.

Executar o contêiner com a execução do Docker

Use o comando docker run para executar o contêiner.

Conversão de fala em texto
Conversão de fala em texto desconectada

A seguinte tabela mostrará vários parâmetros de docker run e as descrições correspondentes:

Parâmetro	Descrição
`{ENDPOINT_URI}`	O ponto de extremidade é necessário para obter a medição e a cobrança. Para obter mais informações, consulte os argumentos de cobrança.
`{API_KEY}`	A chave de API é obrigatória. Para obter mais informações, consulte os argumentos de cobrança.

Ao executar o contêiner de conversão de fala em texto, configure a porta, a memória e a CPU de acordo com os requisitos e recomendações do contêiner de conversão de fala em texto.

Aqui está um exemplo de comando docker run com valores de espaço reservado. Você deve especificar os valores para ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Esse comando:

Executar um contêiner speech-to-text a partir da imagem de contêiner.
Aloca quatro núcleos de CPU e 8 GB de memória.
Expõe a porta TCP 5000 e aloca um pseudo-TTY para o contêiner.
Remove automaticamente o contêiner depois que ele sai. A imagem de contêiner ainda fica disponível no computador host.

Para executar contêineres desconectados (não conectados à Internet), você deve enviar esse formulário de solicitação e aguardar aprovação. Para obter mais informações sobre como aplicar e adquirir um plano de compromisso para usar contêineres em ambientes desconectados, consulte Como usar contêineres em ambientes desconectados na documentação dos Serviços de IA do Azure.

Se você estiver autorizado a executar o contêiner desconectado da internet, o exemplo a seguir mostra a formatação do comando docker run a ser usado, com valores de espaço reservado. Substitua os valores do espaço reservado pelos seus.

O parâmetro DownloadLicense=True no comando docker run baixa um arquivo de licença para permitir que o contêiner do Docker seja executado quando não estiver conectado à Internet. Ele também contém uma data de validade, após a qual o arquivo de licença ficará inválido para executar o contêiner. Você só pode usar um arquivo de licença com o contêiner apropriado para o qual você está autorizado. Por exemplo, você não pode usar um arquivo de licença para um contêiner speech-to-text com um contêiner neural-text-to-speech.

Espaço reservado	Descrição
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{LICENSE_MOUNT}`	O caminho em que a licença é baixada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	O ponto de extremidade para autenticação da sua solicitação de serviço. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure. Por exemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A chave do seu recurso de Fala. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Local da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Depois que o arquivo de licença for baixado, você pode executar o contêiner em um ambiente desconectado. O exemplo a seguir mostra a formatação do comando docker run que você usa, com os valores de espaço reservado. Substitua os valores do espaço reservado pelos seus.

Sempre que o contêiner é executado, o arquivo de licença precisa ser montado no contêiner e a localização da pasta de licença no sistema de arquivos local do contêiner precisa ser especificada com Mounts:License=. Uma montagem de saída também precisa ser especificada para que os registros de uso de cobrança possam ser gravados.

Espaço reservado	Valor	Formato ou exemplo
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{MEMORY_SIZE}`	O tamanho apropriado da memória a ser alocada para o contêiner. Por exemplo: `4g`
`{NUMBER_CPUS}`	O número apropriado de CPUs a serem alocadas para o contêiner. Por exemplo: `4`
`{LICENSE_MOUNT}`	O caminho em que a licença está localizada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	O caminho de saída do registro em log. Por exemplo: `/host/output:/path/to/output/directory` Para obter mais informações, consulte os registros de uso na documentação dos Serviços de IA do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Local da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Local da pasta de saída no sistema de arquivos local do contêiner. Por exemplo: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Os contêineres de Fala fornecem um diretório padrão para gravar o arquivo de licença e o registro de cobrança no runtime. Os diretórios padrão são /license e /output, respectivamente.

Quando estiver montando esses diretórios no contêiner com o comando docker run -v, verifique se o diretório do computador local tem a propriedade definida como user:group nonroot:nonroot antes de executar o contêiner.

Este é um comando de exemplo para definir a propriedade de arquivo/diretório.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Para obter mais informações sobre docker run com contêineres de Fala, confira Instalar e executar contêineres de Fala com o Docker.

Usar o contêiner

Os contêineres de Fala fornecem APIs de ponto de extremidade de consulta baseadas em websocket que são acessadas através do SDK de Fala e da CLI de Fala. Por padrão, o SDK de Fala e a CLI de Fala usam o serviço público de Fala. Para usar o contêiner, você precisa alterar o método de inicialização.

Importante

Ao usar o serviço de Fala com contêineres, certifique-se de usar a autenticação de host. Se você configurar a chave e a região, as solicitações irão para o serviço público de Fala. Os resultados do serviço de Fala podem não ser os que você espera. As solicitações de contêineres desconectados falharão.