Tipos de implantação do Azure OpenAI

Artigo
01/16/2025

O Azure OpenAI oferece aos clientes opções sobre a estrutura de hospedagem que se adapta aos seus padrões de negócios e uso. O serviço oferece dois tipos principais de implantações: padrão e provisionado. Para um determinado tipo de implantação, os clientes podem alinhar suas cargas de trabalho com seus requisitos de processamento de dados escolhendo uma geografia do Azure (Standard ou Provisioned-Managed), zona de dados especificada pela Microsoft (DataZone-Standard ou DataZone Provisioned-Managed), ou opções de processamento Global (Global-Standard ou Global Provisioned-Managed).

Todas as implantações podem executar exatamente as mesmas operações de inferência, no entanto, o faturamento, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisará tomar duas decisões principais:

Local de processamento de dados
Volume de chamadas

Locais de processamento de dados de implantação do Azure OpenAI

Para implantações padrão, há três opções de tipo de implantação para escolher: global, zona de dados e geografia do Azure. Para implantações provisionadas, há duas opções de tipo de implantação para escolher: global e geografia do Azure. O padrão global é o ponto de partida recomendado.

As implantações globais aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obterá os mais altos limites de taxa de transferência inicial e a melhor disponibilidade do modelo com a Global, ao mesmo tempo em que fornece nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão padrão e no padrão global, você pode experimentar uma maior variação de latência. Para clientes que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos aproveitar nossos tipos de implantação provisionada.

Nossas implantações globais serão o primeiro local para todos os novos modelos e recursos. Dependendo do volume de chamadas, os clientes com requisitos de grande volume e baixa variação de latência devem considerar nossos tipos de implantação provisionada.

As implantações de zona de dados aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente dentro da zona de dados definida pela Microsoft. Posicionadas entre a nossa geografia do Azure e as ofertas de implantação Global, as implantações de zona de dados fornecem limites de cota elevados, mantendo o processamento de dados dentro da zona de dados especificada pela Microsoft. Os dados armazenados em repouso continuarão a permanecer na geografia do recurso OpenAI do Azure (por exemplo, para um recurso do Azure OpenAI criado na região Central do Azure na Suécia, a geografia do Azure é a Suécia).

Se o recurso do Azure OpenAI usado em sua implantação da Zona de Dados estiver localizado nos Estados Unidos, os dados serão processados nos Estados Unidos. Se o recurso OpenAI do Azure usado em sua implantação da Zona de Dados estiver localizado em uma Nação Membro da União Europeia, os dados serão processados dentro das geografias da Nação Membro da União Europeia. Para todos os tipos de implantação de serviço do Azure OpenAI, todos os dados armazenados em repouso continuarão a permanecer na geografia do recurso do Azure OpenAI. Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.

Para qualquer tipo de implantação rotulado como "Global", prompts e respostas podem ser processados em qualquer geografia onde o modelo OpenAI do Azure relevante seja implantado (saiba mais sobre a disponibilidade de modelos de região). Para qualquer tipo de implantação rotulado como 'DataZone', prompts e respostas podem ser processados em qualquer geografia dentro da zona de dados especificada, conforme definido pela Microsoft. Se você criar uma implantação de DataZone em um recurso do Azure OpenAI localizado nos Estados Unidos, prompts e respostas poderão ser processados em qualquer lugar dentro dos Estados Unidos. Se você criar uma implantação de DataZone em um recurso do Azure OpenAI localizado em uma Nação Membro da União Europeia, prompts e respostas poderão ser processados nessa ou em qualquer outra Nação Membro da União Europeia. Para os tipos de implantação Global e DataZone, todos os dados armazenados em repouso, como dados carregados, são armazenados na geografia designada pelo cliente. Somente o local de processamento é afetado quando um cliente usa um tipo de implantação Global ou um tipo de implantação DataZone no Serviço OpenAI do Azure; Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.

Norma global

Importante

Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.

As implantações globais estão disponíveis nos mesmos recursos do Azure OpenAI que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga em vários recursos.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Consulte a página de quotas para saber mais. Para aplicativos que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos a compra de taxa de transferência provisionada.

Provisionamento global

Importante

As implantações globais estão disponíveis nos mesmos recursos do Azure OpenAI que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.

Lote global

Importante

O lote global é projetado para lidar com tarefas de processamento de grande escala e alto volume de forma eficiente. Processe grupos assíncronos de solicitações com cota separada, com prazo de entrega de 24 horas, a um custo 50% menor do que o padrão global. Com o processamento em lote, em vez de enviar uma solicitação de cada vez, você envia um grande número de solicitações em um único arquivo. As solicitações globais em lote têm uma cota de token enfileirada separada, evitando qualquer interrupção de suas cargas de trabalho online.

Os principais casos de utilização incluem:

Processamento de dados em larga escala: analise rapidamente conjuntos de dados extensos em paralelo.
Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
Revisão e Resumo de Documentos: Automatize a revisão e o resumo de documentos extensos.
Automação do suporte ao cliente: lide com várias consultas simultaneamente para respostas mais rápidas.
Extração e Análise de Dados: Extraia e analise informações de grandes quantidades de dados não estruturados.
Tarefas de Processamento de Linguagem Natural (NLP): Execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e Personalização: Gere conteúdo personalizado e recomendações em escala.

Padrão de zona de dados

Importante

Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI dentro da zona de dados especificada pela Microsoft. Saiba mais sobre residência de dados.

As implantações padrão da zona de dados estão disponíveis no mesmo recurso do Azure OpenAI que todos os outros tipos de implantação do Azure OpenAI, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. O padrão de zona de dados fornece cotas padrão mais altas do que nossos tipos de implantação baseados em geografia do Azure.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Consulte a página Quotas e limites para saber mais. Para cargas de trabalho que exigem baixa variação de latência em grande volume, recomendamos aproveitar as ofertas de implantação provisionada.

Zona de dados provisionada

Importante

As implantações provisionadas de zona de dados estão disponíveis no mesmo recurso do Azure OpenAI que todos os outros tipos de implantação do Azure OpenAI, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados especificada pela Microsoft com a melhor disponibilidade para cada solicitação. As implantações provisionadas de zona de dados fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura do Azure dentro da zona de dados especificada pela Microsoft.

Lote de zona de dados

Importante

As implantações em lote de zona de dados fornecem a mesma funcionalidade que as implantações em lote global, permitindo que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego apenas para data centers dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação.

Standard

As implantações padrão fornecem um modelo de cobrança de pagamento por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.

As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alto burstiness. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.

Aprovisionado

As implantações provisionadas permitem especificar a quantidade de taxa de transferência necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ela esteja pronta para você. A taxa de transferência é definida em termos de unidades de taxa de transferência provisionadas (PTU), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par modelo-versão requer quantidades diferentes de PTU para implantar e fornecer quantidades diferentes de taxa de transferência por PTU. Saiba mais em nosso artigo Conceitos de taxa de transferência provisionada.

Como desativar o acesso a implantações globais em sua assinatura

O Azure Policy ajuda a impor normas organizacionais e a avaliar o cumprimento em escala. Através do dashboard de conformidade, proporciona uma visão agregada para avaliar o estado geral do ambiente, com a capacidade de desagregar a granularidade por recurso e por política. Também ajuda a fazer com que os recursos fiquem em conformidade através da remediação em massa dos recursos existentes e da reparação automática dos recursos novos. Saiba mais sobre a Política do Azure e controles internos específicos para serviços de IA.

Você pode usar a política a seguir para desabilitar o acesso a qualquer tipo de implantação do Azure OpenAI. Para desabilitar o acesso a um tipo de implantação específico, substitua GlobalStandard pelo nome da sku para o tipo de implantação ao qual você deseja desabilitar o acesso.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implementar modelos

Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.

Partilhar via

Tipos de implantação do Azure OpenAI

Locais de processamento de dados de implantação do Azure OpenAI

Norma global

Provisionamento global

Lote global

Padrão de zona de dados

Zona de dados provisionada

Lote de zona de dados

Standard

Aprovisionado

Como desativar o acesso a implantações globais em sua assinatura

Implementar modelos

Consulte também

Comentários

Recursos adicionais