Tipos de implantação do Azure OpenAI
O Azure OpenAI oferece aos clientes opções sobre a estrutura de hospedagem que se adapta aos seus padrões de negócios e uso. O serviço oferece dois tipos principais de implantações: padrão e provisionado. Para um determinado tipo de implantação, os clientes podem alinhar suas cargas de trabalho com seus requisitos de processamento de dados escolhendo uma geografia do Azure (Standard
ou Provisioned
), zona de dados especificada pela Microsoft (DataZone-Standard
) ou opções de processamento Global (Global-Standard
ou Global Provisioned-Managed
).
Todas as implantações podem executar exatamente as mesmas operações de inferência, no entanto, o faturamento, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisará tomar duas decisões principais:
- Local de processamento de dados
- Volume de chamadas
Locais de processamento de dados de implantação do Azure OpenAI
Para implantações padrão, há três opções de tipo de implantação para escolher: global, zona de dados e geografia do Azure. Para implantações provisionadas, há duas opções de tipo de implantação para escolher: global e geografia do Azure. O padrão global é o ponto de partida recomendado.
As implantações globais aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obterá os mais altos limites de taxa de transferência inicial e a melhor disponibilidade do modelo com a Global, ao mesmo tempo em que fornece nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão padrão e no padrão global, você pode experimentar uma maior variação de latência. Para clientes que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos aproveitar nossos tipos de implantação provisionada.
Nossas implantações globais serão o primeiro local para todos os novos modelos e recursos. Dependendo do volume de chamadas, os clientes com requisitos de grande volume e baixa variação de latência devem considerar nossos tipos de implantação provisionada.
As implantações de zona de dados aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente dentro da zona de dados definida pela Microsoft. Posicionadas entre a nossa geografia do Azure e as ofertas de implantação Global, as implantações de zona de dados fornecem limites de cota elevados, mantendo o processamento de dados dentro da zona de dados especificada pela Microsoft. Os dados armazenados em repouso continuarão a permanecer na geografia do recurso OpenAI do Azure (por exemplo, para um recurso do Azure OpenAI criado na região Central do Azure na Suécia, a geografia do Azure é a Suécia).
Se o recurso do Azure OpenAI usado em sua implantação da Zona de Dados estiver localizado nos Estados Unidos, os dados serão processados nos Estados Unidos. Se o recurso OpenAI do Azure usado em sua implantação da Zona de Dados estiver localizado em uma Nação Membro da União Europeia, os dados serão processados dentro das geografias da Nação Membro da União Europeia. Para todos os tipos de implantação de serviço do Azure OpenAI, todos os dados armazenados em repouso continuarão a permanecer na geografia do recurso do Azure OpenAI. Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.
Para qualquer tipo de implantação rotulado como "Global", prompts e respostas podem ser processados em qualquer geografia onde o modelo OpenAI do Azure relevante seja implantado (saiba mais sobre a disponibilidade de modelos de região). Para qualquer tipo de implantação rotulado como 'DataZone', prompts e respostas podem ser processados em qualquer geografia dentro da zona de dados especificada, conforme definido pela Microsoft. Se você criar uma implantação de DataZone em um recurso do Azure OpenAI localizado nos Estados Unidos, prompts e respostas poderão ser processados em qualquer lugar dentro dos Estados Unidos. Se você criar uma implantação de DataZone em um recurso do Azure OpenAI localizado em uma Nação Membro da União Europeia, prompts e respostas poderão ser processados nessa ou em qualquer outra Nação Membro da União Europeia. Para os tipos de implantação Global e DataZone, todos os dados armazenados em repouso, como dados carregados, são armazenados na geografia designada pelo cliente. Somente o local de processamento é afetado quando um cliente usa um tipo de implantação Global ou um tipo de implantação DataZone no Serviço OpenAI do Azure; Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.
Tipos de implementação
O Azure OpenAI oferece três tipos de implantações. Eles fornecem um nível variado de recursos que fornecem compensações sobre: taxa de transferência, SLAs e preço. Segue-se um resumo das opções, seguido de uma descrição mais profunda de cada uma delas.
Oferta | Lote global | Padrão Global | Provisionado globalmente | Standard | Aprovisionado |
---|---|---|---|---|---|
Mais adequado para | Pontuação offline Cargas de trabalho que não são sensíveis à latência e podem ser concluídas em horas. |
Local de partida recomendado para os clientes. O Global-Standard terá a cota padrão mais alta e um número maior de modelos disponíveis do que o Standard. |
Pontuação em tempo real para um grande volume consistente. Inclui os compromissos e limites mais elevados. | Para clientes com requisitos de residência de dados. Otimizado para baixo a médio volume. | Pontuação em tempo real para um grande volume consistente. Inclui os compromissos e limites mais elevados. Para casos de uso com requisitos de residência de dados |
Como funciona | Processamento offline através de ficheiros | O tráfego pode ser encaminhado para qualquer parte do mundo | O tráfego pode ser encaminhado para qualquer parte do mundo | ||
Introdução | Lote global | Implantação do modelo | Integração provisionada | Implantação do modelo | Integração provisionada |
Custo | Opção menos dispendiosa 50% menos custo em comparação com os preços padrão global. Acesso a todos os novos modelos com maiores alocações de quotas. |
Preços globais de implantação | Pode ter economia de custos para uso consistente | Preços regionais | Pode ter economia de custos para uso consistente |
O que você ganha | Desconto significativo em comparação com o Padrão Global | Acesso fácil a todos os novos modelos com os limites de pagamento por chamada padrão mais altos. Clientes com alto uso de volume podem ver maior variabilidade de latência |
Acesso a alta taxa de transferência previsível em toda a infraestrutura global do Azure. Determine a taxa de transferência por PTU usando a calculadora de capacidade fornecida. | SLA na disponibilidade. Otimizado para cargas de trabalho de baixo a médio volume com alto burstiness. Clientes com alto volume consistente podem experimentar maior variabilidade de latência. |
Acesso regional com taxa de transferência muito alta e previsível. Determine a taxa de transferência por PTU usando a calculadora de capacidade fornecida |
O que você não recebe | ❌Desempenho de chamadas em tempo real ❌Garantia de tratamento de dados Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados |
❌Garantia de tratamento de dados Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados |
❌Flexibilidade de pagamento por chamada ❌Garantia de tratamento de dados Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados |
❌Alto volume com baixa latência consistente | ❌Flexibilidade de pagamento por chamada |
Latência por chamada | Não aplicável (processo assíncrono baseado em arquivo) | Otimizado para chamadas em tempo real e uso de baixo a médio volume. Clientes com uso de alto volume podem ver maior variabilidade de latência. Limite definido por modelo | Otimizado para chamadas em tempo real e uso de alto volume. | Otimizado para chamadas em tempo real e uso de baixo a médio volume. Clientes com uso de alto volume podem ver maior variabilidade de latência. Limite definido por modelo | Otimizado para chamadas em tempo real e uso de alto volume. |
Nome do Sku no código | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Modelo de faturação | Pagamento por token | Pagamento por token | Faturação horária com compra opcional de reservas mensais ou anuais | Pagamento por token | Faturação horária com compra opcional de reservas mensais ou anuais |
Norma global
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.
As implantações globais estão disponíveis nos mesmos recursos do Azure OpenAI que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga em vários recursos.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Consulte a página de quotas para saber mais. Para aplicativos que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos a compra de taxa de transferência provisionada.
Provisionamento global
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.
As implantações globais estão disponíveis nos mesmos recursos do Azure OpenAI que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.
Lote global
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.
O lote global é projetado para lidar com tarefas de processamento de grande escala e alto volume de forma eficiente. Processe grupos assíncronos de solicitações com cota separada, com prazo de entrega de 24 horas, a um custo 50% menor do que o padrão global. Com o processamento em lote, em vez de enviar uma solicitação de cada vez, você envia um grande número de solicitações em um único arquivo. As solicitações globais em lote têm uma cota de token enfileirada separada, evitando qualquer interrupção de suas cargas de trabalho online.
Os principais casos de utilização incluem:
Processamento de dados em larga escala: analise rapidamente conjuntos de dados extensos em paralelo.
Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
Revisão e Resumo de Documentos: Automatize a revisão e o resumo de documentos extensos.
Automação do suporte ao cliente: lide com várias consultas simultaneamente para respostas mais rápidas.
Extração e Análise de Dados: Extraia e analise informações de grandes quantidades de dados não estruturados.
Tarefas de Processamento de Linguagem Natural (NLP): Execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e Personalização: Gere conteúdo personalizado e recomendações em escala.
Padrão de zona de dados
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI dentro da zona de dados especificada pela Microsoft. Saiba mais sobre residência de dados.
As implantações padrão da zona de dados estão disponíveis no mesmo recurso do Azure OpenAI que todos os outros tipos de implantação do Azure OpenAI, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. O padrão de zona de dados fornece cotas padrão mais altas do que nossos tipos de implantação baseados em geografia do Azure.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Consulte a página Quotas e limites para saber mais. Para cargas de trabalho que exigem baixa variação de latência em grande volume, recomendamos aproveitar as ofertas de implantação provisionada.
Standard
As implantações padrão fornecem um modelo de cobrança de pagamento por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.
As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alto burstiness. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.
Aprovisionado
As implantações provisionadas permitem especificar a quantidade de taxa de transferência necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ela esteja pronta para você. A taxa de transferência é definida em termos de unidades de taxa de transferência provisionadas (PTU), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par modelo-versão requer quantidades diferentes de PTU para implantar e fornecer quantidades diferentes de taxa de transferência por PTU. Saiba mais em nosso artigo Conceitos de taxa de transferência provisionada.
Como desativar o acesso a implantações globais em sua assinatura
O Azure Policy ajuda a impor normas organizacionais e a avaliar o cumprimento em escala. Através do dashboard de conformidade, proporciona uma visão agregada para avaliar o estado geral do ambiente, com a capacidade de desagregar a granularidade por recurso e por política. Também ajuda a fazer com que os recursos fiquem em conformidade através da remediação em massa dos recursos existentes e da reparação automática dos recursos novos. Saiba mais sobre a Política do Azure e controles internos específicos para serviços de IA.
Você pode usar a política a seguir para desabilitar o acesso às implantações padrão global do Azure OpenAI. Para desabilitar o acesso a implantações globais provisionadas ou em lote global do Azure, substitua GlobalStandard
por GlobalProvisionedManaged
ou GlobalBatch
pelo nome de sku pretendido.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Implementar modelos
Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.