Gerenciar e aumentar cotas para recursos com o Azure AI Foundry
Importante
Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
A cota oferece a flexibilidade de gerenciar ativamente a alocação de limites de taxa nas implantações em sua assinatura. Este artigo descreve o processo de gerenciamento de cota para suas máquinas virtuais do Azure AI Foundry e modelos do Azure OpenAI.
O Azure utiliza limites e quotas para evitar ultrapassar o orçamento devido a fraudes e para respeitar as restrições de capacidade do Azure. Também é uma boa maneira de controlar os custos para os administradores. Considere estes limites ao dimensionar para cargas de trabalho de produção.
Neste artigo, você aprende sobre:
- Limites padrão nos recursos do Azure
- Criação de cotas de nível de hub do Azure AI Foundry.
- Ver as suas quotas e limites
- Solicitar aumentos de quotas e limites
Considerações especiais
As quotas são aplicadas a cada subscrição na sua conta. Se você tiver várias assinaturas, deverá solicitar um aumento de cota para cada assinatura.
Uma cota é um limite de crédito nos recursos do Azure, não uma garantia de capacidade. Se tiver necessidades de capacidade de grande escala, contacte o suporte do Azure para aumentar a quota.
Nota
A computação do Azure AI Foundry tem uma cota separada da cota de computação principal.
Os limites predefinidos variam consoante o tipo, como avaliação gratuita, pay as you go e série da máquina virtual (VM), como Dv2, F e G.
Cota do Azure AI Foundry
As seguintes ações no portal do Azure AI Foundry consomem quota:
- Criação de uma instância de computação.
- Construindo um índice vetorial.
- Implantação de modelos abertos a partir do catálogo de modelos.
Computação do Azure AI Foundry
A computação do Azure AI Foundry tem um limite de cota padrão no número de núcleos e no número de recursos de computação exclusivos permitidos por região em uma assinatura.
- A cota no número de núcleos é dividida por cada família VM e pelo total acumulado de núcleos.
- A cota sobre o número de recursos de computação exclusivos por região é separada da cota principal da VM, pois se aplica apenas aos recursos de computação gerenciados
Para aumentar os limites de computação, você pode solicitar um aumento de cota no Azure AI Foundry.
Os recursos disponíveis incluem:
- Os núcleos dedicados por região têm um limite predefinido de 24 a 300, dependendo do tipo de oferta da subscrição. Pode aumentar o número de núcleos dedicados por subscrição para cada família de VM. Famílias de VMs especializadas, como as séries NCv2, NCv3 ou ND, começam com um padrão de zero núcleos. As GPUs também têm zero núcleos por predefinição.
- O limite total de computação por região tem um limite predefinido de 500 por região numa determinada subscrição e pode ser aumentado até um valor máximo de 2500 por região. Esse limite é compartilhado entre instâncias de computação e implantações de endpoint online gerenciado. Uma instância de computação é considerada um cluster de nó único para fins de quota. Para aumentar o limite total de computação, abra uma solicitação de suporte ao cliente on-line.
Ao abrir a solicitação de suporte para aumentar o limite total de computação, forneça as seguintes informações:
Selecione Técnico para o tipo de problema.
Selecione a subscrição para a qual pretende aumentar a quota.
Selecione Machine Learning como o tipo de serviço.
Selecione o recurso para o qual você deseja aumentar a cota.
No campo Resumo, insira "Aumentar limites totais de computação"
Selecione Instância de computação o tipo de problema e Cota como o subtipo de problema.
Selecione Seguinte.
Na página Detalhes adicionais, forneça a ID da assinatura, a região, o novo limite (entre 500 e 2500) e a justificativa comercial para aumentar os limites totais de computação para a região.
Selecione Criar para enviar o tíquete de solicitação de suporte.
Cota compartilhada do Azure AI Foundry
O Azure AI Foundry fornece um pool de cotas compartilhadas que está disponível para diferentes usuários em várias regiões usarem simultaneamente. Dependendo da disponibilidade, os usuários podem acessar temporariamente a cota do pool compartilhado e usar a cota para realizar testes por um período limitado de tempo. A duração do tempo específico depende do caso de uso. Ao usar temporariamente a cota do pool de cotas, você não precisa mais registrar um tíquete de suporte para um aumento de cota de curto prazo ou esperar que sua solicitação de cota seja aprovada antes de poder prosseguir com sua carga de trabalho.
O uso do pool de cotas compartilhadas está disponível para testar a inferência para modelos Llama-2, Phi, Nemotron, Mistral, Dolly e Deci-DeciLM do Catálogo de Modelos. Você deve usar a cota compartilhada apenas para criar pontos de extremidade de teste temporários, não pontos de extremidade de produção. Para endpoints em produção, você deve solicitar uma cota dedicada. A cobrança de cota compartilhada é baseada no uso, assim como a cobrança para famílias de máquinas virtuais dedicadas.
Instâncias de contentores
Para obter mais informações, consulte Limites de instâncias de contêiner.
Armazenamento
O Armazenamento do Azure tem um limite de 250 contas de armazenamento por região, por assinatura. Este limite inclui contas de armazenamento Standard e Premium.
Exibir e solicitar cotas no portal do Azure AI Foundry
Use cotas para gerenciar a alocação de destino de computação entre vários hubs do Azure AI Foundry na mesma assinatura.
Por padrão, todos os hubs compartilham a mesma cota que a cota de nível de assinatura para famílias VM. No entanto, você pode definir uma cota máxima para famílias de VMs individuais para controle de custos e governança mais granulares em hubs em uma assinatura. As quotas para famílias de VM individuais permitem-lhe partilhar a capacidade e evitar problemas de contenção de recursos.
No portal do Azure AI Foundry, selecione Centro de gerenciamento no menu à esquerda.
Selecione Cota no menu à esquerda.
No modo de exibição de cota, você pode ver a cota para os modelos na região do Azure selecionada. Para solicitar mais cota, selecione o modelo e, em seguida, selecione Solicitar cota.
- Use a alternância Mostrar todas as cotas para exibir todas as cotas ou apenas a cota alocada no momento.
- Use a lista suspensa Agrupar por para agrupar a lista por Tipo de cota, Região & Modelo, Tipo de cota, Modelo & Região ou Nenhuma. O agrupamento Nenhum exibe uma lista de implantações de modelo.
- Expanda os agrupamentos para exibir informações sobre implantações de modelos específicos. Ao visualizar uma implantação de modelo, selecione o ícone de lápis na coluna Alocação de cota para editar a alocação de cota para a implantação do modelo.
- Use os gráficos ao longo da lateral da página para ver mais detalhes sobre o uso da cota. Os gráficos são interativos; Passar o mouse sobre uma seção do gráfico exibe mais informações e selecionar o gráfico filtra a lista de modelos. A seleção da legenda do gráfico filtra os dados exibidos no gráfico.
- Use o link Azure OpenAI Provisioned para exibir informações sobre modelos provisionados, incluindo uma calculadora de capacidade.
Ao selecionar o link de cota de VM, você pode exibir a cota e o uso para as famílias de máquinas virtuais na região selecionada do Azure. Para solicitar mais cota, selecione a família VM e, em seguida, selecione Solicitar cota.