Zarządzanie limitami przydziału zasobów i zwiększanie ich za pomocą rozwiązania Azure AI Foundry

Artykuł
11/24/2024

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Limit przydziału zapewnia elastyczność aktywnego zarządzania alokacją limitów szybkości we wdrożeniach w ramach subskrypcji. W tym artykule przedstawiono proces zarządzania limitem przydziału dla maszyn wirtualnych usługi Azure AI Foundry i modeli usługi Azure OpenAI.

Platforma Azure używa limitów i przydziałów, aby zapobiegać przekraczaniu budżetu z powodu oszustw oraz przestrzegać ograniczeń wydajności platformy Azure. Jest to również dobry sposób kontrolowania kosztów dla administratorów. Uwzględnij te limity podczas skalowania obciążeń produkcyjnych.

Z tego artykułu dowiesz się więcej o:

Domyślne limity zasobów platformy Azure
Tworzenie limitów przydziałów na poziomie centrum rozwiązania Azure AI Foundry.
Wyświetlanie limitów przydziału i limitów
Żądanie zwiększenia limitu przydziału i limitu

Specjalne uwagi

Limity przydziału są stosowane do każdej subskrypcji na koncie. Jeśli masz wiele subskrypcji, musisz zażądać zwiększenia limitu przydziału dla każdej subskrypcji.

Limit przydziału to limit środków na zasoby platformy Azure, a nie gwarancja pojemności. Jeśli potrzebujesz wydajności w dużej skali, skontaktuj się z pomocą techniczną platformy Azure, aby zwiększyć limit przydziału.

Uwaga

Zasoby obliczeniowe usługi Azure AI Foundry mają oddzielny limit przydziału od podstawowego limitu przydziału obliczeniowego.

Domyślne limity zależą od typu kategorii oferty (np. „bezpłatna wersja próbna”, „płatność zgodnie z rzeczywistym użyciem”) i od serii maszyn wirtualnych (np. Dv2, F, G).

Limit przydziału usługi Azure AI Foundry

Następujące akcje w portalu usługi Azure AI Foundry używają limitu przydziału:

Tworzenie wystąpienia obliczeniowego.
Tworzenie indeksu wektorowego.
Wdrażanie otwartych modeli z katalogu modeli.

Zasoby obliczeniowe usługi Azure AI Foundry

Zasoby obliczeniowe usługi Azure AI Foundry mają domyślny limit przydziału dla liczby rdzeni i liczby unikatowych zasobów obliczeniowych dozwolonych w poszczególnych regionach w ramach subskrypcji.

Limit przydziału liczby rdzeni jest podzielony przez każdą rodzinę maszyn wirtualnych i łączną łączną liczbę rdzeni.
Limit przydziału liczby unikatowych zasobów obliczeniowych na region jest oddzielony od limitu przydziału rdzeni maszyny wirtualnej, ponieważ dotyczy tylko zarządzanych zasobów obliczeniowych

Aby zwiększyć limity zasobów obliczeniowych, możesz zażądać zwiększenia limitu przydziału w rozwiązaniu Azure AI Foundry.

Dostępne zasoby obejmują:

Rdzenie dedykowane dla poszczególnych regionów mają domyślny limit od 24 do 300, w zależności od typu oferty subskrypcji. Możesz zwiększyć liczbę rdzeni dedykowanych na subskrypcję dla każdej rodziny maszyn wirtualnych. Wyspecjalizowane rodziny maszyn wirtualnych, takie jak NCv2, NCv3 lub seria ND, zaczynają się od domyślnej liczby rdzeni zerowych. Procesory GPU również domyślnie mają zero rdzeni.
Łączny limit zasobów obliczeniowych w regionie wynosi domyślnie 500 na region w ramach danej subskrypcji i można go zwiększyć do maksymalnej wartości 2500 na region. Ten limit jest współużytkowany między wystąpieniami obliczeniowymi i wdrożeniami zarządzanych punktów końcowych online. Wystąpienie obliczeniowe jest uznawane za klaster z jednym węzłem na potrzeby limitu przydziału. Aby zwiększyć całkowity limit zasobów obliczeniowych, otwórz wniosek o pomoc techniczną online.

Podczas otwierania wniosku o pomoc techniczną w celu zwiększenia całkowitego limitu zasobów obliczeniowych podaj następujące informacje:

Wybierz pozycję Technical (Techniczne ) dla typu problemu.
Wybierz subskrypcję, dla której chcesz zwiększyć limit przydziału.
Wybierz pozycję Machine Learning jako typ usługi.
Wybierz zasób, dla którego chcesz zwiększyć limit przydziału.
W polu Podsumowanie wprowadź wartość "Zwiększ łączne limity mocy obliczeniowej"
Wybierz pozycję Wystąpienie obliczeniowe jako typ problemu i limit przydziału jako podtyp problemu.
Wybierz Dalej.
Na stronie Dodatkowe szczegóły podaj identyfikator subskrypcji, region, nowy limit (od 500 do 2500) oraz uzasadnienie biznesowe, aby zwiększyć łączne limity obliczeniowe dla regionu.
Wybierz pozycję Utwórz , aby przesłać bilet wniosku o pomoc techniczną.

Udostępniony limit przydziału usługi Azure AI Foundry

Usługa Azure AI Foundry udostępnia pulę przydziału współużytkowanego, który jest dostępny dla różnych użytkowników w różnych regionach do współbieżnego użycia. W zależności od dostępności użytkownicy mogą tymczasowo uzyskiwać dostęp do limitu przydziału z puli udostępnionej i używać limitu przydziału do przeprowadzania testów przez ograniczony czas. Określony czas trwania zależy od przypadku użycia. Tymczasowo korzystając z limitu przydziału z puli przydziałów, nie musisz już składać biletu pomocy technicznej na krótkoterminowy wzrost limitu przydziału lub poczekać na zatwierdzenie żądania przydziału, zanim będzie można kontynuować obciążenie.

Użycie udostępnionej puli przydziałów jest dostępne do testowania wnioskowania dla llama-2, Phi, Nemotron, Mistral, Dolly i Deci-DeciLM z wykazu modeli. Udostępniony limit przydziału należy używać tylko do tworzenia tymczasowych punktów końcowych testów, a nie produkcyjnych punktów końcowych. W przypadku punktów końcowych w środowisku produkcyjnym należy zażądać dedykowanego limitu przydziału. Rozliczenia dotyczące przydziału współużytkowanego są oparte na użyciu, podobnie jak rozliczenia dla dedykowanych rodzin maszyn wirtualnych.

Container Instances

Aby uzyskać więcej informacji, zobacz Container Instances limits (Limity wystąpień kontenera).

Storage

Usługa Azure Storage ma limit 250 kont magazynu na region, na subskrypcję. Ten limit obejmuje zarówno konta magazynu w warstwie Standardowa, jak i Premium.

Wyświetlanie limitów przydziałów i żądania w portalu usługi Azure AI Foundry

Przy użyciu przydziałów można zarządzać alokacją docelową zasobów obliczeniowych między wieloma koncentratorami usługi Azure AI Foundry w tej samej subskrypcji.

Domyślnie wszystkie centra współdzielą ten sam limit przydziału co limit przydziału na poziomie subskrypcji dla rodzin maszyn wirtualnych. Można jednak ustawić maksymalny limit przydziału dla poszczególnych rodzin maszyn wirtualnych w celu uzyskania bardziej szczegółowej kontroli kosztów i ładu w centrach w ramach subskrypcji. Limity przydziału dla poszczególnych rodzin maszyn wirtualnych umożliwiają współużytkowanie wydajności i unikanie problemów z rywalizacją o zasoby.

W portalu usługi Azure AI Foundry wybierz pozycję Centrum zarządzania w menu po lewej stronie.
Wybierz pozycję Limit przydziału z menu po lewej stronie.
W widoku limitu przydziału można zobaczyć limit przydziału dla modeli w wybranym regionie świadczenia usługi Azure. Aby zażądać większego limitu przydziału, wybierz model, a następnie wybierz pozycję Zażądaj limitu przydziału.
- Użyj przełącznika Pokaż wszystkie przydziały, aby wyświetlić cały przydział lub tylko przydzielony przydział.
- Użyj listy rozwijanej Grupuj według, aby pogrupować listę według typu przydziału, regionu i modelu, typu przydziału, modelu i regionu lub brak. Grupowanie Brak powoduje wyświetlenie listy wdrożeń modelu.
- Rozwiń grupy, aby wyświetlić informacje o konkretnych wdrożeniach modelu. Podczas przeglądania wdrożenia modelu wybierz ikonę ołówka w kolumnie Alokacja przydziału, aby edytować alokację przydziału dla wdrożenia modelu.
- Użyj wykresów po stronie, aby wyświetlić więcej szczegółów na temat użycia limitu przydziału. Wykresy są interaktywne; umieszczenie wskaźnika myszy na sekcji wykresu powoduje wyświetlenie dodatkowych informacji i wybranie wykresu powoduje przefiltrowanie listy modeli. Wybranie legendy wykresu filtruje dane wyświetlane na wykresie.
- Użyj linku Aprowizowanie usługi Azure OpenAI, aby wyświetlić informacje o aprowizowanych modelach, w tym kalkulator pojemności.
Po wybraniu linku limitu przydziału maszyny wirtualnej można wyświetlić limit przydziału i użycie dla rodzin maszyn wirtualnych w wybranym regionie świadczenia usługi Azure. Aby zażądać większego limitu przydziału, wybierz rodzinę maszyn wirtualnych, a następnie wybierz pozycję Zażądaj limitu przydziału.

Udostępnij za pośrednictwem