Jak tworzyć niestandardowe pule platformy Spark w usłudze Microsoft Fabric
W tym dokumencie wyjaśniono, jak tworzyć niestandardowe pule platformy Apache Spark w usłudze Microsoft Fabric na potrzeby obciążeń analitycznych. Pule platformy Apache Spark umożliwiają użytkownikom tworzenie dostosowanych środowisk obliczeniowych na podstawie ich konkretnych wymagań, zapewniając optymalną wydajność i wykorzystanie zasobów.
Należy określić minimalną i maksymalną liczbę węzłów do skalowania automatycznego. Na podstawie tych wartości system dynamicznie uzyskuje i cofnie węzły w miarę zmiany wymagań obliczeniowych zadania, co skutkuje wydajnym skalowaniem i lepszą wydajnością. Dynamiczna alokacja funkcji wykonawczych w pulach platformy Spark pozwala również złagodzić potrzebę ręcznej konfiguracji funkcji wykonawczej. Zamiast tego system dostosowuje liczbę funkcji wykonawczych w zależności od woluminu danych i potrzeb obliczeniowych na poziomie zadania. Ten proces umożliwia skoncentrowanie się na obciążeniach bez obaw o optymalizację wydajności i zarządzanie zasobami.
Notatka
Aby utworzyć niestandardową pulę Spark, musisz mieć dostęp administratora do obszaru roboczego. Administrator pojemności musi włączyć opcję Niestandardowe Pule Obszarów Roboczych w sekcji Spark Compute w ustawieniach administratora pojemności . Aby dowiedzieć się więcej, zobacz Ustawienia obliczeniowe platformy Spark dla pojemności sieci szkieletowej.
Tworzenie niestandardowych pul platformy Spark
Aby utworzyć lub zarządzać pulą Spark skojarzoną z obszarem roboczym:
Wejdź do swojego obszaru roboczego i wybierz ustawienia obszaru roboczego .
Wybierz opcję Data Engineering/Science, aby rozwinąć menu, a następnie wybierz ustawienia Spark.
Wybierz opcję Nowa pula. Na ekranie tworzenia puli , nazwij swoją pulę platformy Spark. Wybierz również rodzinę węzłów oraz wybierz rozmiar węzła z dostępnych rozmiarów (Mały, Średni, Duży, X-Largei XX-Large), na podstawie wymagań obliczeniowych dla obciążeń.
Minimalną konfigurację węzła dla pul niestandardowych można ustawić na 1. Ponieważ Fabric Spark zapewnia odtwarzalną dostępność dla klastrów z jednym węzłem, nie musisz martwić się o błędy zadań, utratę sesji w razie awarii ani o przepłacanie za zasoby obliczeniowe dla mniejszych zadań Spark.
Możesz włączyć lub wyłączyć skalowanie automatyczne dla niestandardowych pul platformy Spark. Po włączeniu skalowania automatycznego pula będzie dynamicznie uzyskiwać nowe węzły do maksymalnego limitu węzłów określonego przez użytkownika, a następnie wycofać je po wykonaniu zadania. Ta funkcja zapewnia lepszą wydajność dzięki dostosowaniu zasobów na podstawie wymagań dotyczących zadania. Możesz rozmiarować węzły, które mieszczą się w jednostkach pojemności zakupionych w ramach SKU pojemności Fabric.
Możesz również włączyć dynamiczną alokację funkcji wykonawczej dla puli Spark, która automatycznie określa optymalną liczbę funkcji wykonawczych w ramach maksymalnej granicy określonej przez użytkownika. Ta funkcja dostosowuje liczbę funkcji wykonawczych na podstawie woluminu danych, co zwiększa wydajność i wykorzystanie zasobów.
Te pule niestandardowe mają domyślny czas trwania autopauzy wynoszący 2 minuty. Po osiągnięciu czasu trwania automatycznej pauzy sesja wygasa, a klastry zostają zwolnione. Opłaty są naliczane na podstawie liczby węzłów i czasu trwania, przez który są używane niestandardowe pule platformy Spark.
Powiązana zawartość
- Dowiedz się więcej na temat publicznej dokumentacji platformy Apache Spark .
- Rozpocznij pracę z ustawieniami administrowania obszarem roboczym platformy Spark w usłudze Microsoft Fabric.