Dokumentacja konfiguracji puli

Artykuł
09/27/2024

W tym artykule opisano dostępne ustawienia podczas tworzenia puli przy użyciu interfejsu użytkownika. Aby dowiedzieć się, jak utworzyć pulę przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Polecenia interfejsu wiersza polecenia usługi Databricks. Aby dowiedzieć się, jak utworzyć pulę przy użyciu interfejsu API REST, zobacz interfejs API pul wystąpień.

Uwaga

Jeśli obciążenie obsługuje przetwarzanie bezserwerowe, usługa Databricks zaleca używanie bezserwerowych obliczeń zamiast pul, aby korzystać z zawsze włączonego, skalowalnego środowiska obliczeniowego. Zobacz Connect to serverless compute (Nawiązywanie połączenia z bezserwerową obliczeniami).

Rozmiar puli

Podczas tworzenia puli, aby kontrolować jej rozmiar, można ustawić trzy parametry: minimalne bezczynne wystąpienia, maksymalna pojemność i automatyczne zakończenie bezczynności wystąpienia.

Minimalna liczba wystąpień bezczynności

Minimalna liczba wystąpień, które pula zachowuje bezczynność. Te wystąpienia nie kończą działania, niezależnie od ustawień automatycznego kończenia. Jeśli klaster korzysta z bezczynnych wystąpień z puli, usługa Azure Databricks aprowizuje dodatkowe wystąpienia w celu zachowania minimum.

Maksymalna pojemność

Maksymalna liczba wystąpień, które może aprowizować pula. W przypadku ustawienia ta wartość ogranicza wszystkie wystąpienia (bezczynne i używane). Jeśli klaster używający puli żąda więcej wystąpień niż ta liczba podczas skalowania automatycznego, żądanie kończy się niepowodzeniem INSTANCE_POOL_MAX_CAPACITY_FAILURE z powodu błędu.

Ta konfiguracja jest opcjonalna. Usługa Azure Databricks zaleca ustawienie wartości tylko w następujących okolicznościach:

Masz limit przydziału wystąpień, w ramach którego musisz pozostać w obszarze.
Chcesz chronić jeden zestaw pracy przed wpływem na inny zestaw pracy. Załóżmy na przykład, że limit przydziału wystąpienia wynosi 100, a masz zespoły A i B, które muszą uruchamiać zadania. Możesz utworzyć pulę A z maksymalną 50 i pulą B z maksymalną 50, aby obie drużyny dzieliły limit przydziału 100 odpowiednio.
Musisz ograniczyć koszty.

Automatyczne kończenie bezczynności wystąpienia

Czas w minutach powyżej wartości ustawionej w minimalnej liczbie wystąpień bezczynności, które mogą być bezczynne przed zakończeniem przez pulę.

Typy wystąpień

Pula składa się z obu bezczynnych wystąpień, które są gotowe do użycia dla nowych klastrów i wystąpień, uruchamiając klastry. Wszystkie te wystąpienia są tego samego typu dostawcy wystąpień wybrane podczas tworzenia puli.

Nie można edytować typu wystąpienia puli. Klastry dołączone do puli używają tego samego typu wystąpienia dla węzłów sterowników i procesów roboczych. Różne rodziny typów wystąpień pasują do różnych przypadków użycia, takich jak obciążenia intensywnie korzystające z pamięci lub intensywnie korzystające z obliczeń.

Usługa Azure Databricks zawsze udostępnia jednorocznych powiadomień o wycofaniu przed zakończeniem obsługi typu wystąpienia.

Uwaga

Jeśli wymagania dotyczące zabezpieczeń obejmują izolację obliczeniową , wybierz wystąpienie Standard_F72s_V2 jako typ procesu roboczego. Te typy wystąpień reprezentują izolowane maszyny wirtualne, które korzystają z całego hosta fizycznego i zapewniają wymagany poziom izolacji wymagany do obsługi, na przykład obciążenia Departamentu Obrony USA Impact Level 5 (IL5).

Wstępnie załadowana wersja środowiska Databricks Runtime

Możesz przyspieszyć uruchamianie klastra, wybierając wersję środowiska Databricks Runtime do załadowania w przypadku bezczynnych wystąpień w puli. Jeśli użytkownik wybierze to środowisko uruchomieniowe podczas tworzenia klastra wspieranego przez pulę, klaster zostanie uruchomiony jeszcze szybciej niż klaster oparty na puli, który nie używa wstępnie załadowanej wersji środowiska Databricks Runtime.

Ustawienie tej opcji na Brak spowalnia uruchamianie klastra, ponieważ powoduje pobranie wersji środowiska Databricks Runtime na żądanie do bezczynnych wystąpień w puli. Gdy klaster zwalnia wystąpienia w puli, wersja środowiska Databricks Runtime pozostaje buforowana w tych wystąpieniach. Następna operacja tworzenia klastra korzystająca z tej samej wersji środowiska Databricks Runtime może korzystać z tego zachowania buforowania, ale nie jest gwarantowana.

Wstępnie załadowany obraz platformy Docker

Obrazy platformy Docker są obsługiwane z pulami, jeśli do utworzenia puli jest używany interfejs API pul wystąpień.

Tagi puli

Tagi puli umożliwiają łatwe monitorowanie kosztów zasobów w chmurze używanych przez różne grupy w organizacji. Tagi można określić jako pary klucz-wartość podczas tworzenia puli, a usługa Azure Databricks stosuje te tagi do zasobów w chmurze, takich jak maszyny wirtualne i woluminy dysków, a także raporty użycia jednostek DBU.

Dla wygody usługa Azure Databricks stosuje trzy tagi domyślne do każdej puli: Vendor, DatabricksInstancePoolIdi DatabricksInstancePoolCreatorId. Tagi niestandardowe można również dodawać podczas tworzenia puli. Możesz dodać maksymalnie 41 tagów niestandardowych.

Tagi niestandardowe

Aby dodać dodatkowe tagi do puli, przejdź do karty Karty w dolnej części strony Tworzenie puli . Kliknij przycisk + Dodaj, a następnie wprowadź parę klucz-wartość.

Klastry oparte na puli dziedziczą domyślne i niestandardowe tagi z konfiguracji puli. Aby uzyskać szczegółowe informacje na temat współdziałania tagów puli i tagów klastra, zobacz Monitorowanie użycia przy użyciu tagów.

Autoskalowanie magazynu lokalnego

Często trudno jest oszacować ilość miejsca na dysku potrzebnego do wykonania określonego zadania. Aby zaoszczędzić na konieczności oszacowania, ile gigabajtów dysku zarządzanego ma zostać dołączonych do puli w czasie tworzenia, usługa Azure Databricks automatycznie włącza automatyczne skalowanie magazynu lokalnego we wszystkich pulach usługi Azure Databricks.

Dzięki automatycznemu skalowaniu magazynu lokalnego usługa Azure Databricks monitoruje ilość wolnego miejsca na dysku dostępnego w wystąpieniach puli. Jeśli wystąpienie działa zbyt mało na dysku, nowy dysk zarządzany jest dołączany automatycznie, zanim zabraknie miejsca na dysku. Dyski są dołączone do limitu 5 TB całkowitego miejsca na dysku na maszynę wirtualną (w tym początkowego magazynu lokalnego maszyny wirtualnej).

Dyski zarządzane dołączone do maszyny wirtualnej są odłączane tylko wtedy, gdy maszyna wirtualna zostanie zwrócona na platformę Azure. Oznacza to, że dyski zarządzane nigdy nie są odłączane od maszyny wirtualnej, o ile jest częścią puli.

Wystąpienia typu spot

Aby zaoszczędzić koszty, możesz użyć wystąpień typu spot, zaznaczając przycisk radiowy Wszystkie miejsca.

Klastry w puli będą uruchamiane z wystąpieniami typu spot dla wszystkich węzłów, sterowników i procesów roboczych (w przeciwieństwie do hybrydowego sterownika na żądanie i procesów roboczych wystąpień typu spot dla klastrów spoza puli).

Jeśli wystąpienia typu spot są eksmitowane z powodu niedostępności, wystąpienia na żądanie nie zastępują eksmitowanych wystąpień.

Udostępnij za pośrednictwem