Udostępnij za pośrednictwem


Opis kworum klastra i puli

Dotyczy: Azure Stack HCI, wersje 22H2 i 21H2; Windows Server 2022, Windows Server

Ważne

Usługa Azure Stack HCI jest teraz częścią usługi Azure Local. Trwa zmiana nazwy dokumentacji produktu. Jednak starsze wersje rozwiązania Azure Stack HCI, na przykład 22H2 będą nadal odwoływać się do rozwiązania Azure Stack HCI i nie będą odzwierciedlać zmiany nazwy. Dowiedz się więcej.

Klaster trybu failover systemu Windows Server zapewnia wysoką dostępność obciążeń uruchomionych w klastrach Azure Stack HCI i Windows Server. Te zasoby są uważane za wysoce dostępne, jeśli węzły hostujące zasoby są włączone; jednak klaster zazwyczaj wymaga uruchomienia ponad połowy węzłów, co jest nazywane kworum.

Kworum ma na celu zapobieganie scenariuszom podziału mózgu , które mogą wystąpić, gdy w sieci znajduje się partycja i podzbiory węzłów nie mogą komunikować się ze sobą. Może to spowodować, że oba podzestawy węzłów będą próbowały posiadać obciążenie i zapisać na tym samym dysku, co może prowadzić do wielu problemów. Jest to jednak blokowane w przypadku koncepcji kworum klastra trybu failover, która wymusza kontynuowanie działania tylko jednej z tych grup węzłów, więc tylko jedna z tych grup pozostaje w trybie online.

Kworum określa liczbę awarii, które klaster może utrzymać, pozostając w trybie online. Kworum jest przeznaczone do obsługi scenariusza, gdy występuje problem z komunikacją między podzestawami węzłów klastra, dzięki czemu wiele serwerów nie próbuje jednocześnie hostować grupy zasobów i zapisywać na tym samym dysku w tym samym czasie. Dzięki temu koncepcji kworum klaster wymusza zatrzymanie usługi klastra w jednym z podzbiorów węzłów w celu zapewnienia, że istnieje tylko jeden prawdziwy właściciel określonej grupy zasobów. Węzły, które zostały zatrzymane, mogą po raz kolejny komunikować się z główną grupą węzłów i automatycznie ponownie połączyć klaster i uruchomić swoją usługę klastra.

W usługach Azure Stack HCI i Windows Server 2019 istnieją dwa składniki systemu, które mają własne mechanizmy kworum:

  • Kworum klastra: działa to na poziomie klastra (tj. można utracić węzły i zatrzymać klaster)
  • Kworum puli: działa to na poziomie puli (tj. można utracić węzły i dyski i mieć pulę w górę). Pule magazynów zostały zaprojektowane tak, aby były używane zarówno w scenariuszach klastrowanych, jak i nieklasterowanych, dlatego mają inny mechanizm kworum.

Omówienie kworum klastra

Poniższa tabela zawiera omówienie wyników kworum klastra na scenariusz:

Węzły serwera Może przetrwać awarię jednego węzła serwera Może przetrwać awarię jednego węzła serwera, a następnie inny Może przetrwać dwie równoczesne awarie węzłów serwera
2 50/50 Nie Nie.
2 + świadek Tak Nie. Nie.
3 Tak 50/50 Nie.
3 + świadek Tak Tak Nie.
100 Tak Tak 50/50
4 + świadek Tak Tak Tak
5 i nowsze Tak Tak Tak

Zalecenia dotyczące kworum klastra

  • Jeśli masz dwa węzły, wymagany jest monitor.
  • Jeśli masz trzy lub cztery węzły, monitor jest zdecydowanie zalecany.
  • Jeśli masz pięć węzłów lub więcej, monitor nie jest potrzebny i nie zapewnia dodatkowej odporności.
  • Jeśli masz dostęp do Internetu, użyj monitora w chmurze.
  • Jeśli jesteś w środowisku IT z innymi maszynami i udziałami plików, użyj monitora udziału plików.

Jak działa kworum klastra

Gdy węzły kończą się niepowodzeniem lub gdy niektóre podzbiór węzłów tracą kontakt z innym podzestawem, węzły ocalałych muszą sprawdzić, czy stanowią one większość klastra, aby pozostać w trybie online. Jeśli nie będą mogli tego zweryfikować, przełączą się w tryb offline.

Jednak koncepcja większości działa prawidłowo tylko wtedy, gdy całkowita liczba węzłów w klastrze jest nieparzysta (na przykład trzy węzły w klastrze z pięcioma węzłami). Co z klastrami z parzystą liczbą węzłów (na przykład klastrem z czterema węzłami)?

Istnieją dwa sposoby, w jaki klaster może sprawić, że łączna liczba głosów będzie nieparzysta:

  1. Po pierwsze, może przejść w górę, dodając świadka z dodatkowym głosowaniem. Wymaga to skonfigurowania użytkownika.
  2. Można też przejść w dół przez zerowanie jednego pechowego głosowania węzła (odbywa się automatycznie w razie potrzeby).

Za każdym razem, gdy węzły ocalałych pomyślnie zweryfikują, że są większością, definicja większości zostanie zaktualizowana tak, aby była jednym z ocalałych. Dzięki temu klaster może utracić jeden węzeł, a następnie inny, a następnie inny i tak dalej. Ta koncepcja całkowitej liczby głosów dostosowujących się po kolejnych niepowodzeniach jest nazywana kworum dynamicznym.

Monitor dynamiczny

Dynamiczny świadek przełącza głos świadka, aby upewnić się, że łączna liczba głosów jest dziwna. Jeśli istnieje nieparzysta liczba głosów, świadek nie ma głosu. Jeśli istnieje parzysta liczba głosów, świadek ma głos. Monitor dynamiczny znacznie zmniejsza ryzyko awarii klastra z powodu awarii monitora. Klaster decyduje, czy używać głosowania monitora na podstawie liczby węzłów głosowania dostępnych w klastrze.

Kworum dynamiczne działa z monitorem dynamicznym w sposób opisany poniżej.

Zachowanie dynamicznego kworum

  • Jeśli masz parzystą liczbę węzłów i nie ma monitora, jeden węzeł otrzyma zera jego głos. Na przykład tylko trzy z czterech węzłów otrzymują głosy, więc łączna liczba głosów wynosi trzy, a dwóch ocalałych z głosami jest uważanych za większość.
  • Jeśli masz nieparzystą liczbę węzłów i nie ma monitora, wszystkie otrzymają głosy.
  • Jeśli masz parzystą liczbę węzłów plus monitor, głosy monitora, więc suma jest dziwna.
  • Jeśli masz nieparzystną liczbę węzłów plus monitor, monitor nie głosuje.

Kworum dynamiczne umożliwia dynamiczne przypisywanie głosu do węzła w celu uniknięcia utraty większości głosów i umożliwienia uruchamiania klastra z jednym węzłem (znanym jako ostatni człowiek stojący). Jako przykład weźmy klaster z czterema węzłami. Załóżmy, że kworum wymaga 3 głosów.

W takim przypadku klaster zniknąłby w przypadku utraty dwóch węzłów.

Diagram przedstawiający cztery węzły klastra, z których każdy otrzymuje głos.

Jednak dynamiczne kworum zapobiega temu. Łączna liczba głosów wymaganych do kworum jest teraz określana na podstawie liczby dostępnych węzłów. W związku z tym w przypadku dynamicznego kworum klaster pozostaje w stanie nawet wtedy, gdy utracisz trzy węzły.

Diagram przedstawiający cztery węzły klastra, z węzłami, które kończą się niepowodzeniem pojedynczo, oraz liczbę wymaganych głosów dostosowujących się po każdym niepowodzeniu.

Powyższy scenariusz dotyczy klastra ogólnego, który nie ma włączonego Miejsca do magazynowania Direct. Jednak po włączeniu Miejsca do magazynowania Direct klaster może obsługiwać tylko dwa awarie węzłów. Jest to bardziej wyjaśnione w sekcji kworum puli.

Przykłady

Dwa węzły bez monitora

Głosowanie jednego węzła jest zerowane, więc głosowanie większościowe jest określane z sumy 1 głosów. Jeśli węzeł bez głosowania ulegnie nieoczekiwanej awarii, ocalały ma 1/1, a klaster przetrwa. Jeśli węzeł głosowania ulegnie nieoczekiwanie awarii, ocalały ma wartość 0/1, a klaster ulegnie awarii. Jeśli węzeł głosowania zostanie bezpiecznie wyłączony, głosowanie zostanie przeniesione do innego węzła, a klaster przetrwa. Dlatego niezwykle ważne jest skonfigurowanie monitora.

Kworum wyjaśniono w przypadku dwóch węzłów bez monitora.

  • Może przetrwać jedną awarię serwera: pięćdziesiąt procent szans.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Nie.
  • Może przetrwać dwa błędy serwera jednocześnie: Nie.

Dwa węzły z monitorem

Oba węzły głosują, a także głosy świadków, więc większość jest określana w sumie 3 głosów. Jeśli którykolwiek węzeł ulegnie awarii, ocalały ma wartość 2/3, a klaster przetrwa.

Kworum wyjaśniono w przypadku dwóch węzłów z monitorem.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Nie.
  • Może przetrwać dwa błędy serwera jednocześnie: Nie.

Trzy węzły bez monitora

Wszystkie węzły głosują, więc większość jest określana w sumie 3 głosów. Jeśli jakikolwiek węzeł ulegnie awarii, osoby ocalałych to 2/3, a klaster przetrwa. Klaster staje się dwoma węzłami bez monitora — w tym momencie jesteś w scenariuszu 1.

Kworum wyjaśniono w przypadku trzech węzłów bez monitora.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Pięćdziesiąt procent szans.
  • Może przetrwać dwa błędy serwera jednocześnie: Nie.

Trzy węzły ze monitorem

Wszystkie węzły głosują, więc monitor początkowo nie głosuje. Większość jest określana w sumie 3 głosów. Po jednej awarii klaster ma dwa węzły z monitorem — który powraca do scenariusza 2. Tak więc, teraz dwa węzły i głos monitora.

Kworum wyjaśniono w przypadku trzech węzłów z monitorem.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Tak.
  • Może przetrwać dwa błędy serwera jednocześnie: Nie.

Cztery węzły bez monitora

Głosowanie jednego węzła jest zerowane, więc większość jest określana z sumy 3 głosów. Po jednej awarii klaster staje się trzema węzłami i znajdujesz się w scenariuszu 3.

Kworum wyjaśniono w przypadku czterech węzłów bez monitora.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Tak.
  • Może przetrwać dwa błędy serwera jednocześnie: Pięćdziesiąt procent szans.

Cztery węzły z monitorem

Wszystkie węzły głosuje i głosy świadków, więc większość jest określana w sumie 5 głosów. Po jednym niepowodzeniu jesteś w scenariuszu 4. Po dwóch równoczesnych awariach przejdź do scenariusza 2.

Kworum wyjaśniono w przypadku czterech węzłów z monitorem.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Tak.
  • Może przetrwać dwa błędy serwera jednocześnie: Tak.

Pięć węzłów i poza nimi

Wszystkie węzły głosują lub wszystkie, ale jedno głosowanie, cokolwiek sprawia, że suma jest dziwna. Miejsca do magazynowania Direct nie może obsłużyć więcej niż dwóch węzłów w dół, więc w tym momencie żaden monitor nie jest potrzebny ani przydatny.

Kworum wyjaśniono w przypadku pięciu węzłów i innych.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Tak.
  • Może przetrwać dwa błędy serwera jednocześnie: Tak.

Teraz, gdy rozumiemy, jak działa kworum, przyjrzyjmy się typom świadków kworum.

Typy monitorów kworum

Klaster trybu failover obsługuje trzy typy świadków kworum:

  • Monitor w chmurze — magazyn obiektów blob na platformie Azure dostępny dla wszystkich węzłów klastra. Przechowuje informacje klastrowania w pliku witness.log, ale nie przechowuje kopii bazy danych klastra.
  • Monitor udziału plików — udział plików SMB skonfigurowany na serwerze plików z systemem Windows Server. Przechowuje informacje klastrowania w pliku witness.log, ale nie przechowuje kopii bazy danych klastra.
  • Monitor dysku — mały dysk klastrowany, który znajduje się w grupie Dostępne magazyny klastra. Ten dysk jest wysoce dostępny i może przejść w tryb failover między węzłami. Zawiera kopię bazy danych klastra. Monitor dysku nie jest obsługiwany w usłudze Miejsca do magazynowania Direct.

Omówienie kworum puli

Omówiliśmy kworum klastra, które działa na poziomie klastra. Teraz przyjrzyjmy się kworum puli, które działa na poziomie puli (tj. możesz utracić węzły i dyski i zachować pulę). Pule magazynów zostały zaprojektowane tak, aby były używane zarówno w scenariuszach klastrowanych, jak i nieklasterowanych, dlatego mają inny mechanizm kworum.

Poniższa tabela zawiera omówienie wyników kworum puli na scenariusz:

Węzły serwera Może przetrwać awarię jednego węzła serwera Może przetrwać awarię jednego węzła serwera, a następnie inny Może przetrwać dwie równoczesne awarie węzłów serwera
2 Tak Nie. Nie.
2 + świadek Tak Nie. Nie.
3 Tak Nie. Nie.
3 + świadek Tak Nie. Nie.
100 Tak Nie. Nie.
4 + świadek Tak Tak Tak
5 i nowsze Tak Tak Tak

Jak działa kworum puli

Gdy dyski kończą się niepowodzeniem lub gdy niektóre podzbiory dysków tracą kontakt z innym podzestawem, zachowane dyski hostujące metadane muszą sprawdzić, czy stanowią one większość puli, aby pozostać w trybie online. Jeśli nie będą mogli tego zweryfikować, przełączą się w tryb offline. Pula jest jednostką, która przechodzi w tryb offline lub pozostaje w trybie online na podstawie tego, czy ma wystarczającą ilość dysków dla kworum (50% + 1). Baza danych klastra może być +1, o ile sam klaster jest quorate.

Jednak kworum puli działa inaczej niż kworum klastra w następujący sposób:

  • Pula wybiera podzbiór dysków na węzeł do hostowania metadanych
  • Pula używa bazy danych klastra do przerwania więzi
  • Pula nie ma dynamicznego kworum
  • Pula nie implementuje własnej wersji usuwania głosowania

Przykłady

Cztery węzły z układem symetrycznym

Każdy z 16 dysków ma jedno głosowanie, a węzeł drugi ma również jedno głosowanie (ponieważ jest właścicielem zasobu puli). Większość jest określana w sumie 16 głosów. Jeśli węzły trzy i cztery zejdą w dół, podzestaw ocalały ma 8 dysków i właściciela zasobu puli, czyli 9/16 głosów. Tak więc basen przetrwa.

Kworum puli 1.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Tak.
  • Może przetrwać dwa błędy serwera jednocześnie: Tak.

Cztery węzły z symetrycznym układem i awarią dysku

Każdy z 16 dysków ma jedno głosowanie, a węzeł 2 ma również jedno głosowanie (ponieważ jest właścicielem zasobu puli). Większość jest określana w sumie 16 głosów. Najpierw dysk 7 ulegnie awarii. Jeśli węzły trzy i cztery zejdą w dół, podzestaw ocalały ma 7 dysków i właściciela zasobu puli, czyli 8/16 głosów. Tak więc pula nie ma większości i idzie w dół.

Kworum puli 2.

  • Może przetrwać jedną awarię serwera: Tak.
  • Może przetrwać jedną awarię serwera, a następnie drugą: Nie.
  • Może przetrwać dwa błędy serwera jednocześnie: Nie.

Zalecenia dotyczące kworum puli

  • Upewnij się, że każdy węzeł w klastrze jest symetryczny (każdy węzeł ma taką samą liczbę dysków)
  • Włącz dublowanie trójstopniowe lub podwójną parzystość, aby można było tolerować awarie dwóch węzłów i zachować dyski wirtualne w trybie online.
  • Jeśli więcej niż dwa węzły nie działają lub dwa węzły, a dysk w innym węźle nie działa, woluminy mogą nie mieć dostępu do wszystkich trzech kopii danych, a tym samym być przełączony w tryb offline i być niedostępny. Zaleca się przywrócenie serwerów lub szybkie zastąpienie dysków w celu zapewnienia największej odporności dla wszystkich danych w woluminie.

Następne kroki