Udostępnij za pośrednictwem


Niezawodność w usłudze Azure HDInsight w usłudze Azure Kubernetes Service

Uwaga

Wycofamy usługę Azure HDInsight w usłudze AKS 31 stycznia 2025 r. Przed 31 stycznia 2025 r. należy przeprowadzić migrację obciążeń do usługi Microsoft Fabric lub równoważnego produktu platformy Azure, aby uniknąć nagłego zakończenia obciążeń. Pozostałe klastry w ramach subskrypcji zostaną zatrzymane i usunięte z hosta.

Tylko podstawowa pomoc techniczna będzie dostępna do daty wycofania.

Ważne

Ta funkcja jest aktualnie dostępna jako funkcja podglądu. Dodatkowe warunki użytkowania dla wersji zapoznawczych platformy Microsoft Azure obejmują więcej warunków prawnych, które dotyczą funkcji platformy Azure, które znajdują się w wersji beta, w wersji zapoznawczej lub w inny sposób nie zostały jeszcze wydane w wersji ogólnodostępnej. Aby uzyskać informacje o tej konkretnej wersji zapoznawczej, zobacz Informacje o wersji zapoznawczej usługi Azure HDInsight w usłudze AKS. W przypadku pytań lub sugestii dotyczących funkcji prześlij żądanie w usłudze AskHDInsight , aby uzyskać szczegółowe informacje i postępuj zgodnie z nami, aby uzyskać więcej aktualizacji w społeczności usługi Azure HDInsight.

W tym artykule opisano obsługę niezawodności w usłudze Azure HDInsight w usłudze Azure Kubernetes Service (AKS) oraz odzyskiwanie po awarii i ciągłość działania.

Obsługa strefy dostępności

Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w każdym regionie świadczenia usługi Azure. Gdy jedna strefa ulegnie awarii, usługi mogą przejść w tryb failover do jednej z pozostałych stref.

Aby uzyskać więcej informacji na temat stref dostępności na platformie Azure, zobacz Co to są strefy dostępności?.

Usługa Azure HDInsight w usłudze AKS obsługuje strefę dostępności dzięki możliwości tworzenia strefowo nadmiarowych pul węzłów usługi Azure Kubernetes Service. Podczas tworzenia można wybrać strefy dostępności do wdrożenia puli klastrów i klastra. Po utworzeniu puli klastra lub klastra nie można zmienić stref dostępności.

Wymagania wstępne

  • Strefy dostępności są obsługiwane tylko w przypadku wersji >puli klastrów = 1.2 i wersji klastra >= 1.2.1.

  • Usługa Azure HDInsight w usłudze AKS ma tylko jedną domyślną jednostkę SKU i obsługuje az, o ile region świadczenia usługi Azure ma obsługę az.

    Poniższe regiony nie obsługują az:

    Ameryka Północna i Południowa Europa Bliski Wschód Afryka Azja i Pacyfik
    Zachodnie stany USA Niemcy Północne
  • Niektóre jednostki SKU maszyn wirtualnych mogą nie obsługiwać wszystkich stref dostępności w regionie. W przypadku wybrania tych jednostek SKU usługa HDInsight w pulach klastrów lub klastrach usługi AKS nie obsługuje odpowiednich stref dostępności.

Ulepszenia umowy SLA

Nie ma żadnych zwiększonych umów SLA dla usługi Azure HDInsight w klastrach usługi AKS z włączonymi strefami dostępności.

Tworzenie zasobu z włączoną strefą dostępności

  • Pule klastrów Możesz wybrać co najmniej jedną strefę dostępności podczas tworzenia puli klastrów po wybraniu regionu.

  • Klastry Można wybrać co najmniej jedną strefę dostępności podczas tworzenia klastra.

Odporność na uszkodzenia

Aby przygotować się do awarii strefy dostępności, zaleca się nadmierną aprowizację pojemności usługi w celu zapewnienia, że klaster może tolerować utratę pojemności z jednej strefy dostępności w dół i nadal działać bez obniżonej wydajności podczas awarii całego obszaru strefy. Jeśli na przykład włączysz 3 strefy dostępności, klaster powinien tolerować 1/3 węzłów w dół (zaokrąglić do najbliższej liczby całkowitej).

Środowisko strefowe w dół

Usługa Azure HDInsight w usłudze AKS jest strefowo nadmiarowa. Podczas awarii całej strefy klient powinien oczekiwać spadku wydajności z powodu spadku pojemności. Klienci nadal mogą tworzyć nowe pule klastrów i klastry w strefach dostępności, które nie mają wpływu. Istniejące klastry mogą działać z ograniczoną pojemnością. Poszczególne zalecenia i najlepsze rozwiązania dotyczące obciążeń typu open source znajdują się w dokumentacji.

Ciągłość biznesowa i odzyskiwanie po awarii

Odzyskiwanie po awarii dotyczy odzyskiwania po wystąpieniu zdarzeń o dużym wpływie, takich jak klęski żywiołowe lub nieudane wdrożenia, które powodują przestoje i utratę danych. Niezależnie od przyczyny najlepszym rozwiązaniem dla awarii jest dobrze zdefiniowany i przetestowany plan odzyskiwania po awarii oraz projekt aplikacji, który aktywnie obsługuje odzyskiwanie po awarii. Zanim zaczniesz myśleć o tworzeniu planu odzyskiwania po awarii, zobacz Zalecenia dotyczące projektowania strategii odzyskiwania po awarii.

Jeśli chodzi o odzyskiwanie po awarii, firma Microsoft korzysta z modelu wspólnej odpowiedzialności. W modelu wspólnej odpowiedzialności firma Microsoft zapewnia dostępność infrastruktury bazowej i usług platformy. Jednocześnie wiele usług platformy Azure nie replikuje automatycznie danych ani nie wraca z regionu, w którym wystąpił błąd, aby przeprowadzić replikację krzyżową do innego regionu z włączoną obsługą. W przypadku tych usług ponosisz odpowiedzialność za skonfigurowanie planu odzyskiwania po awarii, który działa dla obciążenia. Większość usług uruchamianych na platformie Azure jako usługa (PaaS) oferuje funkcje i wskazówki dotyczące obsługi odzyskiwania po awarii. Funkcje specyficzne dla usługi umożliwiają szybkie odzyskiwanie w celu ułatwienia opracowania planu odzyskiwania po awarii.

Usługa Azure HDInsight w usłudze AKS płaszczyzny sterowania i bazy danych są wdrażane w różnych regionach świadczenia usługi Azure. Wśród tych regionów usługa Azure HDInsight w wystąpieniach usługi AKS i wystąpieniach bazy danych jest izolowana. Gdy wystąpi awaria na poziomie regionu, jeden region nie działa. Wszystkie zasoby w tym regionie, w tym rp (dostawca zasobów) usługi Azure HDInsight na płaszczyźnie sterowania usługi AKS, baza danych usługi Azure HDInsight na płaszczyźnie sterowania usługi AKS i wszystkie klastry klientów w tym regionie. W takim przypadku możemy poczekać tylko na zakończenie regionalnej awarii. Gdy awaria strefowa zostanie w pełni odzyskana, usługa Azure HDInsight w usłudze AKS powraca, a wszystkie klastry klientów wracają do normalności. Istnieje możliwość wystąpienia niektórych problemów z powodu niespójności danych po awarii i może być konieczne ręczne naprawienie na podstawie obciążeń aplikacji.

Odzyskiwanie po awarii w wielu regionach

Usługa Azure HDInsight w usłudze AKS obecnie nie obsługuje trybu failover między regionami. Zwiększenie ciągłości działalności biznesowej przy użyciu odzyskiwania po awarii o wysokiej dostępności między regionami wymaga projektów architektury o większej złożoności i wyższych kosztach. Klienci mogą zdecydować się na zaprojektowanie własnego rozwiązania w celu utworzenia kopii zapasowej kluczowych danych i stanu zadania w różnych regionach.

Wykrywanie, powiadamianie i zarządzanie awariami

  • Użyj narzędzi do monitorowania platformy Azure w usłudze HDInsight w usłudze AKS, aby wykryć nietypowe zachowanie w klastrze i ustawić odpowiednie powiadomienia o alertach. Usługę Log Analytics można włączyć na różne sposoby i używać zarządzanej usługi Prometheus z pulpitami nawigacyjnymi usługi Azure Grafana do monitorowania. Aby uzyskać więcej informacji, zobacz Integracja z usługą Azure Monitor.

  • Subskrybuj alerty dotyczące kondycji platformy Azure, aby otrzymywać powiadomienia o problemach z usługą, planowanej konserwacji, kondycji i biuletynach zabezpieczeń dla subskrypcji, usługi lub regionu. Powiadomienia o kondycji, które obejmują przyczynę problemu i zdecydowaną ETA, pomagają lepiej wykonywać tryb failover i powroty po awarii. Aby uzyskać więcej informacji, zobacz Zarządzanie kondycją usługi i dokumentacją usługi Azure Service Health.

Odzyskiwanie po awarii w jednym regionie

Obecnie usługa Azure HDInsight w usłudze AKS ma tylko jedną standardową ofertę usług, a klastry są tworzone w lokalizacji geograficznej z jednym regionem. Klienci są odpowiedzialni za ustawienia odzyskiwania diasterów na podstawie wymagań aplikacji.

Wydajność i proaktywna odporność odzyskiwania po awarii

Usługa Azure HDInsight w usłudze AKS i jej klienci działają w ramach modelu wspólnej odpowiedzialności, co oznacza, że klient musi spełnić wymagania dotyczące odzyskiwania po awarii dla wdrażanej i kontrolującej usługę. Aby zapewnić proaktywne odzyskiwanie, klienci powinni zawsze wstępnie wdrażać pomocnicze, ponieważ nie ma gwarancji pojemności w czasie wpływu na tych, którzy nie wstępnie przydzielili przydziału.

W przeciwieństwie do usługi HDInsight maszyny wirtualne używane w usłudze HDInsight w klastrach usługi AKS wymagają tego samego limitu przydziału co maszyny wirtualne platformy Azure. Aby uzyskać więcej informacji, zobacz Planowanie pojemności.

Aby dowiedzieć się więcej o elementach omówionych w tym artykule, zobacz: