Zuverlässigkeit in Azure HDInsight in Azure Kubernetes Service
Hinweis
Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um eine abruptes Beendigung Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.
Bis zum Einstellungsdatum ist nur grundlegende Unterstützung verfügbar.
Wichtig
Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.
In diesem Artikel wird die Unterstützung von Zuverlässigkeit in Azure HDInsight für Azure Kubernetes Service (AKS) beschrieben. Er umfasst auch die Notfallwiederherstellung und Geschäftskontinuität.
Unterstützung für Verfügbarkeitszonen
Verfügbarkeitszonen sind physisch getrennte Gruppen von Rechenzentren innerhalb einer Azure-Region. Wenn eine Zone ausfällt, erfolgt ein Failover der Dienste zu einer der verbleibenden Zonen.
Weitere Informationen zu Verfügbarkeitszonen in Azure finden Sie unter Was sind Verfügbarkeitszonen?.
Azure HDInsight auf AKS unterstützt Verfügbarkeitszonen, indem es die Fähigkeit von Azure Kubernetes Service nutzt, zonenredundante Knotenpools zu erstellen. Sie können auswählen, in welchen Verfügbarkeitszonen der Cluster-Pool und der Cluster bei der Erstellung bereitgestellt werden sollen. Sobald der Cluster-Pool oder Cluster erstellt ist, können Sie die Verfügbarkeitszonen nicht mehr ändern.
Voraussetzungen
Verfügbarkeitszonen werden nur für Clusterpoolversion >=
1.2
und Clusterversion >=1.2.1
unterstützt.Azure HDInsight auf AKS hat nur eine Standard-SKU und unterstützt AZ, solange die Azure-Region AZ-Unterstützung bietet.
Die unten aufgeführten Regionen unterstützen AZ nicht:
Amerika Europa Naher Osten Afrika Asien-Pazifik USA (Westen) Deutschland, Norden Einige VM-SKUs unterstützen möglicherweise nicht alle Verfügbarkeitszonen in einer Region. Wenn Sie diese SKUs auswählen, unterstützt HDInsight auf AKS-Cluster-Pools oder -Clustern auch keine entsprechenden Verfügbarkeitszonen.
SLA-Verbesserungen
Es gibt keine erhöhten SLAs für Azure HDInsight auf AKS-Clustern mit aktivierten Verfügbarkeitszonen.
Erstellen einer Ressource mit aktivierter Verfügbarkeitszone
Clusterpools Sie können bei der Erstellung von Clusterpools eine oder mehrere Verfügbarkeitszonen auswählen, nachdem Sie die Region ausgewählt haben.
Cluster Sie können bei der Erstellung von Clustern eine oder mehrere Verfügbarkeitszonen auswählen.
Fehlertoleranz
Um sich auf den Ausfall einer Verfügbarkeitszone vorzubereiten, empfiehlt es sich, eine Überkapazität an Diensten bereitzustellen, um sicherzustellen, dass Ihr Cluster den Kapazitätsverlust durch den Ausfall einer Verfügbarkeitszone verkraften kann und während zonenweiter Ausfälle ohne Leistungseinbußen weiter funktioniert. Wenn Sie z. B. 3 Verfügbarkeitszonen aktivieren, sollte Ihr Cluster einen Ausfall von 1/3 der Knoten tolerieren (aufgerundet auf die nächste ganze Zahl).
Zonenausfall
Der Dienst Azure HDInsight für AKS ist zonenredundant. Während eines zonenweiten Ausfalls sollte die Kundin oder der Kunde mit Leistungsminderung aufgrund von Kapazitätsverlusten rechnen. Kundinnen und Kunden können weiterhin neue Clusterpools und Cluster in den Verfügbarkeitszonen erstellen, die nicht betroffen sind. Vorhandene Cluster können mit reduzierter Kapazität funktionieren. In der Dokumentation werden Empfehlungen und bewährte Methoden für einzelne Open Source-Workloads bereitgestellt.
Notfallwiederherstellung und Geschäftskontinuität
Bei der Notfallwiederherstellung (DR) geht es um die Wiederherstellung nach Ereignissen mit schwerwiegenden Auswirkungen, z. B. Naturkatastrophen oder fehlerhaften Bereitstellungen, die zu Downtime und Datenverlust führen. Unabhängig von der Ursache ist das beste Mittel gegen einen Notfall ein gut definierter und getesteter Notfallplan und ein Anwendungsdesign, die Notfallwiederherstellung aktiv unterstützt. Bevor Sie mit der Erstellung Ihres Notfallwiederherstellungsplans beginnen, lesen Sie die Empfehlungen zum Entwerfen einer Notfallwiederherstellungsstrategie.
Bei DR verwendet Microsoft das Modell der gemeinsamen Verantwortung. In einem Modell der gemeinsamen Verantwortung stellt Microsoft sicher, dass die grundlegenden Infrastruktur- und Plattformdienste verfügbar sind. Gleichzeitig replizieren viele Azure-Dienste nicht automatisch Daten oder greifen automatisch auf eine ausgefallene Region zurück, um eine regionsübergreifende Replikation in eine andere aktivierte Region durchzuführen. Für diese Dienste sind Sie dafür verantwortlich, einen Notfallwiederherstellungsplan zu erstellen, der für Ihre Workload geeignet ist. Die meisten Dienste, die auf Azure Platform as a Service (PaaS)-Angeboten laufen, bieten Funktionen und Anleitungen zur Unterstützung von Notfallwiederherstellung und Sie können dienstspezifische Funktionen zur Unterstützung einer schnellen Wiederherstellung nutzen, um Ihren Notfallwiederherstellungsplan zu entwickeln.
Azure HDInsight wird in AKS-Steuerungsebene-Diensten und -Datenbanken in allen Regionen von Azure bereitgestellt. In diesen Regionen sind die Instanzen und Datenbankinstanzen von Azure HDInsight in AKS isoliert. Wenn ein Ausfall auf Ebene einer Region auftritt, ist eine Region ausgefallen. Alle Ressourcen in dieser Region, einschließlich RP (Resource Provider) von Azure HDInsight in AKS-Steuerungsebene, die Datenbank von Azure HDInsight in der AKS-Steuerungsebene und alle Kundencluster in dieser Region. In diesem Fall kann man nur warten, bis der Ausfall in der Region endet. Wenn der zonale Ausfall vollständig wiederhergestellt wird, ist Azure HDInsight auf dem AKS-Dienst wieder vorhanden, und alle Kundencluster sind wieder normal. Es ist möglich, dass nach dem Ausfall Probleme aufgrund von Dateninkonsistenzen auftreten und eine manuelle Korrektur auf der Grundlage Ihrer Anwendungsworkloads erforderlich ist.
Notfallwiederherstellung in mehreren Regionen
Azure HDInsight in AKS unterstützt derzeit kein regionsübergreifendes Failover. Für eine Verbesserung der Geschäftskontinuität mithilfe von regionsübergreifender Notfallwiederherstellung mit Hochverfügbarkeit sind komplexere und mit höheren Kosten verbundene Architekturstrukturen erforderlich. Kunden können ihre eigene Lösung entwickeln, um wichtige Daten und den Auftragsstatus in verschiedenen Regionen zu sichern.
Erkennung, Benachrichtigung und Verwaltung von Ausfällen
Verwenden Sie die Azure-Überwachungstools in HDInsight in AKS, um ungewöhnliches Verhalten im Cluster zu erkennen und entsprechende Warnmeldungen festzulegen. Sie können Log Analytics auf verschiedene Weise aktivieren und den verwalteten Prometheus-Dienst mit Azure Grafana-Dashboards für die Überwachung verwenden. Weitere Informationen finden Sie unter Azure Monitor-Integration.
Abonnieren Sie Azure-Integritätswarnungen, um über Dienstprobleme, geplante Wartungen sowie Integritäts- und Sicherheitsempfehlungen für ein Abonnement, einen Dienst oder eine Region benachrichtigt zu werden. Integritätsbenachrichtigungen, die die Problemursache und eine feste ETA enthalten, helfen Ihnen bei der besseren Ausführung von Failovern und Failbacks. Weitere Informationen finden Sie unter Service Health verwalten in der Dokumentation zu Azure Service Health.
Notfallwiederherstellung für eine einzelne Region
Derzeit verfügt Azure HDInsight in AKS nur über ein Standarddienstangebot, und Cluster werden in einer einzigen Region dargestellt. Kundinnen und Kunden sind für die Einstellungen zur Wiederherstellung nach einem Katastrophenfall je nach den Anforderungen der Anwendung verantwortlich.
Kapazität und proaktive Resilienz der Notfallwiederherstellung
Azure HDInsight in AKS und seine Kunden verwenden das Modell der gemeinsamen Verantwortung. Das heißt, dass die Kundin bzw. der Kunde für die Anforderungen der Notfallwiederherstellung für den Dienst verantwortlich ist, den sie oder er bereitstellt und steuert. Um sicherzustellen, dass die Wiederherstellung proaktiv ist, sollten Kunden Sekundärdateien immer vorab bereitstellen, da es keine Kapazitätsgarantie zur Zeit der Auswirkungen für diejenigen gibt, die nicht vorab zugewiesen wurden.
Im Gegensatz zu HDInsight benötigen die in HDInsight auf AKS-Clustern verwendeten VMs das gleiche Kontingent wie Azure-VMs. Weitere Informationen finden Sie unter Kapazitätsplanung.
Zugehöriger Inhalt
Weitere Informationen zu den in diesem Artikel erörterten Themen finden Sie unter: