Freigeben über


Zuverlässigkeit für das Data Lakehouse

Die Architekturprinzipien der Zuverlässigkeitssäule befassen sich mit der Fähigkeit eines Systems, sich von Fehlern zu erholen und weiter zu funktionieren.

Zuverlässigkeits-Lakehouse-Architekturdiagramm für Databricks.

Prinzipien der Zuverlässigkeit

  1. Entwurf mit Blick auf Fehler

    In einer stark verteilten Umgebung können Ausfälle auftreten. Sowohl für die Plattform als auch für die verschiedenen Workloads – z. B. Streamingaufträge, Batchaufträge, Modellschulungen und BI-Abfragen – müssen Fehler antizipiert und robuste Lösungen entwickelt werden, um die Zuverlässigkeit zu erhöhen. Der Fokus liegt auf dem Entwicklung von Anwendungen, die sich schnell und im besten Fall automatisch wiederherstellen lassen.

  2. Verwalten der Datenqualität

    Die Datenqualität ist von grundlegender Bedeutung, um genaue und aussagekräftige Erkenntnisse aus Daten zu gewinnen. Die Datenqualität hat viele Dimensionen, einschließlich Vollständigkeit, Genauigkeit, Gültigkeit und Konsistenz. Sie muss aktiv verwaltet werden, um die Qualität der endgültigen Datensätze zu verbessern, damit die Daten als zuverlässige und vertrauenswürdige Informationen für Geschäftsbenutzer*innen dienen.

  3. Entwurf für die automatische Skalierung

    Standard-ETL-Prozesse, Geschäftsberichte und Dashboards verfügen häufig über vorhersehbare Ressourcenanforderungen im Hinblick auf Arbeitsspeicher und Compute. Neue Projekte, saisonbedingte Vorgänge oder fortgeschrittene Ansätze wie Modellschulungen (für Churn, Vorhersagen und Wartung) führen jedoch zu Spitzen bei den Ressourcenanforderungen. Damit eine Organisation all diese Workloads verarbeiten kann, benötigt sie eine skalierbare Speicher- und Computeplattform. Neue Ressourcen müssen bei Bedarf einfach hinzugefügt werden können, und nur der tatsächliche Verbrauch sollte in Rechnung gestellt werden. Sobald der Höchststand überschritten wurde, können Ressourcen freigegeben und die Kosten entsprechend reduziert werden. Dies wird häufig als horizontale Skalierung (Anzahl der Knoten) und vertikale Skalierung (Größe von Knoten) bezeichnet.

  4. Testen von Wiederherstellungsverfahren

    Eine unternehmensweite Notfallwiederherstellungsstrategie für die meisten Anwendungen und Systeme erfordert eine Bewertung der Prioritäten, Funktionen, Einschränkungen und Kosten. Ein zuverlässiger Notfallwiederherstellungsansatz testet regelmäßig, wie Workloads fehlschlagen und überprüft Wiederherstellungsverfahren. Die Automatisierung kann verwendet werden, um verschiedene Fehler zu simulieren oder Szenarien neu zu erstellen, die in der Vergangenheit zu Fehlern geführt haben.

  5. Automatisieren von Bereitstellungen und Workloads

    Durch die Automatisierung von Bereitstellungen und Arbeitslasten für das Lakehouse werden diese Prozesse standardisiert, menschliche Fehler beseitigt, die Produktivität verbessert und eine größere Wiederholbarkeit gewährleistet. Dazu gehört die Verwendung von „Konfiguration als Code“, um Konfigurationsabweichungen zu vermeiden, und „Infrastruktur als Code“, um die Bereitstellung aller erforderlichen Lakehouse- und Clouddienste zu automatisieren.

  6. Überwachen von Systemen und Workloads

    Workloads im Lakehouse integrieren in der Regel Databricks-Plattformdienste und externe Clouddienste, z. B. Datenquellen oder -ziele. Erfolgreiche Ausführung ist nur möglich, wenn jeder Dienst in der Ausführungskette ordnungsgemäß funktioniert. Wenn dies nicht der Fall ist, sind Überwachung, Warnung und Protokollierung wichtig, um Probleme zu erkennen und zu verfolgen und das Systemverhalten zu verstehen.

Nächstes: Bewährte Methoden für Zuverlässigkeit

Siehe Bewährte Methoden für Zuverlässigkeit.