Freigeben über


Optimaler Betrieb für das Data Lakehouse

Die architektonischen Prinzipien der Säule optimaler Betrieb decken alle operativen Prozesse ab, die das Lakehouse am laufen lassen. Optimaler Betrieb befasst sich mit der Fähigkeit, das Lakehouse effizient zu betreiben und zu diskutieren, wie das Lakehouse betrieben, verwaltet und überwacht wird, um den Geschäftswert zu erzielen.

Operational excellence lakehouse architecture diagram for Databricks.

Grundsätze des optimalen Betriebs

  1. Optimieren von Build- und Releaseprozessen

    Verwenden Sie bewährte Methoden für Softwareentwicklung in Ihrer gesamten Lakehouse-Umgebung. Arbeiten Sie mit Build- und Releaseprozessen mit CI/CD-Pipelines für DevOps und MLOps.

  2. Automatisieren von Bereitstellungen und Workloads

    Durch die Automatisierung von Bereitstellungen und Arbeitslasten für das Lakehouse werden diese Prozesse standardisiert, menschliche Fehler beseitigt, die Produktivität verbessert und eine größere Wiederholbarkeit gewährleistet. Dazu gehört die Verwendung von „Konfiguration als Code“, um Konfigurationsabweichungen zu vermeiden, und „Infrastruktur als Code“, um die Bereitstellung aller erforderlichen Lakehouse- und Clouddienste zu automatisieren.

    Für ML sollten Prozesse die Automatisierung fördern: Nicht jeder Schritt eines Prozesses kann oder sollte automatisiert werden. Mitarbeiter bestimmen immer noch die Geschäftsfragen, und einige Modelle benötigen vor der Bereitstellung immer eine menschliche Aufsicht. Daher ist der Entwicklungsprozess primär, und jedes Modul im Prozess sollte bei Bedarf automatisiert werden. Dies ermöglicht das inkrementelle Erstellen von Automatisierung und Anpassung.

  3. Einrichten von Überwachung, Warnungen und Protokollierung

    Workloads im Lakehouse integrieren in der Regel Databricks-Plattformdienste und externe Clouddienste, z. B. Datenquellen oder -ziele. Erfolgreiche Ausführung ist nur möglich, wenn jeder Dienst in der Ausführungskette ordnungsgemäß funktioniert. Wenn dies nicht der Fall ist, sind Überwachung, Warnung und Protokollierung wichtig, um Probleme zu erkennen und zu verfolgen und das Systemverhalten zu verstehen.

  4. Verwalten von Kapazität und Kontingenten

    Für jeden Dienst, der in einer Cloud gestartet wird, sollten Sie Grenzwerte berücksichtigen, z. B. Grenzwerte für Zugriffsrate, Anzahl von Instanzen, Anzahl von Benutzern und Arbeitsspeicheranforderungen. Vor dem Entwerfen einer Lösung müssen diese Grenzwerte verstanden werden.

Als nächstes: Bewährte Methoden für optimalen Betrieb

Weitere Informationen finden Sie unter Bewährte Methoden für optimalen Betrieb.