Delen via


Betrouwbaarheid voor data lakehouse

De architectuurprincipes van de betrouwbaarheidspijler hebben betrekking op de mogelijkheid van een systeem om te herstellen van storingen en te blijven functioneren.

Diagram van Reliability Lakehouse-architectuur voor Databricks.

Principes van betrouwbaarheid

  1. Ontwerp voor fout

    In een zeer gedistribueerde omgeving kunnen storingen optreden. Voor zowel het platform als de verschillende workloads, zoals streamingtaken, batchtaken, modeltraining en BI-query's, moeten fouten worden verwacht en moeten robuuste oplossingen worden ontwikkeld om de betrouwbaarheid te vergroten. De focus ligt op het ontwerpen van toepassingen om snel en in het beste geval automatisch te herstellen.

  2. Gegevenskwaliteit beheren

    Gegevenskwaliteit is essentieel voor het afleiden van nauwkeurige en zinvolle inzichten uit gegevens. Gegevenskwaliteit heeft veel dimensies, waaronder volledigheid, nauwkeurigheid, geldigheid en consistentie. Het moet actief worden beheerd om de kwaliteit van de uiteindelijke gegevenssets te verbeteren, zodat de gegevens dienen als betrouwbare en betrouwbare informatie voor zakelijke gebruikers.

  3. Ontwerpen voor automatisch schalen

    Standaard ETL-processen, bedrijfsrapporten en dashboards hebben vaak voorspelbare resourcevereisten in termen van geheugen en rekenkracht. Nieuwe projecten, seizoenstaken of geavanceerde benaderingen zoals modeltraining (voor verloop, prognose en onderhoud) maken echter pieken in resourcevereisten. Een organisatie heeft een schaalbaar opslag- en rekenplatform nodig om al deze workloads af te handelen. Het toevoegen van nieuwe resources moet eenvoudig zijn en alleen het werkelijke verbruik moet in rekening worden gebracht. Zodra de piek voorbij is, kunnen resources worden vrijgemaakt en de kosten dienovereenkomstig worden verlaagd. Dit wordt vaak aangeduid als horizontaal schalen (aantal knooppunten) en verticaal schalen (grootte van knooppunten).

  4. Testherstelprocedures

    Een bedrijfsbrede strategie voor herstel na noodgevallen voor de meeste toepassingen en systemen vereist een beoordeling van prioriteiten, mogelijkheden, beperkingen en kosten. Een betrouwbare benadering voor herstel na noodgevallen test regelmatig hoe workloads mislukken en herstelprocedures valideren. Automatisering kan worden gebruikt om verschillende fouten te simuleren of scenario's te maken die in het verleden fouten hebben veroorzaakt.

  5. Implementaties en workloads automatiseren

    Het automatiseren van implementaties en workloads voor lakehouse helpt deze processen te standaardiseren, menselijke fouten te elimineren, de productiviteit te verbeteren en meer herhaalbaarheid te bieden. Dit omvat het gebruik van 'configuratie als code' om configuratiedrift te voorkomen en 'infrastructuur als code' om het inrichten van alle vereiste lakehouse- en cloudservices te automatiseren.

  6. Systemen en workloads bewaken

    Workloads in lakehouse integreren doorgaans Databricks-platformservices en externe cloudservices, bijvoorbeeld als gegevensbronnen of doelen. Geslaagde uitvoering kan alleen optreden als elke service in de uitvoeringsketen goed functioneert. Als dit niet het geval is, zijn bewaking, waarschuwingen en logboekregistratie belangrijk om problemen te detecteren en bij te houden en het gedrag van het systeem te begrijpen.

Volgende: Best practices voor betrouwbaarheid

Zie best practices voor betrouwbaarheid.