Partager via


Fiabilité pour le data lakehouse

Les principes architecturaux du pilier fiabilité concernent la capacité d’un système à se remettre d’une panne et à continuer de fonctionner.

Diagramme de l’architecture lakehouse de fiabilité pour Databricks.

Principes de fiabilité

  1. Concevoir en anticipation des défaillances potentielles

    Dans un environnement hautement distribué, des pannes peuvent survenir. Tant pour la plateforme que pour les différentes charges de travail (telles que les tâches de streaming, les tâches par lots, la formation de modèles et les requêtes BI), les pannes doivent être anticipées et des solutions résilientes doivent être développées pour accroître la fiabilité. L'accent est mis sur la conception d'applications permettant une récupération rapide et, dans le meilleur des cas, automatique.

  2. Gérer la qualité des données

    La qualité des données est fondamentale pour en tirer des informations précises et significatives. La qualité des données comporte de nombreuses dimensions, notamment l’exhaustivité, l’exactitude, la validité et la cohérence. Il doit être géré activement pour améliorer la qualité des ensembles de données finaux afin que les données constituent des informations fiables et dignes de confiance pour les utilisateurs professionnels.

  3. Conception pour la mise à l'échelle automatique

    Les processus ETL Standard, les rapports commerciaux et les tableaux de bord ont souvent des besoins en ressources prévisibles en termes de mémoire et de calcul. Cependant, les nouveaux projets, les tâches saisonnières ou les approches avancées telles que la formation de modèles (pour le taux de désabonnement, les prévisions et la maintenance) créent des pics dans les besoins en ressources. Pour qu’une organisation puisse gérer toutes ces charges de travail, elle a besoin d’une plate-forme de stockage et de calcul évolutive. L’ajout de nouvelles ressources selon les besoins doit être simple et seule la consommation réelle doit être facturée. Une fois le pic passé, les ressources peuvent être libérées et les coûts réduits en conséquence. Ceci est souvent appelé mise à l’échelle horizontale (nombre de nœuds) et mise à l’échelle verticale (taille des nœuds).

  4. Procédures de récupération des tests

    Une stratégie de reprise après sinistre à l'échelle de l'entreprise pour la plupart des applications et des systèmes nécessite une évaluation des priorités, des capacités, des limites et des coûts. Une approche fiable de reprise après sinistre teste régulièrement la façon dont les charges de travail échouent et valide les procédures de récupération. Azure Automation peut être utilisée pour simuler différentes pannes ou recréer des scénarios qui ont provoqué des pannes dans le passé.

  5. Automatiser les déploiements et les charges de travail

    L’automatisation des déploiements et des charges de travail pour lakehouse permet de normaliser ces processus, d’éliminer les erreurs humaines, d’améliorer la productivité et de fournir une plus grande répétabilité. Cela inclut l’utilisation de la « configuration en tant que code » pour éviter la dérive de la configuration et l'« infrastructure en tant que code » pour automatiser l’approvisionnement de tous les services lakehouse et cloud requis.

  6. Monitorer les systèmes et les charges de travail

    Les charges de travail dans le lakehouse intègrent généralement les services de plateforme Databricks et les services cloud externes, par exemple en tant que sources ou cibles de données. L’exécution réussie ne peut se produire que si chaque service de la chaîne d’exécution fonctionne correctement. Si ce n’est pas le cas, la surveillance, les alertes et la journalisation sont importantes pour détecter et suivre les problèmes et comprendre le comportement du système.

Suivant : Meilleures pratiques en matière de fiabilité

Consultez Meilleures pratiques pour la fiabilité.