Excellence opérationnelle pour le data lakehouse
Les principes architecturaux du pilier de l’excellence opérationnelle couvrent tous les processus opérationnels qui maintiennent l’exécution du lac. L’excellence opérationnelle s’adresse à la capacité d’exploiter efficacement le lakehouse et à discuter de l’exploitation, de la gestion et du suivi du lakehouse pour offrir une valeur commerciale.
Principes d’excellence opérationnelle
Optimiser les processus de build et de mise en production
Utilisez les meilleures pratiques en matière d’ingénierie logicielle dans l’ensemble de votre environnement lakehouse. Générez et publiez à l’aide de pipelines d’intégration continue et de livraison continue pour DevOps et MLOps.
Automatiser les déploiements et les charges de travail
L’automatisation des déploiements et des charges de travail pour lakehouse permet de normaliser ces processus, d’éliminer les erreurs humaines, d’améliorer la productivité et de fournir une plus grande répétabilité. Cela inclut l’utilisation de la « configuration en tant que code » pour éviter la dérive de la configuration et l'« infrastructure en tant que code » pour automatiser l’approvisionnement de tous les services lakehouse et cloud requis.
Pour le Machine Learning en particulier, les processus doivent conduire à l’automatisation : pas chaque étape d’un processus peut ou doit être automatisée. Les personnes déterminent toujours les questions métier, et certains modèles auront toujours besoin d’une supervision humaine avant le déploiement. Par conséquent, le processus de développement est principal et chaque module du processus doit être automatisé en fonction des besoins. Cela permet une génération incrémentielle de l’automatisation et de la personnalisation.
Configurer la surveillance, l’alerte et la journalisation
Les charges de travail dans le lakehouse intègrent généralement les services de plateforme Databricks et les services cloud externes, par exemple en tant que sources ou cibles de données. L’exécution réussie ne peut se produire que si chaque service de la chaîne d’exécution fonctionne correctement. Si ce n’est pas le cas, la surveillance, les alertes et la journalisation sont importantes pour détecter et suivre les problèmes et comprendre le comportement du système.
Gérer la capacité et les quotas
Pour tout service lancé dans un cloud, prenez en compte les limites, par exemple les limites de débit d’accès, le nombre d’instances, le nombre d’utilisateurs et les besoins en mémoire. Avant de concevoir une solution, ces limites doivent être comprises.
Suite : Meilleures pratiques pour une excellence opérationnelle
Voir Meilleures pratiques pour une excellence opérationnelle.