Partager via


Efficacité des performances pour le data lakehouse

Cet article traite des principes architecturaux du pilier de l'efficacité des performances, faisant référence à la capacité d'un système à s'adapter aux variations de charge.

Diagramme d’architecture de Lakehouse d’efficacité des performances pour Databricks.

Principes d’efficacité des performances

  1. Utiliser des architectures serverless

    Les architectures serverless ne nécessitent pas que les clients opèrent et gèrent l’infrastructure informatique dans le cloud. Cela élimine la surcharge opérationnelle de la gestion de l’infrastructure cloud et réduit les coûts de transaction, car les services managés fonctionnent à l’échelle du cloud. Ils fournissent également une disponibilité immédiate, une sécurité prête à l’emploi et nécessitent une configuration ou une administration minimales.

  2. Concevoir des charges de travail pour la performance

    Pour les charges de travail répétées, telles que les pipelines de l'ingénierie des données, les performances ne doivent jamais être négligées. Les données doivent être les suivantes :

    • Lecture efficace à partir de la mémoire de l’objet.
    • Transformé efficacement.
    • Publié efficacement pour la consommation.

    En outre, la plupart des pipelines ou modèles de consommation utilisent une chaîne de systèmes. Pour obtenir les meilleures performances possibles, l’ensemble de la chaîne doit être considéré et sélectionné pour obtenir les meilleures performances.

  3. Exécuter des tests de performances dans l’étendue de développement

    Chaque charge de travail de développement doit subir des tests de performances continus. Les tests garantissent que toute modification apportée à la base de code n’affecte pas les performances de la charge de travail. Établissez une planification régulière pour l’exécution de tests. Exécutez le test dans le cadre d’un événement planifié ou dans le cadre d’un pipeline de build d’intégration continue.

    Établissez des bases de référence de performances et déterminez l’efficacité actuelle des charges de travail et l’infrastructure de prise en charge. La mesure des performances par rapport aux bases de référence peut fournir des stratégies d’amélioration et déterminer si l’application répond aux objectifs métier.

    Identifiez les goulots d’étranglement susceptibles d’affecter les performances. Ces goulots d’étranglement peuvent être causés par des erreurs de code ou une mauvaise configuration d’un service. En règle générale, les goulots d’étranglement s’aggravent à mesure que la charge augmente.

  4. Surveiller la performance

    Assurez-vous que les ressources et les services restent accessibles et que les performances répondent aux attentes des utilisateurs ou aux exigences de charge de travail. La surveillance peut vous aider à identifier les goulots d’étranglement ou les ressources insuffisantes, à optimiser les configurations et à détecter les erreurs de pipeline/charge de travail.

Suivant : Meilleures pratiques pour l’efficacité des performances

Consultez Meilleures pratiques pour l’efficacité des performances.