Activer des statistiques d’analyse pour les requêtes
Remarque
Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.
Seul le support de base est disponible jusqu’à la date de mise hors service.
Important
Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.
Les équipes de données sont souvent tenues d’examiner les performances ou d’optimiser les requêtes afin d’améliorer l’utilisation des ressources ou de répondre aux besoins de l’entreprise.
Une nouvelle capacité a été ajoutée dans Trino pour HDInsight sur AKS afin de permettre à l’utilisateur de capturer des statistiques d’analyse pour n’importe quel connecteur. Cette fonctionnalité fournit des insights plus approfondis sur un profil de performances des requêtes, au-delà de ce qui est disponible dans les statistiques produites par Trino.
Vous pouvez activer cette fonctionnalité à l’aide de la propriété de session collect_raw_scan_statistics
et en suivant la commande Trino :
SET SESSION collect_raw_scan_statistics=true
Une fois activés, les opérateurs sources de la requête comme TableScanOperator
, ScanFilterAndProject
, etc. ont des statistiques sur les analyses de données, la granularité est fonction de l’instance de l’opérateur d’un pipeline.
Conseil
Les statistiques d’analyse sont utiles pour identifier les goulots d’étranglement, lorsque le cluster ou la requête n’est pas limité par le processeur et que la lecture des performances de la requête doit être examinée. Cela permet également de comprendre le profil d’exécution de la requête, du point de vue du niveau fractionné.
Remarque
Le nombre capturé de fractionnements par worker est actuellement limité à 1 000 en raison de contraintes liées à la taille des données produites. Si le nombre de fractionnements par worker pour la requête dépasse cette limite, les 1 000 plus longs fractionnements en cours d’exécution sont retournés.
Comment accéder aux statistiques d’analyse
Une fois la propriété de session définie, les requêtes suivantes de la session entament la capture des statistiques à partir d’opérateurs sources, chaque fois qu’elles sont disponibles. Les utilisateurs peuvent consommer et analyser de plusieurs manières les statistiques d’analyse générées pour une requête.
Interroger Json
L’onglet Json de la page détails de la requête fournit la représentation JSON de la requête qui contient des statistiques sur chaque étape, chaque pipeline de la requête. Lorsque la propriété de session est définie, le fichier json inclut un nouveau champ scanStats
dans queryStats.operatorSummaries[*]
. Le tableau contient un objet par instance de l’opérateur.
L’exemple suivant montre un fichier json pour une requête à l’aide de hive connector
et des statistiques d’analyse activées.
Remarque
Le résumé des statistiques d’analyse contient splitInfo qui est rempli par le connecteur. Cela permet aux utilisateurs de contrôler les informations sur le magasin à inclure dans leurs connecteurs personnalisés.
IU de statistiques d’analyse
Un nouvel onglet appelé Scan Stats
se trouve dans la page détails de la requête qui visualise les statistiques produites par cette fonctionnalité et fournit des insights sur les performances fractionnées de chaque worker. La page permet aux utilisateurs d’afficher le profil d’exécution de Trino pour la requête avec des informations comme les lectures simultanées au fil du temps et le débit.
L’exemple suivant montre une page pour une requête avec des statistiques d’analyse activées.
Utilisation de l’enregistreur d’événements Microsoft Query**
L’enregistreur d’événements Microsoft Query prend en charge de manière native cette fonctionnalité. Lorsque cette fonctionnalité est activée, le plug-in enregistreur de requêtes remplit une table appelée operatorstats
avec la table d’événements de la requête. Cette table est dénormalisée afin que chaque instance d’opérateur occupe une ligne pour chaque requête.