Comment fonctionne Azure Data Explorer
Azure Data Explorer offre des performances inégalées pour l’ingestion et l’interrogation des données de télémétrie, journaux, événements, traces et données de série chronologique. Il propose des formats de stockage optimisés, des index et utilise des statistiques de données avancées pour une planification efficace des requêtes et une exécution de requête compilée juste-à-temps.
Stockage et calcul
Azure Data Explorer sépare le stockage et les ressources de calcul. Les données persistantes résident dans Stockage Blob Azure, tandis que les ressources de calcul peuvent stocker des données temporaires ou agir en tant que cache pour le stockage persistant.
Cette séparation offre les avantages suivants :
- Scale-out indépendant des ressources de stockage et de calcul.
- Accessibilité aux données identiques sur plusieurs clusters de calcul. Pour plus d’informations, consultez Partage de données.
- Optimisation de la référence SKU. Pour plus d’informations, consultez Sélectionner une référence SKU pour votre cluster.
Stockage des données
Azure Data Explorer partitionne toutes les données ingérées dans des étendues ou des partitions de données, qui sont des tranches horizontales de la table cible. Une extension peut commencer aussi petite qu’un enregistrement unique. À mesure que les données s’accumulent dans la table, Azure Data Explorer fusionne automatiquement les étendues jusqu’à ce qu’elles atteignent des millions d’enregistrements. Chaque extension est encodée et indexée indépendamment d’autres étendues. Cette fonctionnalité contribue au débit d’ingestion de l’ingestion à l’échelle linéaire.
Les étendues sont réparties uniformément entre les nœuds de cluster, où elles sont mises en cache à la fois sur le disque SSD local et en mémoire. Cette distribution améliore la capacité de préparation et d’exécution de requêtes hautement distribuées et parallèles.
Pour plus d’informations sur le stockage de données, consultez vue d’ensemble des étendues.
Remarque
Azure Data Explorer conserve également les métadonnées essentielles telles que les schémas de table et les objets de stratégie. Pour obtenir la liste des stratégies, consultez Vue d’ensemble des stratégies.
Cache de données
Azure Data Explorer dispose d’un système de cache de données multi-hiérarchie pour s’assurer que les données les plus pertinentes sont mises en cache aussi étroitement que possible sur le processeur. Le système de cache dépend de l’immuabilité des étendues et fonctionne entièrement avec des données compressées. Pour améliorer les performances des requêtes, les données restent compressées même dans la RAM et ne sont compressées que si nécessaire pour une requête.
Pour plus d’informations sur la mise en cache, consultez Stratégie de cache.
Indexation de texte
Azure Data Explorer est conçu pour indexer efficacement des colonnes de texte libre (chaîne) et JSON (dynamiques), car les données sont ingérées. Les index conservent un niveau de granularité qui permet l’évaluation des parties de la requête en fonction de l’index sans analyser les données.
L’optimisation continue des étendues en arrière-plan grâce à la fusion améliore la compression et l’indexation, ce qui garantit un stockage efficace et une faible latence des requêtes. Une fois que les étendues atteignent une certaine taille, seuls les index sont fusionnés pour améliorer les performances des requêtes sans compromettre l’efficacité.
Pour plus d’informations sur l’étendue et la fusion d’index, consultez Stratégie de fusion.
Magasin de lignes
Azure Data Explorer offre une solution de stockage intermédiaire appelée magasin de lignes. Le magasin de lignes permet l’apport efficace de petites parties de données et garantit que ces données sont immédiatement disponibles pour la requête. Lorsque vous activez l’ingestion de streaming sur votre cluster, les données sont initialement ingérées dans le magasin de lignes, puis déplacées vers des étendues de magasin de colonnes.
Pour plus d’informations, consultez Batching et ingestion de streaming.
Compression de colonne
Azure Data Explorer gère les données dans un état compressé, ce qui réduit la quantité de mémoire requise pour stocker et traiter les données. Ce comportement entraîne des performances de requête plus rapides et une utilisation plus efficace des ressources système.
Azure Data Explorer évite la compression verticale, ce qui implique le tri des données pour améliorer la compression, en raison de son coût processeur élevé dans les scénarios de données de texte libre ou semi-structuré. Au lieu de cela, vous pouvez spécifier l’ordre de tri de données préféré pour les scénarios avec des modèles de requête dominants. Ce compromis hiérarchise la disponibilité rapide des données pour les requêtes.
Pour plus d’informations sur la spécification de l’ordre de tri des données, consultez la stratégie d’ordre des lignes.
Requête de données distribuées
Azure Data Explorer utilise la technologie de requête de données distribuées destinée à une analytique ad hoc rapide sur de grands jeux de données non structurés. Les principales fonctionnalités de cette technologie sont les suivantes :
- Les données temporaires générées par une requête sont stockées dans la RAM agrégée
- Les étendues pertinentes sont marquées sur un plan de requête, fournissant une isolation d’instantané
- Les requêtes rapides et efficaces sont classées par ordre de priorité avec des délais d’attente par défaut courts
- Prise en charge native des requêtes entre clusters qui réduisent l’échange de données entre clusters
- Les requêtes sont compilées juste-à-temps en code machine hautement efficace, à l’aide de statistiques de données de toutes les étendues et adaptées aux spécificités d’encodage de colonne
Remarque
Azure Data Explorer est conçu pour fonctionner avec le Langage de requête Kusto (KQL) personnalisé pour Azure Data Explorer. En outre, T-SQL est pris en charge.