Accélération des requêtes pour les raccourcis OneLake : vue d’ensemble (préversion)
Les raccourcis OneLake sont les références d’un Eventhouse pointant vers Fabric en interne ou des sources externes. On accède plus tard à ce type de raccourci pour les requêtes dans les ensembles de requêtes KQL en utilisant la fonction external_table()
. Les requêtes exécutées sur des raccourcis OneLake peuvent être moins performantes que celles sur les données ingérées directement dans les Eventhouses en raison de différents facteurs, comme les appels réseau pour extraire des données depuis le stockage ou l’absence d’index, entre autres.
L’accélération des requêtes permet de spécifier une stratégie en plus des tables delta externes, qui définit le nombre de jours à mettre en cache les données pour les requêtes hautes performances.
L’accélération des requêtes est prise en charge dans un Eventhouse sur des tables delta depuis les raccourcis OneLake, Azure Data Lake Store Gen1, Amazon S3, Google Cloud Services, les tables externes de stockage Blob Azure et toutes les destinations prises en charge par les raccourcis OneLake.
Important
Cette fonctionnalité est en version préliminaire.
Remarque
Si vous avez des considérations de conformité qui vous obligent à stocker des données dans une région spécifique, vérifiez que la capacité de votre Eventhouse se trouve dans la même région que votre table externe ou vos données de raccourci.
Les tables externes accélérées s’ajoutent au COGS de stockage et à la consommation de stockage SSD de votre Eventhouse, comme les tables régulières de votre base de données KQL. Vous pouvez contrôler la quantité de données à mettre en cache en définissant la propriété Hot dans la stratégie d’accélération de requête. L’activité d’indexation et d’ingestion contribue également à l’utilisation des ressources de calcul.
Quand dois-je utiliser l’accélération des requêtes pour les raccourcis OneLake ?
L’accélération des requêtes met en cache les données à mesure qu’elles arrivent dans OneLake, ce qui offre un niveau de performances comparable à l’ingestion de données dans un Eventhouse. Grâce à cette fonctionnalité, vous pouvez accélérer l’arrivée des données dans OneLake, y compris les données existantes et toutes les nouvelles mises à jour, et vous attendre à un niveau de performance similaire. Cela élimine la nécessité de gérer les pipelines d’ingestion, de conserver des copies en double des données, tout en garantissant que les données restent synchronisées sans effort supplémentaire.
Les scénarios suivants sont idéaux pour utiliser l’accélération des requêtes sur les raccourcis OneLake :
- Interroger des données dans OneLake avec haute performance : lorsqu’il existe des charges de travail qui chargent des données et les gèrent dans le stockage (éventuellement dans un autre cloud ou une autre région), et que vous souhaitez interroger certaines ou toutes les données avec haute performance.
- Combiner des données historiques avec des flux en temps réel : lorsque vous souhaitez combiner en toute transparence l’arrivée des données dans OneLake directement avec des flux en temps réel entrant dans un Eventhouse, sans compromettre les vitesses de requête.
- Tirez profit des données de dimension gérées par d’autres éléments : souvent, des données à valeur élevée et de petits volumes sont hébergées dans des serveurs SQL, dans Cosmos DB, dans Snowflake ou dans d’autres systèmes pouvant être mis en miroir dans OneLake. Les raccourcis OneLake accélérés peuvent rendre ces données facilement consommables pour les jointures et l’enrichissement dans la requête Eventhouse. Les données de dimension étant souvent beaucoup moins volumineuses que les données d’activité, le coût supplémentaire associé à cette utilisation est généralement minimal.
Comportement des tables delta externes accélérées
Les raccourcis OneLake accélérés se comportent comme des tables externes, avec les mêmes limitations et fonctionnalités. Plus précisément, des fonctionnalités telles que la vue matérialisée et les stratégies de mise à jour ne sont pas prises en charge.
Surveiller le comportement d’accélération
Le processus initial d’accélération des requêtes dépend de la taille de la table externe. Pour surveiller la progression et les paramètres d’une table accélérée, utilisez la commande .show external table operations query_acceleration statistics dans un ensemble de requêtes KQL.
Limites
- Le nombre de colonnes de la table externe ne peut pas dépasser 900.
- Le niveau de performance des requêtes sur les tables delta externes accélérées qui ont des partitions peut ne pas être optimal durant la préversion.
- La fonctionnalité suppose que les tables delta avec des fonctionnalités avancées statiques, par exemple que le mappage de colonnes ne change pas ou que les partitions ne changent pas, entre autres. Pour modifier les fonctionnalités avancées, désactivez d’abord la stratégie et une fois la modification effectuée, réactivez la stratégie.
- Les modifications de schéma sur la table delta doivent également être suivies avec le schéma de table delta externe respectif
.alter
, ce qui peut entraîner l’accélération à partir de zéro en cas de changement de schéma cassant. - Le nettoyage basé sur les index n’est pas pris en charge pour les partitions.
- Les fichiers Parquet dont la taille compressée est supérieure à 6 Go ne seront pas mis en cache.
Billing
Les données accélérées sont facturées sous le compteur de cache OneLake Premium, comme le sont les tables Eventhouse natives. Vous pouvez contrôler la quantité de données accélérées en configurant le nombre de jours de mise en cache. L’activité d’indexation peut également compter dans la consommation d’unités de capacité. Pour plus d’informations, consultez Facturation du stockage.
Les frais liés à l’accélération des requêtes afficheront dans l’application des mesures Fabric, sous l’Eventhouse où le raccourci accéléré est créé.