Comprendre les fonctionnalités des pools SQL serverless Azure Synapse et les cas d’usage

Effectué

Azure Synapse Analytics est un service d’analytique intégré qui regroupe un large éventail de technologies couramment utilisées pour le traitement et l’analyse des données à grande échelle. L’une des technologies les plus utilisées dans les solutions de données est le langage SQL, qui est un langage standard permettant d’interroger et de manipuler les données.

Pools SQL serverless dans Azure Synapse Analytics

Azure Synapse SQL est un système de requête distribué Azure Synapse Analytics qui offre deux types d’environnements d’exécution :

  • Pool SQL serverless : traitement des requêtes SQL à la demande, principalement utilisé pour les données d’un lac de données.
  • Pool SQL dédié : instances de base de données relationnelle à l’échelle de l’entreprise utilisées pour héberger des entrepôts de données où les données sont stockées dans des tables relationnelles.

Dans ce module, nous allons nous concentrer sur le pool SQL serverless, qui fournit un point de terminaison de paiement à la requête pour interroger les données de votre lac de données. Les avantages d’utiliser un pool SQL serverless sont les suivants :

  • Une syntaxe Transact-SQL familière pour interroger des données sur place sans avoir besoin de les copier ou de les charger dans un magasin spécialisé.
  • Une connectivité intégrée issue d’un large éventail d’outils décisionnels et d’outils de requête ad hoc, y compris les pilotes les plus populaires.
  • Un traitement des requêtes distribuées conçu pour les données à grande échelle et les fonctions de calcul, ce qui améliore les performances de requête.
  • Une tolérance de panne pour l’exécution intégrée des requêtes, ce qui fournit des taux de réussite et de fiabilité élevés, même pour les requêtes longues qui impliquent des jeux de données volumineux.
  • Aucune infrastructure à configurer ni aucun cluster à gérer. Pour ce service, un point de terminaison intégré est fourni dans chaque espace de travail Azure Synapse. Vous pouvez donc commencer à interroger les données dès que l’espace de travail est créé.
  • Aucuns frais pour les ressources réservées. Seules les données traitées par les requêtes que vous exécutez vous sont facturées.

Quand utiliser les pools SQL serverless

Le pool SQL serverless est adapté à l’interrogation des données résidant dans le lac de données. Ainsi, en plus d’éliminer la charge de gestion, il élimine les soucis liés à l’ingestion des données dans le système. Il vous suffit de pointer la requête vers les données qui se trouvent déjà dans le lac et de l’exécuter.

Le modèle de ressource serverless Synapse SQL est idéal pour les charges de travail non planifiées qui peuvent être traitées à l’aide du point de terminaison SQL serverless AlwaysOn dans votre espace de travail Azure Synapse Analytics. L’utilisation du pool serverless est utile quand vous devez connaître le coût exact de chaque requête exécutée afin de monitorer et attribuer les coûts.

Remarque

Le pool SQL serverless est un système d’analytique. Il n’est pas recommandé pour les charges de travail OLTP telles que les bases de données utilisées par les applications pour stocker des données transactionnelles. Il n’est pas non plus adapté aux charges de travail qui nécessitent des temps de réponse de l’ordre de quelques millisecondes et qui cherchent à identifier une seule ligne dans un jeu de données.

Voici des cas d’usage courants pour les pools SQL serverless :

  • Exploration des données : correspond au fait de parcourir le lac de données afin d’obtenir de premiers insights sur les données. L’exploration peut se faire facilement dans Azure Synapse Studio. Vous pouvez parcourir les fichiers de votre stockage Data Lake associé et utiliser le pool SQL serverless intégré pour générer automatiquement un script SQL permettant de sélectionner les 100 premières lignes d’un fichier ou d’un dossier, comme vous le feriez avec une table dans SQL Server. À partir de là, vous pouvez appliquer des projections, un filtrage, un regroupement et la plupart des opérations sur les données comme si ces dernières se trouvaient dans une table SQL Server standard.
  • Transformation des données : même si Azure Synapse Analytics fournit des fonctionnalités de transformation de données intéressantes avec Synapse Spark, certains ingénieurs peuvent trouver que la transformation des données est plus facilement réalisable avec SQL. Le pool SQL serverless vous permet d’effectuer des transformations de données basées sur SQL, que ce soit de manière interactive ou dans le cadre d’un pipeline de données automatisé.
  • Entrepôt de données logiques : après votre première exploration des données du lac de données, vous pouvez définir des objets externes comme des tables et des vues dans une base de données SQL serverless. Les données restent stockées dans les fichiers Data Lake, mais sont abstraites par un schéma relationnel qui peut être utilisé par les applications clientes et les outils analytiques pour interroger les données comme ils le feraient dans une base de données relationnelle hébergée dans SQL Server.