Tutoriel : Analyser des données avec des pools SQL dédiés
Dans ce tutoriel, utilisez les données NYC Taxi pour explorer les fonctionnalités d’un pool SQL dédié.
- [Déployer un pool SQL dédié]
- [Charger des données dans le pool]
- [Explorer les données que vous avez chargées]
Prérequis
- Ce didacticiel part du principe que vous avez effectué les étapes du reste des guides de démarrage rapide. Plus spécifiquement, il utilise la ressource « contosodatalake » créée dans le guide de démarrage rapide Créer un espace de travail Synapse.
Créer un pool SQL dédié
- Dans Synapse Studio, dans le volet de gauche, sélectionnez Gérer>Pools SQL sous Pools analytiques.
- Cliquez sur Nouveau.
- Pour Nom du pool SQL dédié, sélectionnez
SQLPOOL1
. - Pour Niveau de performances, choisissez DW100C.
- Sélectionnez Vérifier + créer>Créer. Votre pool SQL dédié sera prêt en quelques minutes.
Votre pool SQL dédié est associé à une base de données SQL également appelée SQLPOOL1
.
- Accédez à Données>Espace de travail.
- Vous devez voir une base de données nommée SQLPOOL1. Si vous ne le voyez pas, sélectionnez Actualiser.
Tant qu’il est actif, un pool SQL dédié consomme des ressources facturables. Vous pouvez suspendre le pool plus tard pour réduire les coûts.
Notes
Quand vous créez un pool SQL dédié (anciennement SQL DW) dans votre espace de travail, la page de provisionnement des pools SQL s’ouvre. Le provisionnement s’effectue sur le serveur SQL logique.
Charger les données NYC Taxi dans SQLPOOL1
Dans Synapse Studio, accédez au hub Développer, sélectionnez le bouton + pour ajouter une nouvelle ressource, puis créez un script SQL.
Sélectionnez le pool
SQLPOOL1
(pool créé à l’étape 1 de ce tutoriel) dans la liste déroulante Se connecter à au-dessus du script.Entrez le code suivant :
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Conseil
Si vous recevez une erreur qui indique
Login failed for user '<token-identified principal>'
, vous devez définir votre administrateur Entra ID.- Dans le portail Azure, recherchez votre espace de travail Synapse.
- Sous Paramètres, sélectionnez Microsoft Entra ID.
- Sélectionnez Définir l’administrateur, puis définissez un administrateur Microsoft Entra ID.
Sélectionnez le bouton Exécuter pour exécuter le script.
Ce script met moins de 60 secondes à s’exécuter. Il charge 2 millions lignes de données NYC Taxi dans une table appelée
dbo.NYCTaxiTripSmall
.
Explorer les données NYC Taxi dans le pool SQL dédié
Dans Synapse Studio, accédez au hub Données.
Accédez à SQLPOOL1>Tables. (Si vous ne le voyez pas dans le menu, actualisez la page.)
Cliquez avec le bouton droit sur la table dbo.NYCTaxiTripSmall, puis sélectionnez Nouveau script SQL>Sélectionner les 100 premières lignes.
Patientez pendant la création et l’exécution du nouveau script SQL.
En haut du script SQL, notez que la liste déroulante Se connecter à est automatiquement définie sur le pool SQL appelé SQLPOOL1.
Remplacez le texte du script SQL par ce code et exécutez-le.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Cette requête crée une table
dbo.PassengerCountStats
avec des données agrégées à partir du champtrip_distance
, puis interroge la nouvelle table. Les données montrent de quelle manière les distances totales et la distance moyenne des trajets sont liées au nombre de passagers.Dans la fenêtre de résultat du script SQL, changez la Vue à Graphique pour visualiser les résultats sous forme de graphique en courbes. Choisissez
PassengerCount
comme Colonne de catégorie.
Nettoyage
Suspendez votre pool SQL dédié pour réduire les coûts.
- Accédez à Gérer dans votre espace de travail Synapse.
- Sélectionnez Pools SQL.
- Pointez sur SQLPOOL1, puis sélectionnez le bouton Suspendre.
- Confirmez pour suspendre.