Esercitazione: Analizzare i dati con pool SQL dedicati
In questa esercitazione usare i dati dei taxi di New York per esplorare le funzionalità di un pool SQL dedicato.
- [Distribuire un pool SQL dedicato]
- [Caricare i dati nel pool]
- [Esplorare i dati caricati]
Prerequisiti
- Questa esercitazione presuppone che siano stati completati i passaggi nelle altre guide introduttive. In particolare, usa la risorsa "contosodatalake" creata nella guida introduttiva Creare un'area di lavoro synapse.
Creare un pool SQL dedicato
- Nel riquadro sinistro di Synapse Studio selezionare Gestisci>pool SQL in Pool di analisi.
- Selezionare Nuovo.
- Per Nome pool SQL dedicato selezionare
SQLPOOL1
. - Per Livello di prestazioni, scegliere DW100C.
- Selezionare Rivedi e crea>Crea. Il pool SQL dedicato sarà pronto in pochi minuti.
Il pool SQL viene associato a un database del pool SQL anch'esso denominato SQLPOOL1
.
- Andare a Dati>Area di lavoro.
- Verrà visualizzato un database denominato SQLPOOL1. Se non viene visualizzato, selezionare Aggiorna.
Un pool SQL dedicato utilizza risorse fatturabili finché è attivo. È possibile sospendere il pool in un secondo momento per ridurre i costi.
Nota
Quando si crea un nuovo pool SQL dedicato (in precedenza SQL Data Warehouse) nell'area di lavoro, verrà aperta la pagina per effettuarne il provisioning. Il provisioning verrà effettuato nel server SQL logico.
Caricare i dati dei taxi di New York in SQLPOOL1
In Synapse Studio passare all'hub Sviluppo , selezionare il + pulsante per aggiungere una nuova risorsa e quindi creare un nuovo script SQL.
Selezionare il pool
SQLPOOL1
(pool creato nel PASSAGGIO 1 di questa esercitazione) nell'elenco a discesa Connetti a sopra lo script.Immetti il codice seguente:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Suggerimento
Se viene visualizzato un errore che legge
Login failed for user '<token-identified principal>'
, è necessario impostare l'amministratore dell'ID entra.- Nel portale di Azure cercare l'area di lavoro synapse.
- In Impostazioni selezionare Microsoft Entra ID.
- Selezionare Imposta amministratore e impostare un amministratore di Microsoft Entra ID.
Selezionare il pulsante Esegui per eseguire lo script.
Questo script termina in meno di 60 secondi. Carica 2 milioni righe di dati dei taxi di New York in una tabella denominata
dbo.NYCTaxiTripSmall
.
Esplorare i dati dei taxi di New York nel pool SQL dedicato
In Synapse Studio passare all'hub Data (Dati).
Passare a SQLPOOL1>Tabelle. Se non viene visualizzato nel menu, aggiornare la pagina.
Fare clic con il pulsante destro del mouse sulla tabella dbo.Trip e selezionare Nuovo script SQL>Seleziona le prime 100 righe.
Attendere mentre viene creato ed eseguito un nuovo script SQL.
Nella parte superiore dello script SQL la sezione Connetti a è impostata automaticamente sul pool SQL denominato SQLPOOL1.
Sostituire il testo dello script SQL con il codice ed eseguirlo.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Questa query crea una tabella
dbo.PassengerCountStats
con dati aggregati dal campotrip_distance
e quindi esegue una query sulla nuova tabella. I dati mostrano come le distanze totali e la distanza media delle corse sono correlate al numero di passeggeri.Nella finestra dei risultati dello script SQL modificare la Vista impostandola su Grafico per visualizzare i risultati come un grafico a linee. Modificare la colonna Categoria in
PassengerCount
.
Eseguire la pulizia
Sospendere il pool SQL dedicato per ridurre i costi.
- Passare a Gestisci nell'area di lavoro synapse.
- Selezionare Pool SQL.
- Passare il puntatore del mouse su SQLPOOL1 e selezionare il pulsante Sospendi .
- Confermare la sospensione.