Condividi tramite


Esercitazione: Analizzare i dati con pool SQL dedicati

In questa esercitazione usare i dati dei taxi di New York per esplorare le funzionalità di un pool SQL dedicato.

  • [Distribuire un pool SQL dedicato]
  • [Caricare i dati nel pool]
  • [Esplorare i dati caricati]

Prerequisiti

Creare un pool SQL dedicato

  1. Nel riquadro sinistro di Synapse Studio selezionare Gestisci>pool SQL in Pool di analisi.
  2. Selezionare Nuovo.
  3. Per Nome pool SQL dedicato selezionare SQLPOOL1.
  4. Per Livello di prestazioni, scegliere DW100C.
  5. Selezionare Rivedi e crea>Crea. Il pool SQL dedicato sarà pronto in pochi minuti.

Il pool SQL viene associato a un database del pool SQL anch'esso denominato SQLPOOL1.

  1. Andare a Dati>Area di lavoro.
  2. Verrà visualizzato un database denominato SQLPOOL1. Se non viene visualizzato, selezionare Aggiorna.

Un pool SQL dedicato utilizza risorse fatturabili finché è attivo. È possibile sospendere il pool in un secondo momento per ridurre i costi.

Nota

Quando si crea un nuovo pool SQL dedicato (in precedenza SQL Data Warehouse) nell'area di lavoro, verrà aperta la pagina per effettuarne il provisioning. Il provisioning verrà effettuato nel server SQL logico.

Caricare i dati dei taxi di New York in SQLPOOL1

  1. In Synapse Studio passare all'hub Sviluppo , selezionare il + pulsante per aggiungere una nuova risorsa e quindi creare un nuovo script SQL.

  2. Selezionare il pool SQLPOOL1 (pool creato nel PASSAGGIO 1 di questa esercitazione) nell'elenco a discesa Connetti a sopra lo script.

  3. Immetti il codice seguente:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
        ,AUTO_CREATE_TABLE ='ON'
    )
    

    Suggerimento

    Se viene visualizzato un errore che legge Login failed for user '<token-identified principal>', è necessario impostare l'amministratore dell'ID entra.

    1. Nel portale di Azure cercare l'area di lavoro synapse.
    2. In Impostazioni selezionare Microsoft Entra ID.
    3. Selezionare Imposta amministratore e impostare un amministratore di Microsoft Entra ID.
  4. Selezionare il pulsante Esegui per eseguire lo script.

  5. Questo script termina in meno di 60 secondi. Carica 2 milioni righe di dati dei taxi di New York in una tabella denominata dbo.NYCTaxiTripSmall.

Esplorare i dati dei taxi di New York nel pool SQL dedicato

  1. In Synapse Studio passare all'hub Data (Dati).

  2. Passare a SQLPOOL1>Tabelle. Se non viene visualizzato nel menu, aggiornare la pagina.

  3. Fare clic con il pulsante destro del mouse sulla tabella dbo.Trip e selezionare Nuovo script SQL>Seleziona le prime 100 righe.

  4. Attendere mentre viene creato ed eseguito un nuovo script SQL.

  5. Nella parte superiore dello script SQL la sezione Connetti a è impostata automaticamente sul pool SQL denominato SQLPOOL1.

  6. Sostituire il testo dello script SQL con il codice ed eseguirlo.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Questa query crea una tabella dbo.PassengerCountStats con dati aggregati dal campo trip_distance e quindi esegue una query sulla nuova tabella. I dati mostrano come le distanze totali e la distanza media delle corse sono correlate al numero di passeggeri.

  7. Nella finestra dei risultati dello script SQL modificare la Vista impostandola su Grafico per visualizzare i risultati come un grafico a linee. Modificare la colonna Categoria in PassengerCount.

Eseguire la pulizia

Sospendere il pool SQL dedicato per ridurre i costi.

  1. Passare a Gestisci nell'area di lavoro synapse.
  2. Selezionare Pool SQL.
  3. Passare il puntatore del mouse su SQLPOOL1 e selezionare il pulsante Sospendi .
  4. Confermare la sospensione.

Passaggio successivo