Zelfstudie: Gegevens analyseren met toegewezen SQL-pools
In deze zelfstudie gebruikt u de NYC Taxi-gegevens om de mogelijkheden van een toegewezen SQL-pool te verkennen.
- [Een toegewezen SQL-pool implementeren]
- [Gegevens in de pool laden]
- [Verken de gegevens die u hebt geladen]
Vereisten
- In deze zelfstudie wordt ervan uitgegaan dat u de stappen in de rest van de quickstarts hebt voltooid. In het bijzonder wordt de resource contosodatalake gebruikt die is gemaakt in de quickstart Een Synapse-werkruimte maken.
Een toegewezen SQL-pool maken
- Selecteer in Synapse Studio in het linkerdeelvenster SQL-pools beheren>onder Analysepools.
- Selecteer Nieuw.
- Selecteer
SQLPOOL1
voor de naam van de toegewezen SQL-pool. - Kies DW100C voor prestatieniveau.
- Selecteer Beoordelen en maken>Maken. Uw toegewezen SQL-pool is binnen een paar minuten klaar.
Uw toegewezen SQL-pool is gekoppeld aan een SQL-database die ook wel wordt genoemd SQLPOOL1
.
- Navigeer naar de gegevenswerkruimte>.
- U ziet nu een database met de naam SQLPOOL1. Als u dit niet ziet, selecteert u Vernieuwen.
Een toegewezen SQL-pool verbruikt factureerbare resources zolang deze worden uitgevoerd. U kunt de pool later onderbreken om de kosten te verlagen.
Notitie
Bij het maken van een nieuwe toegewezen SQL-pool (voorheen SQL DW) in uw werkruimte, wordt de pagina voor het inrichten van de toegewezen SQL-pool geopend. Het inrichten vindt plaats op de logische SQL-server.
Laad de NYC Taxi-gegevens in SQLPOOL1
Navigeer in Synapse Studio naar de hub Ontwikkelen , selecteer de + knop om nieuwe resource toe te voegen en maak vervolgens een nieuw SQL-script.
Selecteer de pool
SQLPOOL1
(pool die is gemaakt in STAP 1 van deze zelfstudie) in De vervolgkeuzelijst Verbinden boven het script.Voer de volgende code in:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Tip
Als er een fout optreedt die wordt gelezen
Login failed for user '<token-identified principal>'
, moet u uw Entra Id-beheerder instellen.- Zoek in Azure Portal naar uw Synapse-werkruimte.
- Selecteer onder Instellingen de Microsoft Entra-id.
- Selecteer Beheerder instellen en stel een Microsoft Entra ID-beheerder in.
Selecteer de knop Uitvoeren om het script uit te voeren.
Dit script wordt in minder dan 60 seconden voltooid. Het laadt 2 miljoen rijen van NYC Taxi-gegevens in een tabel met de naam
dbo.NYCTaxiTripSmall
.
De NYC-taxigegevens in de toegewezen SQL-pool verkennen
Ga in Synapse Studio naar de hub Gegevens.
Ga naar SQLPOOL1>Tabellen. (Als u deze niet ziet in het menu, vernieuwt u de pagina.)
Klik met de rechtermuisknop op de dbo. NYCTaxiTripSmall-tabel en selecteer New SQL Script>Select TOP 100 Rows.
Wacht tot er een nieuw SQL-script wordt gemaakt en uitgevoerd.
Boven aan het SQL-script Verbinding maken met wordt automatisch ingesteld op de SQL-pool met de naam SQLPOOL1.
Vervang de tekst van het SQL-script door deze code en voer deze uit.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Met deze query maakt u een tabel
dbo.PassengerCountStats
met geaggregeerde gegevens uit hettrip_distance
veld en voert vervolgens een query uit op de nieuwe tabel. De gegevens laten zien hoe de totale reisafstanden en de gemiddelde reisafstand betrekking hebben op het aantal passagiers.In het resultatenvenster van het SQL-script wijzigt u de Weergave in Grafiek om een visualisatie van de resultaten weer te geven als een lijndiagram. De kolom Categorie wijzigen in
PassengerCount
.
Opschonen
Pauzeer uw toegewezen SQL-pool om de kosten te verlagen.
- Navigeer naar Beheren in uw Synapse-werkruimte.
- Selecteer SQL-pools.
- Beweeg de muisaanwijzer over SQLPOOL1 en selecteer de knop Onderbreken .
- Bevestig dat u de muisaanwijzer wilt onderbreken.