Samouczek: analizowanie danych za pomocą dedykowanych pul SQL
W tym samouczku użyj danych taksówek w Nowym Jorku, aby zapoznać się z możliwościami dedykowanej puli SQL.
- [Wdrażanie dedykowanej puli SQL]
- [Ładowanie danych do puli]
- [Eksploruj załadowane dane]
Wymagania wstępne
- W tym samouczku założono, że wykonano kroki opisane w pozostałych przewodnikach Szybki start. W szczególności używa zasobu "contosodatalake" utworzonego w przewodniku Szybki start Tworzenie obszaru roboczego usługi Synapse.
Tworzenie dedykowanej puli SQL
- W programie Synapse Studio w okienku po lewej stronie wybierz pozycję Zarządzaj pulami> SQL w obszarze Pule analiz.
- Wybierz Nowy.
- W polu Dedykowana nazwa puli SQL wybierz pozycję
SQLPOOL1
. - W polu Poziom wydajności wybierz pozycję DW100C.
- Wybierz pozycję Przeglądanie + tworzenie>Utwórz. Dedykowana pula SQL będzie gotowa w ciągu kilku minut.
Dedykowana pula SQL jest skojarzona z bazą danych SQL o nazwie SQLPOOL1
.
- Przejdź do obszaru roboczego danych>.
- Powinna zostać wyświetlona baza danych o nazwie SQLPOOL1. Jeśli go nie widzisz, wybierz pozycję Odśwież.
Dedykowana pula SQL zużywa rozliczane zasoby, o ile jest aktywna. Możesz wstrzymać pulę później, aby zmniejszyć koszty.
Uwaga
Podczas tworzenia nowej dedykowanej puli SQL (dawniej SQL DW) w obszarze roboczym zostanie otwarta dedykowana strona aprowizacji puli SQL. Aprowizacja zostanie zainicjowana na serwerze logicznym SQL.
Ładowanie danych taksówek w Nowym Jorku do SQLPOOL1
W programie Synapse Studio przejdź do centrum Programowanie , wybierz + przycisk, aby dodać nowy zasób, a następnie utwórz nowy skrypt SQL.
Wybierz pulę (pulę
SQLPOOL1
utworzoną w kroku 1 tego samouczka) na liście rozwijanej Połącz z listą rozwijaną powyżej skryptu.Wprowadź następujące kod:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' )
Napiwek
Jeśli wystąpi błąd z odczytem
Login failed for user '<token-identified principal>'
, musisz ustawić administratora identyfikatora Entra.- W witrynie Azure Portal wyszukaj obszar roboczy usługi Synapse.
- W obszarze Ustawienia wybierz pozycję Microsoft Entra ID.
- Wybierz pozycję Ustaw administratora i ustaw administratora identyfikatora entra firmy Microsoft.
Wybierz przycisk Uruchom, aby wykonać skrypt.
Ten skrypt kończy się w mniej niż 60 sekundach. Ładuje 2 miliony wierszy danych nowojorskich taksówek do tabeli o nazwie
dbo.NYCTaxiTripSmall
.
Eksplorowanie danych dotyczących taksówek w dedykowanej puli SQL
W programie Synapse Studio przejdź do centrum danych .
Przejdź do SQLPOOL1>Tabele. (Jeśli nie widzisz go w menu, odśwież stronę).
Kliknij prawym przyciskiem myszy bazę danych. Tabela NYCTaxiTripSmall i wybierz pozycję Nowy skrypt>SQL Wybierz 100 pierwszych wierszy.
Zaczekaj na utworzenie nowego skryptu SQL i uruchomienie go.
W górnej części skryptu SQL Connect zostanie automatycznie ustawiona pula SQL o nazwie SQLPOOL1.
Zastąp tekst skryptu SQL tym kodem i uruchom go.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
To zapytanie tworzy tabelę
dbo.PassengerCountStats
z zagregowanymi danymi ztrip_distance
pola, a następnie wykonuje zapytanie dotyczące nowej tabeli. Dane pokazują, jak łączna odległość podróży i średnia odległość podróży odnoszą się do liczby pasażerów.W oknie wyników skryptu SQL zmień widok na Wykres, aby wyświetlić wizualizację wyników jako wykres liniowy. Zmień kolumnę Category na
PassengerCount
.
Czyszczenie
Wstrzymaj dedykowaną pulę SQL, aby zmniejszyć koszty.
- Przejdź do pozycji Zarządzaj w obszarze roboczym usługi Synapse.
- Wybierz pozycję Pule SQL.
- Zatrzymaj wskaźnik myszy na SQLPOOL1 i wybierz przycisk Wstrzymaj.
- Potwierdź wstrzymanie.