Udostępnij za pośrednictwem


Samouczek: analizowanie danych za pomocą dedykowanych pul SQL

W tym samouczku użyj danych taksówek w Nowym Jorku, aby zapoznać się z możliwościami dedykowanej puli SQL.

  • [Wdrażanie dedykowanej puli SQL]
  • [Ładowanie danych do puli]
  • [Eksploruj załadowane dane]

Wymagania wstępne

Tworzenie dedykowanej puli SQL

  1. W programie Synapse Studio w okienku po lewej stronie wybierz pozycję Zarządzaj pulami> SQL w obszarze Pule analiz.
  2. Wybierz Nowy.
  3. W polu Dedykowana nazwa puli SQL wybierz pozycję SQLPOOL1.
  4. W polu Poziom wydajności wybierz pozycję DW100C.
  5. Wybierz pozycję Przeglądanie + tworzenie>Utwórz. Dedykowana pula SQL będzie gotowa w ciągu kilku minut.

Dedykowana pula SQL jest skojarzona z bazą danych SQL o nazwie SQLPOOL1.

  1. Przejdź do obszaru roboczego danych>.
  2. Powinna zostać wyświetlona baza danych o nazwie SQLPOOL1. Jeśli go nie widzisz, wybierz pozycję Odśwież.

Dedykowana pula SQL zużywa rozliczane zasoby, o ile jest aktywna. Możesz wstrzymać pulę później, aby zmniejszyć koszty.

Uwaga

Podczas tworzenia nowej dedykowanej puli SQL (dawniej SQL DW) w obszarze roboczym zostanie otwarta dedykowana strona aprowizacji puli SQL. Aprowizacja zostanie zainicjowana na serwerze logicznym SQL.

Ładowanie danych taksówek w Nowym Jorku do SQLPOOL1

  1. W programie Synapse Studio przejdź do centrum Programowanie , wybierz + przycisk, aby dodać nowy zasób, a następnie utwórz nowy skrypt SQL.

  2. Wybierz pulę (pulę SQLPOOL1 utworzoną w kroku 1 tego samouczka) na liście rozwijanej Połącz z listą rozwijaną powyżej skryptu.

  3. Wprowadź następujące kod:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    

    Napiwek

    Jeśli wystąpi błąd z odczytem Login failed for user '<token-identified principal>', musisz ustawić administratora identyfikatora Entra.

    1. W witrynie Azure Portal wyszukaj obszar roboczy usługi Synapse.
    2. W obszarze Ustawienia wybierz pozycję Microsoft Entra ID.
    3. Wybierz pozycję Ustaw administratora i ustaw administratora identyfikatora entra firmy Microsoft.
  4. Wybierz przycisk Uruchom, aby wykonać skrypt.

  5. Ten skrypt kończy się w mniej niż 60 sekundach. Ładuje 2 miliony wierszy danych nowojorskich taksówek do tabeli o nazwie dbo.NYCTaxiTripSmall.

Eksplorowanie danych dotyczących taksówek w dedykowanej puli SQL

  1. W programie Synapse Studio przejdź do centrum danych .

  2. Przejdź do SQLPOOL1>Tabele. (Jeśli nie widzisz go w menu, odśwież stronę).

  3. Kliknij prawym przyciskiem myszy bazę danych. Tabela NYCTaxiTripSmall i wybierz pozycję Nowy skrypt>SQL Wybierz 100 pierwszych wierszy.

  4. Zaczekaj na utworzenie nowego skryptu SQL i uruchomienie go.

  5. W górnej części skryptu SQL Connect zostanie automatycznie ustawiona pula SQL o nazwie SQLPOOL1.

  6. Zastąp tekst skryptu SQL tym kodem i uruchom go.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    To zapytanie tworzy tabelę dbo.PassengerCountStats z zagregowanymi danymi z trip_distance pola, a następnie wykonuje zapytanie dotyczące nowej tabeli. Dane pokazują, jak łączna odległość podróży i średnia odległość podróży odnoszą się do liczby pasażerów.

  7. W oknie wyników skryptu SQL zmień widok na Wykres, aby wyświetlić wizualizację wyników jako wykres liniowy. Zmień kolumnę Category na PassengerCount.

Czyszczenie

Wstrzymaj dedykowaną pulę SQL, aby zmniejszyć koszty.

  1. Przejdź do pozycji Zarządzaj w obszarze roboczym usługi Synapse.
  2. Wybierz pozycję Pule SQL.
  3. Zatrzymaj wskaźnik myszy na SQLPOOL1 i wybierz przycisk Wstrzymaj.
  4. Potwierdź wstrzymanie.

Następny krok