Kurz: Analýza dat s využitím vyhrazených fondů SQL
V tomto kurzu můžete pomocí dat taxislužby NYC prozkoumat možnosti vyhrazeného fondu SQL.
- [Nasazení vyhrazeného fondu SQL]
- [Načíst data do fondu]
- [Prozkoumejte data, která jste načetli.
Požadavky
- V tomto kurzu se předpokládá, že jste dokončili kroky ve zbývajících rychlých startech. Konkrétně používá prostředek contosodatalake vytvořený v rychlém startu vytvoření pracovního prostoru Synapse.
Vytvoření vyhrazeného fondu SQL
- V nástroji Synapse Studio v levém podokně vyberte Spravovat>fondy SQL v části Fondy Analytics.
- Vyberte Nový.
- Jako název vyhrazeného fondu SQL vyberte
SQLPOOL1
. - Pro úroveň výkonu zvolte DW100C.
- Vyberte Zkontrolovat a vytvořit>Vytvořit. Vyhrazený fond SQL bude připravený během několika minut.
Vyhrazený fond SQL je přidružený k databázi SQL, která se také nazývá SQLPOOL1
.
- Přejděte do datového>pracovního prostoru.
- Měla by se zobrazit databáze s názvem SQLPOOL1. Pokud ji nevidíte, vyberte Aktualizovat.
Vyhrazený fond SQL spotřebovává fakturovatelné prostředky, pokud je aktivní. Pokud chcete snížit náklady, můžete fond později pozastavit.
Poznámka:
Při vytváření nového vyhrazeného fondu SQL (dříve SQL DW) ve vašem pracovním prostoru se otevře stránka zřizování vyhrazeného fondu SQL. Zřizování proběhne na logickém SQL serveru.
Načtení dat taxislužby NYC do SQLPOOL1
V nástroji Synapse Studio přejděte do centra Vývoj , vyberte + tlačítko pro přidání nového prostředku a pak vytvořte nový skript SQL.
V části Připojit vyberte fond
SQLPOOL1
(fond vytvořený v kroku 1 tohoto kurzu) a přejděte do rozevíracího seznamu nad skriptem.Zadejte následující kód:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Tip
Pokud se zobrazí chyba, která se přečte
Login failed for user '<token-identified principal>'
, musíte nastavit správce Entra Id.- Na webu Azure Portal vyhledejte svůj pracovní prostor Synapse.
- V části Nastavení vyberte Microsoft Entra ID.
- Vyberte Nastavit správce a nastavte správce Microsoft Entra ID.
Vyberte tlačítko Spustit a spusťte skript.
Tento skript se dokončí za méně než 60 sekund. Do tabulky s názvem
dbo.NYCTaxiTripSmall
načte 2 miliony řádků dat taxislužby NYC.
Prozkoumání dat taxi v NYC ve vyhrazeném fondu SQL
V synapse Studiu přejděte do datového centra.
Přejděte na SQLPOOL1>tabulky. (Pokud ji v nabídce nevidíte, aktualizujte stránku.)
Klikněte pravým tlačítkem na dbo. Tabulka NYCTaxiTripSmall a vyberte Nový skript>SQL Select TOP 100 Řádků.
Počkejte, než se vytvoří a spustí nový skript SQL.
V horní části skriptu SQL Connect to se automaticky nastaví na fond SQL s názvem SQLPOOL1.
Nahraďte text skriptu SQL tímto kódem a spusťte ho.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Tento dotaz vytvoří tabulku
dbo.PassengerCountStats
s agregovanými daty ztrip_distance
pole a pak se na novou tabulku dotazuje. Data ukazují, jak celková vzdálenost jízdy a průměrná vzdálenost jízdy souvisí s počtem cestujících.V okně výsledku skriptu SQL změňte zobrazení na Graf a zobrazte vizualizaci výsledků jako spojnicový graf. Změňte sloupec Kategorie na
PassengerCount
.
Vyčištění
Pozastavte vyhrazený fond SQL, abyste snížili náklady.
- Přejděte do části Správa v pracovním prostoru Synapse.
- Vyberte fondy SQL.
- Najeďte myší na SQLPOOL1 a vyberte tlačítko Pozastavit .
- Potvrďte pozastavení.