Analysera data med en serverlös SQL-pool
I den här självstudien får du lära dig hur du analyserar data med en serverlös SQL-pool.
Den inbyggda serverlösa SQL-poolen
Med serverlösa SQL-pooler kan du använda SQL utan att behöva reservera kapacitet. Faktureringen för en serverlös SQL-pool baseras på mängden data som bearbetas för att köra frågan och inte antalet noder som används för att köra frågan.
Varje arbetsyta levereras med en förkonfigurerad serverlös SQL-pool med namnet Inbyggd.
Analysera NYC Taxi-data med en serverlös SQL-pool
Kommentar
Kontrollera att du har placerat exempeldata i det primära lagringskontot
I Synapse Studio går du till utveckla hubben
Skapa ett nytt SQL-skript.
Klistra in följande kod i skriptet. (Uppdatera
contosolake
till namnet på ditt lagringskonto ochusers
med namnet på containern.)SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]
Markera Kör.
Datautforskning är bara ett förenklat scenario där du kan förstå de grundläggande egenskaperna för dina data. Läs mer om datautforskning och analys i den här självstudien.
Skapa databas för datautforskning
Du kan bläddra i innehållet i filerna direkt via master
databasen. För vissa enkla datautforskningsscenarier behöver du inte skapa en separat databas.
Men när du fortsätter med datautforskningen kanske du vill skapa några verktygsobjekt, till exempel:
- Externa datakällor som representerar namngivna referenser för lagringskonton.
- Autentiseringsuppgifter med databasomfattning som gör att du kan ange hur du ska autentisera mot en extern datakälla.
- Databasanvändare med behörighet att komma åt vissa datakällor eller databasobjekt.
- Verktygsvyer, procedurer och funktioner som du kan använda i frågorna.
Använd databasen
master
för att skapa en separat databas för anpassade databasobjekt. Det går inte att skapa anpassade databasobjekt imaster
databasen.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8
Viktigt!
Använd en sortering med
_UTF8
suffix för att säkerställa att UTF-8-text konverteras korrekt tillVARCHAR
kolumner.Latin1_General_100_BIN2_UTF8
ger bästa möjliga prestanda i de frågor som läser data från Parquet-filer och Azure Cosmos DB-containrar. Mer information om hur du ändrar sortering finns i Sorteringstyper som stöds för Synapse SQL.Växla databaskontexten från
master
tillDataExplorationDB
med hjälp av följande kommando. Du kan också använda användargränssnittskontrollen med hjälp av databasen för att växla din aktuella databas:USE DataExplorationDB
Från
DataExplorationDB
skapa verktygsobjekt som autentiseringsuppgifter och datakällor.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
Kommentar
En extern datakälla kan skapas utan autentiseringsuppgifter. Om det inte finns någon autentiseringsuppgift används anroparens identitet för att komma åt den externa datakällan.
Du kan också använda den nyligen skapade
DataExplorationDB
databasen för att skapa en inloggning för en användare somDataExplorationDB
kommer åt externa data:CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
Skapa sedan en databasanvändare i
DataExplorationDB
för ovanstående inloggning och bevilja behörighetenADMINISTER DATABASE BULK OPERATIONS
.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GO
Utforska innehållet i filen med hjälp av den relativa sökvägen och datakällan:
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
Publicera dina ändringar på arbetsytan.
Datautforskningsdatabasen är bara en enkel platshållare där du kan lagra dina verktygsobjekt. Med Synapse SQL-poolen kan du göra mycket mer och skapa ett logiskt informationslager – ett relationslager som bygger på Azure-datakällor. Läs mer om att skapa ett logiskt informationslager i den här självstudien.