Tutorial: Análisis de datos con grupos de SQL dedicados
En este tutorial, use los datos de NYC Taxi para explorar las funcionalidades de un grupo de SQL dedicado.
- [Implementación de un grupo de SQL dedicado]
- [Cargar datos en el grupo]
- [Explore los datos que ha cargado]
Requisitos previos
- En este tutorial se supone que ha completado los pasos del resto de los inicios rápidos. En concreto, usa el recurso "contosodatalake" creado en el inicio rápido Creación de un área de trabajo de Synapse.
Creación de un grupo de SQL dedicado
- En Synapse Studio, en el panel izquierdo, seleccione Administrar>Grupos de SQL en Grupos de análisis.
- Seleccione Nuevo.
- En Nombre del grupo de SQL dedicado seleccione
SQLPOOL1
. - En Nivel de rendimiento seleccione DW100C.
- Seleccione Revisar y crear>Crear. El grupo de SQL dedicado estará listo en unos minutos.
El grupo de SQL dedicado se asocia con una base de datos SQL, que también se denomina SQLPOOL1
.
- Vaya a Datos>Área de trabajo.
- Debería ver una base de datos denominada SQLPOOL1. Si no la ve, seleccione Actualizar.
Los grupos de SQL dedicados consumen recursos facturables mientras están activos. Puede pausar los grupos más adelante para reducir los costos.
Nota
Al crear un nuevo grupo de SQL dedicado (anteriormente SQL DW) en el área de trabajo, se abrirá la página de aprovisionamiento del grupo de SQL dedicado. El aprovisionamiento se llevará a cabo en el servidor SQL lógico.
Carga de los datos NYC Taxi en SQLPOOL1
En Synapse Studio, vaya al centro de desarrollo, seleccione el botón + para agregar un nuevo recurso y cree un nuevo script SQL.
Seleccione el grupo
SQLPOOL1
(creado en el PASO 1 de este tutorial) en la lista desplegable Conectar a del script.Escriba el siguiente código:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Sugerencia
Si recibe un error que lee
Login failed for user '<token-identified principal>'
, debe establecer el administrador de Id. de Entra.- En Azure Portal, busque el área de trabajo de Synapse.
- En Configuración, seleccione Microsoft Entra ID.
- Seleccione Establecer administrador y establezca un administrador de Microsoft Entra ID.
Seleccione el botón Ejecutar para ejecutar el script.
Este script finaliza en menos de 60 segundos. Carga dos millones filas de datos de NYC Taxi en una tabla denominada
dbo.NYCTaxiTripSmall
.
Exploración de los datos de NYC Taxi en el grupo de SQL dedicado
En Synapse Studio, vaya al centro Data (Datos).
Vaya a SQLPOOL1>Tablas. (Si no lo ve en el menú, actualice la página.)
Haga clic con el botón derecho en la tabla dbo.NYCTaxiTripSmall y seleccione New SQL Script>Select TOP 100 Rows (Nuevo script SQL > Seleccionar 100 primeras filas).
Espere mientras se crea un nuevo script de SQL y se ejecuta.
En la parte superior del script de SQL, en Connect to (Conectar a) está seleccionado automáticamente el grupo de SQL llamado SQLPOOL1.
Reemplace el texto del script de SQL por este código y ejecútelo.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Esta consulta crea una tabla
dbo.PassengerCountStats
con datos agregados del campotrip_distance
y, a continuación, consulta la nueva tabla. Los datos muestran la relación entre las distancias recorridas totales y la distancia media recorrida, y el número de pasajeros.En la ventana de resultados del script de SQL, cambie el valor de View (Vista) a Chart (Gráfico) para ver los resultados en un gráfico de líneas. Cambio al columna Categoría a
PassengerCount
.
Limpieza
Pausar el grupo de SQL dedicado para reducir los costos.
- Vaya a Administrar en el área de trabajo de Synapse.
- Seleccione Grupos de SQL.
- Mantenga el puntero sobre SQLPOOL1 y seleccione el botón Pausar.
- Confirme que se pausa.