Análisis de datos con un grupo de SQL sin servidor
En este tutorial, aprenderá a analizar los datos con un grupo de SQL sin servidor.
El grupo de SQL sin servidor integrado
Los grupos de SQL sin servidor permiten usar SQL sin necesidad de reservar capacidad. La facturación de un grupo de SQL sin servidor se basa en la cantidad de datos procesados para ejecutar la consulta y no en el número de recursos usados para ello.
Todas las áreas de trabajo incluyen un grupo de SQL sin servidor preconfigurado llamado Built-in.
Análisis de datos de taxis de Nueva York con un grupo de SQL sin servidor
Nota
Asegúrese de que ha colocado los datos de ejemplo en la cuenta de almacenamiento principal.
En Synapse Studio, vaya al centro de Desarrollo
Se creará un nuevo script de SQL.
Pegue el código siguiente en el script. (Actualice
contosolake
con el nombre de la cuenta de almacenamiento yusers
con el nombre del contenedor).SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]
Seleccione Run (Ejecutar).
La exploración de datos es simplemente un escenario simplificado en el que puede comprender las características básicas de los datos. Aprenda más sobre la exploración y el análisis de datos en este tutorial.
Creación de una base de datos de exploración de datos
Puede examinar el contenido de los archivos directamente mediante la base de datos master
. En algunos escenarios sencillos de exploración de datos, no es necesario crear una base de datos independiente.
Sin embargo, a medida que continúa la exploración de datos, puede ser conveniente crear algunos objetos de utilidad, como por ejemplo:
- Orígenes de datos externos que representan las referencias con nombre de las cuentas de almacenamiento.
- Credenciales con ámbito de base de datos que permiten especificar cómo autenticarse en un origen de datos externo.
- Usuarios de base de datos con permisos para acceder a algunos orígenes de datos u objetos de base de datos.
- Vistas, procedimientos y funciones de la utilidad que puede usar en las consultas.
Use la base de datos
master
para crear una base de datos independiente para objetos de base de datos personalizados. No se pueden crear objetos de base de datos personalizados en la base de datosmaster
.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8
Importante
Use una intercalación con sufijo
_UTF8
para que el texto UTF-8 se convierta correctamente en columnasVARCHAR
.Latin1_General_100_BIN2_UTF8
proporciona el mejor rendimiento en las consultas que leen datos de archivos Parquet y contenedores de Azure Cosmos DB. Para obtener más información sobre el cambio de intercalaciones, consulte Tipos de intercalación admitidos para Synapse SQL.Cambie el contexto de la base de datos desde
master
aDataExplorationDB
mediante el siguiente comando. También puede usar el control de interfaz de usuario usar base de datos para cambiar la base de datos actual:USE DataExplorationDB
En
DataExplorationDB
, cree objetos de utilidad como credenciales y orígenes de datos.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
Nota:
Los orígenes de datos externos se pueden crear sin credenciales. Si no existe ninguna credencial, se usará la identidad del autor de la llamada para acceder al origen de datos externo.
Opcionalmente, use la base de datos
DataExplorationDB
recién creada para crear un inicio de sesión para un usuario enDataExplorationDB
que accederá a datos externos:CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
A continuación, cree un usuario de base de datos en
DataExplorationDB
para el inicio de sesión anterior y conceda el permisoADMINISTER DATABASE BULK OPERATIONS
.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GO
Explore el contenido del archivo mediante la ruta de acceso relativa y el origen de datos:
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
Publique los cambios en el área de trabajo.
La base de datos de exploración de datos es solamente un simple marcador de posición donde puede almacenar los objetos de utilidad. El grupo de Synapse SQL le permite hacer mucho más y crear una instancia lógica de Data Warehouse: una capa relacional basada en orígenes de datos de Azure. Obtenga más información sobre la creación de un almacenamiento de datos lógico en este tutorial.