Compartir vía


Análisis de datos con un grupo de SQL sin servidor

En este tutorial, aprenderá a analizar los datos con un grupo de SQL sin servidor.

El grupo de SQL sin servidor integrado

Los grupos de SQL sin servidor permiten usar SQL sin necesidad de reservar capacidad. La facturación de un grupo de SQL sin servidor se basa en la cantidad de datos procesados para ejecutar la consulta y no en el número de recursos usados para ello.

Todas las áreas de trabajo incluyen un grupo de SQL sin servidor preconfigurado llamado Built-in.

Análisis de datos de taxis de Nueva York con un grupo de SQL sin servidor

  1. En Synapse Studio, vaya al centro de Desarrollo

  2. Se creará un nuevo script de SQL.

  3. Pegue el código siguiente en el script. (Actualice contosolake con el nombre de la cuenta de almacenamiento y users con el nombre del contenedor).

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Seleccione Run (Ejecutar).

La exploración de datos es simplemente un escenario simplificado en el que puede comprender las características básicas de los datos. Aprenda más sobre la exploración y el análisis de datos en este tutorial.

Creación de una base de datos de exploración de datos

Puede examinar el contenido de los archivos directamente mediante la base de datos master. En algunos escenarios sencillos de exploración de datos, no es necesario crear una base de datos independiente. Sin embargo, a medida que continúa la exploración de datos, puede ser conveniente crear algunos objetos de utilidad, como por ejemplo:

  • Orígenes de datos externos que representan las referencias con nombre de las cuentas de almacenamiento.
  • Credenciales con ámbito de base de datos que permiten especificar cómo autenticarse en un origen de datos externo.
  • Usuarios de base de datos con permisos para acceder a algunos orígenes de datos u objetos de base de datos.
  • Vistas, procedimientos y funciones de la utilidad que puede usar en las consultas.
  1. Use la base de datos master para crear una base de datos independiente para objetos de base de datos personalizados. No se pueden crear objetos de base de datos personalizados en la base de datos master.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Importante

    Use una intercalación con sufijo _UTF8 para que el texto UTF-8 se convierta correctamente en columnas VARCHAR. Latin1_General_100_BIN2_UTF8 proporciona el mejor rendimiento en las consultas que leen datos de archivos Parquet y contenedores de Azure Cosmos DB. Para obtener más información sobre el cambio de intercalaciones, consulte Tipos de intercalación admitidos para Synapse SQL.

  2. Cambie el contexto de la base de datos desde master a DataExplorationDB mediante el siguiente comando. También puede usar el control de interfaz de usuario usar base de datos para cambiar la base de datos actual:

    USE DataExplorationDB
    
  3. En DataExplorationDB, cree objetos de utilidad como credenciales y orígenes de datos.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Nota:

    Los orígenes de datos externos se pueden crear sin credenciales. Si no existe ninguna credencial, se usará la identidad del autor de la llamada para acceder al origen de datos externo.

  4. Opcionalmente, use la base de datos DataExplorationDB recién creada para crear un inicio de sesión para un usuario en DataExplorationDB que accederá a datos externos:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    A continuación, cree un usuario de base de datos en DataExplorationDB para el inicio de sesión anterior y conceda el permiso ADMINISTER DATABASE BULK OPERATIONS.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Explore el contenido del archivo mediante la ruta de acceso relativa y el origen de datos:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Publique los cambios en el área de trabajo.

La base de datos de exploración de datos es solamente un simple marcador de posición donde puede almacenar los objetos de utilidad. El grupo de Synapse SQL le permite hacer mucho más y crear una instancia lógica de Data Warehouse: una capa relacional basada en orígenes de datos de Azure. Obtenga más información sobre la creación de un almacenamiento de datos lógico en este tutorial.

Pasos siguientes