Поделиться через


Анализ данных с помощью бессерверного пула SQL

В этом руководстве показано, как анализировать данные с помощью бессерверного пула SQL.

Бессерверный пул SQL "Встроенный"

Бессерверные пулы SQL позволяют использовать SQL без необходимости резервировать мощность. Выставление счетов за использование бессерверного пула SQL зависит от объема данных, обработанных для выполнения запроса, а не от количества узлов, используемых для выполнения запроса.

Каждая рабочая область поставляется с предварительно настроенным бессерверным пулом SQL с именем Встроенный.

Анализ данных такси Нью-Йорка с помощью бессерверного пула SQL

  1. В Synapse Studio перейдите в центр разработки

  2. Создайте новый скрипт SQL.

  3. Вставьте следующий код в сценарий. (Обновите contosolake имя учетной записи хранения и users имя контейнера.)

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Выберите Выполнить.

Исследование данных — это упрощенный сценарий, в котором можно понять основные характеристики данных. Дополнительные сведения об исследовании и анализе данных см. в этом руководстве.

Создание базы данных для исследования данных

Содержимое файлов можно просматривать непосредственно через базу данных master. Для некоторых простых сценариев просмотра данных не нужно создавать отдельную базу. Однако для более глубокого изучения может потребоваться создать некоторые служебные объекты, например:

  • Внешние источники данных — именованные ссылки для учетных записей хранения.
  • Учетные данные в области базы данных, позволяющие указать способ проверки подлинности для доступа к внешнему источнику.
  • Пользователи базы данных с разрешениями на доступ к некоторым источникам или объектам базы.
  • Служебные представления, процедуры и функции, которые можно использовать в запросах.
  1. Используйте базу данных master, чтобы создать отдельную базу данных для пользовательских объектов базы данных. Пользовательские master объекты базы данных не могут быть созданы в базе данных.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Внимание

    Используйте параметры сортировки с суффиксом _UTF8, чтобы убедиться, что текст UTF-8 правильно преобразуется в столбцы VARCHAR. Latin1_General_100_BIN2_UTF8 обеспечивает лучшую производительность запросов, которые считывают данные из файлов Parquet и контейнеров Azure Cosmos DB. Дополнительные сведения об изменении параметров сортировки см. в разделе "Типы сортировки", поддерживаемые для Synapse SQL.

  2. Переключите контекст базы данных на master DataExplorationDB использование следующей команды. Чтобы переключить текущую базу данных, также можно применить элемент пользовательского интерфейса использовать базу данных:

    USE DataExplorationDB
    
  3. Из DataExplorationDB создания объектов служебной программы, таких как учетные данные и источники данных.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Примечание.

    Внешний источник данных можно создать без учетных данных. Если учетные данные не существуют, для получения доступа к внешнему источнику данных будет использоваться удостоверение вызывающего объекта.

  4. При необходимости используйте только что созданную DataExplorationDB базу данных для создания имени входа для пользователя, который DataExplorationDB получит доступ к внешним данным:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Затем создайте пользователя DataExplorationDB базы данных для указанного выше имени входа и предоставьте ADMINISTER DATABASE BULK OPERATIONS разрешение.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Изучите содержимое файла, используя относительный путь и источник данных:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Опубликуйте свои изменения в рабочей области.

База данных для изучения данных — это просто заполнитель, в котором можно хранить служебные объекты. Пул Synapse SQL поддерживает гораздо больше возможностей и позволяет создать логическое хранилище данных — реляционный уровень на базе источников данных Azure. Дополнительные сведения о создании логического хранилища данных см. в этом руководстве.

Следующие шаги