Поделиться через


Руководство. Анализ данных в учетной записи хранения

В этом учебнике вы узнаете, как анализировать данные в учетной записи хранения.

До сих пор были рассмотрены ситуации, когда данные находятся в базах данных в рабочей области. Теперь мы покажем, как работать с файлами в учетных записях хранения. В этом сценарии мы будем использовать основную учетную запись хранения для рабочей области и контейнера, которые мы указали при создании рабочей области.

  • Имя учетной записи хранения: contosolake
  • Имя контейнера в учетной записи хранения: пользователи

Создание файлов CSV и Parquet в учетной записи хранения

Выполните приведенный ниже код в записной книжке в новой ячейке кода. Он создает CSV-файл и Parquet-файл в учетной записи хранения.

Совет

Эта таблица была создана ранее в кратком руководстве, и здесь можно найти шаги.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Анализируйте данные в учетной записи хранения

Вы можете проанализировать данные в учетной записи Azure Data Lake Storage (ADLS) 2-го поколения или связать учетную запись хранения ADLS 2-го поколения или blob-объектов с рабочей областью с помощью команды "Управление" > "Связанные службы" > "Создать" (следующие действия будут ссылаться на основную учетную запись ADLS 2-го поколения).

  1. В Synapse Studio перейдите в центр Данные, а затем выберите команду Связанный.

  2. Выберите Azure Data Lake Storage 2-го поколения>myworkspace (основная — contosolake).

  3. Выберите Пользователи (Основной). Вы увидите папку NYCTaxi. Внутри вы увидите две папки: PassengerCountStats_csvformat и PassengerCountStats_parquetformat.

  4. Откройте папку PassengerCountStats_parquetformat. Внутри есть файл parquet с именем, как part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. Щелкните правой кнопкой мыши файл Parquet, а затем последовательно выберите элементы Новая записная книжка и Load to DataFrame (Загрузить в DataFrame). Будет создана записная книжка с примерно такой ячейкой:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Подключитесь к пулу Spark с именем Spark1. Запустите ячейку. Если возникает ошибка, связанная с отсутствием ядер, другой сеанс может использовать этот пул Spark в этом пуле Spark. Отмените все существующие сеансы и повторите попытку.

  7. Снова выберите папку users. Щелкните правой кнопкой мыши файл Parquet и последовательно выберите элементы New SQL script (Новый скрипт SQL)>SELECT TOP 100 rows (Выбрать первые 100 строк). Он создает скрипт SQL таким образом:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    В окне скрипта проверьте, указано ли в поле Подключить к значение встроенного бессерверного пула SQL.

  8. Выполните скрипт.

Следующий шаг