Samouczek: analizowanie danych na koncie magazynu

Artykuł
12/17/2024

Z tego samouczka dowiesz się, jak analizować dane znajdujące się na koncie magazynu.

Do tej pory omówiliśmy scenariusze, w których dane znajdują się w bazach danych w obszarze roboczym. Teraz pokażemy, jak pracować z plikami na kontach magazynu. W tym scenariuszu użyjemy podstawowego konta magazynu obszaru roboczego i kontenera określonego podczas tworzenia obszaru roboczego.

Nazwa konta magazynu: contosolake
Nazwa kontenera na koncie magazynu: użytkownicy

Tworzenie plików CSV i Parquet na koncie magazynu

Uruchom następujący kod w notesie w nowej komórce kodu. Tworzy plik CSV i plik parquet na koncie magazynu.

Napiwek

Ta tabela została utworzona wcześniej w przewodniku Szybki start. Kroki można znaleźć tutaj.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analizowanie danych na koncie magazynu

Możesz analizować dane w domyślnym koncie usługi Azure Data Lake Storage (ADLS) Gen2 w obszarze roboczym lub połączyć konto usługi ADLS Gen2 lub Blob Storage z obszarem roboczym za pomocą polecenia "Zarządzaj" "Połączone usługi" >> "Nowe" (następne kroki będą dotyczyć podstawowego konta usługi ADLS Gen2).

W programie Synapse Studio przejdź do centrum danych , a następnie wybierz pozycję Połączone.
Przejdź do obszaru Azure Data Lake Storage Gen2>myworkspace (podstawowa — contosolake).
Wybierz pozycję użytkownicy (podstawowy). Powinien zostać wyświetlony folder NYCTaxi . Wewnątrz powinny zostać wyświetlone dwa foldery o nazwie PassengerCountStats_csvformat i PassengerCountStats_parquetformat.
Otwórz folder PassengerCountStats_parquetformat. Wewnątrz znajduje się plik parquet o nazwie takiej jak part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

Kliknij prawym przyciskiem myszy plik parquet, a następnie wybierz pozycję Nowy notes, a następnie wybierz polecenie Załaduj do ramki danych. Zostanie utworzony nowy notes z komórką podobną do następującej:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Dołącz do puli Spark o nazwie Spark1. Uruchom komórkę. Jeśli wystąpi błąd związany z brakiem rdzeni, inna sesja może używać tej puli spark. Anuluj wszystkie istniejące sesje i ponów próbę.
Wybierz z powrotem do folderu users . Ponownie kliknij prawym przyciskiem myszy plik parquet, a następnie wybierz pozycję Nowy skrypt>SQL SELECT TOP 100 wierszy. Spowoduje to utworzenie skryptu SQL w następujący sposób:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
W oknie skryptu upewnij się, że pole Połącz z jest ustawione na wbudowaną bezserwerową pulę SQL.
Uruchom skrypt.

Następny krok

Organizowanie działań za pomocą potoków

Udostępnij za pośrednictwem

Samouczek: analizowanie danych na koncie magazynu

Tworzenie plików CSV i Parquet na koncie magazynu

Analizowanie danych na koncie magazynu

Następny krok

Opinia

Dodatkowe zasoby