Kurz: Analýza dat v účtu úložiště

Článek
01/31/2025

V tomto kurzu se dozvíte, jak analyzovat data umístěná v účtu úložiště.

Zatím jsme probrali scénáře, ve kterých se data nacházejí v databázích v pracovním prostoru. Teď vám ukážeme, jak pracovat se soubory v účtech úložiště. V tomto scénáři použijeme primární účet úložiště pracovního prostoru a kontejneru, který jsme zadali při vytváření pracovního prostoru.

Název účtu úložiště: contosolake
Název kontejneru v účtu úložiště: uživatelé

Vytvoření souborů CSV a Parquet v účtu úložiště

V poznámkovém bloku v nové buňce kódu spusťte následující kód. Vytvoří soubor CSV a soubor parquet v účtu úložiště.

Tip

Tato tabulka byla vytvořena dříve v rychlém startu a tady najdete postup.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analýza dat v účtu úložiště

Data ve výchozím účtu Azure Data Lake Storage (ADLS) Gen2 můžete analyzovat v pracovním prostoru nebo můžete propojit účet ADLS Gen2 nebo Blob Storage s pracovním prostorem prostřednictvím možnosti Spravovat> propojené služby >New (Další kroky se týkají primárního účtu ADLS Gen2).

V nástroji Synapse Studio přejděte do datového centra a pak vyberte Propojené.
Přejděte do azure Data Lake Storage Gen2>myworkspace (primární – contosolake).
Vyberte uživatele (primární). Měla by se zobrazit složka NYCTaxi . Uvnitř by se měly zobrazit dvě složky s názvem PassengerCountStats_csvformat a PassengerCountStats_parquetformat.
Otevřete složku PassengerCountStats_parquetformat. Uvnitř je parketový soubor s názvem, jako part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquetje .

Klikněte pravým tlačítkem na .parquet a pak vyberte Nový poznámkový blok a pak vyberte Načíst do datového rámce. Vytvoří se nový poznámkový blok s buňkou, která bude vypadat takto:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Připojte se k fondu Spark s názvem Spark1. Spusťte buňku. Pokud narazíte na chybu související s nedostatkem jader, může tento fond Sparku používat jiná relace. Zrušte všechny existující relace a zkuste to znovu.
Vyberte zpátky do složky uživatelé . Znovu klikněte pravým tlačítkem myši na soubor .parquet a pak vyberte Nový skript>SQL SELECT TOP 100 řádků. Vytvoří skript SQL takto:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
V okně skriptu se ujistěte, že je pole Připojit k nastavené na předdefinovaný bezserverový fond SQL.
Spusťte skript.

Další krok

Orchestrace aktivit pomocí kanálů

Sdílet prostřednictvím

Kurz: Analýza dat v účtu úložiště

Vytvoření souborů CSV a Parquet v účtu úložiště

Analýza dat v účtu úložiště

Další krok

Váš názor

Další materiály