Sdílet prostřednictvím


Rychlý start: Analýza pomocí Apache Sparku

V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Sparku pro Azure Synapse.

Požadavky

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

Vytvoření bezserverového fondu Apache Sparku

  1. V nástroji Synapse Studio v levém podokně vyberte Spravovat>fondy Apache Sparku.
  2. Výběr možnosti Nový
  3. Jako název fondu Apache Sparku zadejte Spark1.
  4. Jako velikost uzlu zadejte Small.
  5. Pro počet uzlů nastavte minimum na 3 a maximum na 3.
  6. Vyberte Zkontrolovat a vytvořit>Vytvořit. Váš fond Apache Sparku bude připravený během několika sekund.

Principy bezserverových fondů Apache Sparku

Bezserverový fond Sparku představuje způsob, jak chce uživatel pracovat se Sparkem. Když začnete používat fond, vytvoří se v případě potřeby relace Sparku. Fond řídí, kolik prostředků Sparku bude tato relace používat a jak dlouho bude relace trvat, než se automaticky pozastaví. Platíte za prostředky Sparku používané během této relace, a ne za samotný fond. Díky tomu fond Sparku umožňuje používat Apache Spark bez správy clusterů. Podobá se tomu, jak funguje bezserverový fond SQL.

Analýza dat taxislužby NYC pomocí fondu Sparku

Poznámka:

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

  1. V synapse Studiu přejděte do centra Vývoj .

  2. Vytvořte nový poznámkový blok.

  3. Vytvořte novou buňku kódu a vložte do této buňky následující kód:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
    display(df.limit(10))
    
  4. Upravte identifikátor URI načtení, aby odkaz na ukázkový soubor ve vašem účtu úložiště odpovídal schématu identifikátorů URI abfss.

  5. V poznámkovém bloku v nabídce Připojit k zvolte bezserverový fond Sparku Spark1 , který jsme vytvořili dříve.

  6. Vyberte Spustit v buňce. Synapse spustí novou relaci Sparku, která v případě potřeby spustí tuto buňku. Pokud je potřeba nová relace Sparku, bude zpočátku vytvoření přibližně 2 až 5 minut trvat. Po vytvoření relace bude provádění buňky trvat přibližně 2 sekundy.

  7. Pokud chcete jenom zobrazit schéma datového rámce, spusťte buňku s následujícím kódem:

    %%pyspark
    df.printSchema()
    

Načtení dat taxi NYC do databáze Spark nyctaxi

Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ji do databáze Sparku s názvem nyctaxi.

  1. Přidejte do poznámkového bloku novou buňku kódu a zadejte následující kód:

    %%pyspark
    spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
    df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
    

Analýza dat taxislužby NYC pomocí Sparku a poznámkových bloků

  1. Vytvořte novou buňku kódu a zadejte následující kód.

    %%pyspark
    df = spark.sql("SELECT * FROM nyctaxi.trip") 
    display(df)
    
  2. Spuštěním buňky zobrazte data taxislužby NYC, která jsme načetli do databáze nyctaxi Spark.

  3. Vytvořte novou buňku kódu a zadejte následující kód. Tato data analyzujeme a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.

    %%pyspark
    df = spark.sql("""
       SELECT passenger_count,
           SUM(trip_distance) as SumTripDistance,
           AVG(trip_distance) as AvgTripDistance
       FROM nyctaxi.trip
       WHERE trip_distance > 0 AND passenger_count > 0
       GROUP BY passenger_count
       ORDER BY passenger_count
    """) 
    display(df)
    df.write.saveAsTable("nyctaxi.passengercountstats")
    
  4. Ve výsledcích buňky vyberte Graf a zobrazte vizualizovaná data.

Další krok