Cvičení – spouštění dotazů v clusteru HDInsight Spark

Dokončeno

V tomto cvičení se dozvíte, jak vytvořit datový rámec ze souboru CSV a jak spouštět interaktivní dotazy Spark SQL na cluster Apache Spark ve službě Azure HDInsight. Ve Sparku je datový rámec distribuovaná kolekce dat uspořádaných do pojmenovaných sloupců. Datový rámec je koncepčně ekvivalentní tabulce v relační databázi nebo datovém rámci v R/Pythonu.

V tomto kurzu se naučíte:

  • Vytvoření datového rámce ze souboru CSV
  • Spouštění dotazů nad datovým rámcem

Vytvoření datového rámce ze souboru CSV

Následující ukázkový soubor CSV obsahuje informace o teplotě budovy a je uložený v systému souborů clusteru Spark.

Ukázková datová sada

  1. Vložte následující kód do prázdné buňky poznámkového bloku Jupyter a stisknutím kombinace kláves SHIFT+ENTER kód spusťte. Kód importuje typy požadované pro tento scénář.

    from pyspark.sql import *
    
    from pyspark.sql. types import *
    
  2. Po spuštění interaktivního dotazu v Jupyter se název okna nebo karty webového prohlížeče zobrazí jako (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu. Po dokončení úlohy se změní na prázdný kruh.

    Spuštění Pythonu v Jupyteru

  3. Spuštěním následujícího kódu vytvořte datový rámec a dočasnou tabulku (hvac).

    # Create a dataframe and table from sample data
    
    csvFile = spark.read.csv ('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)
    
    csvFile.write. saveAsTable("hvac")
    

Spouštění dotazů nad datovým rámcem

Po vytvoření tabulky můžete nad daty spustit interaktivní dotaz.

  1. V prázdné buňce poznámkového bloku spusťte následující kód:

    %%sql
    
    SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
    

    Zobrazí se následující tabulkový výstup.

    Výsledky datové sady v Jupyteru

    Výsledky můžete také zobrazit v dalších vizualizacích. Pokud chcete výstup zobrazit v podobě plošného grafu, vyberte Oblast a pak nastavte další hodnoty následujícím způsobem.

    Vizualizace datové sady v Jupyteru

  2. V řádku nabídek poznámkového bloku přejděte na Příkaz Uložit > soubor a Kontrolní bod.

  3. Vypněte poznámkový blok a uvolněte prostředky clusteru: z řádku nabídek poznámkového bloku přejděte na > Soubor Zavřít a zastavit.