Udostępnij za pośrednictwem


Samouczek: uruchamianie języka Python w klastrze i jako zadanie przy użyciu rozszerzenia usługi Databricks dla programu Visual Studio Code

Ten samouczek przeprowadzi Cię przez proces konfigurowania rozszerzenia usługi Databricks dla programu Visual Studio Code, a następnie uruchamiania języka Python w klastrze usługi Azure Databricks i jako zadania usługi Azure Databricks w zdalnym obszarze roboczym. Zobacz Co to jest rozszerzenie usługi Databricks dla programu Visual Studio Code?.

Wymagania

Ten samouczek wymaga:

Krok 1. Tworzenie nowego projektu usługi Databricks

W tym kroku utworzysz nowy projekt usługi Databricks i skonfigurujesz połączenie ze zdalnym obszarem roboczym usługi Azure Databricks.

  1. Uruchom program Visual Studio Code, a następnie kliknij pozycję Plik > Otwórz folder i otwórz pusty folder na lokalnej maszynie programistycznej.
  2. Na pasku bocznym kliknij ikonę logo usługi Databricks . Spowoduje to otwarcie rozszerzenia usługi Databricks.
  3. W widoku Konfiguracja kliknij pozycję Migruj do projektu usługi Databricks.
  4. Zostanie otwarta paleta poleceń do skonfigurowania obszaru roboczego usługi Databricks. W polu Host usługi Databricks wprowadź lub wybierz adres URL dla poszczególnych obszarów roboczych, na przykład https://adb-1234567890123456.7.azuredatabricks.net.
  5. Wybierz profil uwierzytelniania dla projektu. Zobacz Konfigurowanie uwierzytelniania dla rozszerzenia usługi Databricks dla programu Visual Studio Code.

Krok 2. Dodawanie informacji o klastrze do rozszerzenia usługi Databricks i uruchamianie klastra

  1. Po otwarciu widoku Konfiguracja kliknij pozycję Wybierz klaster lub kliknij ikonę koła zębatego (Konfiguruj klaster).

    Konfigurowanie klastra

  2. W palecie poleceń wybierz nazwę utworzonego wcześniej klastra.

  3. Kliknij ikonę odtwarzania (Uruchom klaster), jeśli jeszcze nie został uruchomiony.

Krok 3. Tworzenie i uruchamianie kodu w języku Python

  1. Utwórz lokalny plik kodu języka Python: na pasku bocznym kliknij ikonę folderu (Eksploratora).

  2. W menu głównym kliknij pozycję Plik > nowy plik. Nadaj plikowi nazwę demo.py i zapisz go w katalogu głównym projektu.

  3. Dodaj następujący kod do pliku, a następnie zapisz go. Ten kod tworzy i wyświetla zawartość podstawowej ramki danych PySpark:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Kliknij ikonę Uruchom w usłudze Databricks obok listy kart edytora, a następnie kliknij pozycję Przekaż i uruchom plik. Dane wyjściowe są wyświetlane w widoku Konsola debugowania.

    Przekazywanie i uruchamianie pliku z ikony

    Alternatywnie w widoku Eksploratora kliknij prawym przyciskiem myszy demo.py plik, a następnie kliknij polecenie Uruchom w obszarze Przekazywanie i uruchamianie pliku usługi Databricks>.

    Przekazywanie i uruchamianie pliku z menu kontekstowego

Krok 4. Uruchamianie kodu jako zadania

Aby uruchomić demo.py zadanie jako zadanie, kliknij ikonę Uruchom w usłudze Databricks obok listy kart edytora, a następnie kliknij pozycję Uruchom plik jako przepływ pracy. Dane wyjściowe są wyświetlane na osobnej karcie edytora obok edytora demo.py plików.

Uruchom plik jako przepływ pracy z ikony

Alternatywnie kliknij prawym przyciskiem myszy demo.py plik w panelu Eksplorator, a następnie wybierz polecenie Uruchom w usłudze Databricks>Uruchom plik jako przepływ pracy.

Uruchamianie pliku jako przepływu pracy z menu kontekstowego

Następne kroki

Teraz, gdy pomyślnie użyto rozszerzenia usługi Databricks dla programu Visual Studio Code do przekazania lokalnego pliku języka Python i uruchomienia go zdalnie, możesz również: