Delen via


Zelfstudie: Python uitvoeren op een cluster en als een taak met behulp van de Databricks-extensie voor Visual Studio Code

Deze zelfstudie begeleidt u bij het instellen van de Databricks-extensie voor Visual Studio Code en het uitvoeren van Python op een Azure Databricks-cluster en als een Azure Databricks-taak in uw externe werkruimte. Zie Wat is de Databricks-extensie voor Visual Studio Code?

Vereisten

Voor deze zelfstudie is het volgende vereist:

  • U hebt de Databricks-extensie voor Visual Studio Code geïnstalleerd. Zie De Databricks-extensie voor Visual Studio Code installeren.
  • U hebt een extern Azure Databricks-cluster dat u kunt gebruiken. Noteer de naam van het cluster. Als u de beschikbare clusters wilt weergeven, klikt u in de zijbalk van uw Azure Databricks-werkruimte op Compute. Zie Compute.

Stap 1: Een nieuw Databricks-project maken

In deze stap maakt u een nieuw Databricks-project en configureert u de verbinding met uw externe Azure Databricks-werkruimte.

  1. Start Visual Studio Code en klik vervolgens op > en open een lege map op uw lokale ontwikkelcomputer.
  2. Klik op de zijbalk op het logopictogram van Databricks . Hiermee opent u de Databricks-extensie.
  3. Klik in de configuratieweergave op Migreren naar een Databricks-project.
  4. Het opdrachtpalet voor het configureren van uw Databricks-werkruimte wordt geopend. Voor Databricks Hostvoert u uw URL per werkruimte in of selecteert u deze, bijvoorbeeldhttps://adb-1234567890123456.7.azuredatabricks.net.
  5. Selecteer een verificatieprofiel voor het project. Zie De verificatie-instelling voor de Databricks-extensie voor Visual Studio Code.

Stap 2: clustergegevens toevoegen aan de Databricks-extensie en het cluster starten

  1. Als de configuratieweergave al is geopend, klikt u op Selecteer een cluster of klikt u op het tandwielpictogram (Cluster configureren).

    Cluster configureren

  2. Selecteer in het opdrachtpaletde naam van het cluster dat u eerder hebt gemaakt.

  3. Klik op het afspeelpictogram (Cluster starten) als dit nog niet is gestart.

Stap 3: Python-code maken en uitvoeren

  1. Maak een lokaal Python-codebestand: klik op de zijbalk op het mappictogram (Explorer).

  2. Klik in het hoofdmenu op Bestand > nieuw bestand. Geef het bestand een naam demo.py en sla het op in de hoofdmap van het project.

  3. Voeg de volgende code toe aan het bestand en sla deze vervolgens op. Met deze code wordt de inhoud van een eenvoudig PySpark-dataframe gemaakt en weergegeven:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Klik op het pictogram Uitvoeren op Databricks naast de lijst met editortabbladen en klik vervolgens op uploaden en uitvoeren van bestand. De uitvoer wordt weergegeven in de consoleweergave voor foutopsporing.

    Bestand uploaden en uitvoeren vanaf pictogram

    U kunt ook in de Verkenner-weergave met de >

    Bestand uploaden en uitvoeren vanuit het contextmenu

Stap 4: De code uitvoeren als een taak

Als u demo.py als taak wilt uitvoeren, klikt u op het pictogram Uitvoeren op Databricks naast de lijst met editortabbladen en klikt u vervolgens op Bestand uitvoeren als werkstroom. De uitvoer wordt weergegeven op een afzonderlijk editortabblad naast de demo.py bestandseditor.

Bestand uitvoeren als werkstroom vanaf het pictogram

U kunt ook met de rechtermuisknop op het demo.py bestand klikken in het deelvenster Explorer en dan Uitvoeren op Databricks>Run File as Workflowselecteren.

Bestand uitvoeren als werkstroom vanuit het contextmenu

Volgende stappen

Nu u de Databricks-extensie voor Visual Studio Code hebt gebruikt om een lokaal Python-bestand te uploaden en op afstand uit te voeren, kunt u ook het volgende doen: