Delen via


IntelliJ IDEA gebruiken met Databricks Connect voor Scala

Notitie

Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt beschreven hoe u Databricks Connect gebruikt voor Scala en IntelliJ IDEA- met de Scala-invoegtoepassing. Met Databricks Connect kunt u populaire IDE's, notebookservers en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?.

Notitie

Voordat u Databricks Connect gaat gebruiken, moet u set de Databricks Connect-client.

Als u Databricks Connect en IntelliJ IDEA wilt gebruiken met de Scala-invoegtoepassing om een scala sbt-voorbeeldproject te maken, uit te voeren en fouten op te sporen, volgt u deze instructies. Deze instructies zijn getest met IntelliJ IDEA Community Edition 2023.3.6. Als u een andere versie of editie van IntelliJ IDEA gebruikt, kunnen de volgende instructies variëren.

  1. Zorg ervoor dat de Java Development Kit (JDK) lokaal is geïnstalleerd. Databricks raadt aan dat uw lokale JDK-versie overeenkomt met de versie van de JDK in uw Azure Databricks-cluster.

  2. Start IntelliJ IDEA.

  3. Klik op Bestand > Nieuw > Project.

  4. Geef uw project een zinvolle naam.

  5. Klik voor Locatieop het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar het nieuwe Scala-project op te geven.

  6. Klik voor taalop Scala-.

  7. Klik voor buildsysteemop sbt.

  8. In de vervolgkeuzelijst JDK vervolgkeuzelijst listselect u een bestaande installatie van de JDK op uw ontwikkelcomputer die overeenkomt met de JDK-versie op uw cluster of selectJDK- downloaden en de instructies op het scherm volgen om een JDK te downloaden die overeenkomt met de JDK-versie in uw cluster.

    Notitie

    Als u een JDK-installatie kiest die zich boven of onder de JDK-versie van uw cluster bevindt, kan dit onverwachte resultaten opleveren of wordt uw code helemaal niet uitgevoerd.

  9. Selecteer de nieuwste versie in de keuzelijst listselect.

  10. de versie van Scala die overeenkomt met de Scala-versie in uw cluster in de v ervolgkeuzelijst Scala .

    Notitie

    Als u een Scala-versie kiest die lager of hoger is dan de Scala-versie op uw cluster, kan dit onverwachte resultaten opleveren of wordt uw code mogelijk helemaal niet uitgevoerd.

  11. Voer voor pakketvoorvoegseleen waarde voor het pakketvoorvoegsel in voor de bronnen van uw project, bijvoorbeeld org.example.application.

  12. Zorg ervoor dat het selectievakje Voorbeeldcode toevoegen is ingeschakeld.

  13. Klik op enmaken.

  14. Voeg het Databricks Connect-pakket toe: open het nieuwe Scala-project in uw Project hulpmiddel window (Weergave > Hulpprogramma Windows > Project), open het bestand met de naam build.sbt, in project-naam> target.

  15. Voeg de volgende code toe aan het einde van het build.sbt-bestand, waarmee de afhankelijkheid van uw project wordt opgegeven op een specifieke versie van de Databricks Connect-bibliotheek voor Scala:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
    

    Vervang 14.3.1 door de versie van de Databricks Connect-bibliotheek die overeenkomt met de Databricks Runtime-versie op uw cluster. U vindt de versienummers van de Databricks Connect-bibliotheek in de centrale Maven-opslagplaats.

  16. Klik op het Wijzigingen in sbt laden meldingspictogram om uw Scala-project te update met de nieuwe bibliotheeklocatie en afhankelijkheid.

  17. Wacht totdat de sbt voortgangsindicator onder aan de IDE verdwijnt. Het sbt-laadproces kan enkele minuten duren om te voltooien.

  18. Voeg code toe: in je Project tool window, open het bestand met de naam Main.scala, in projectnaam> src > main > scala.

  19. Vervang bestaande code in het bestand door de volgende code en sla het bestand op:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    
  20. Voer de code uit: start het doelcluster in uw externe Azure Databricks-werkruimte.

  21. Nadat het cluster is gestart, klikt u in het hoofdmenu op Run > Run 'Main'.

  22. In het hulpprogramma uitvoeren window (Weergave > hulpprogramma Windows > Uitvoeren), worden de eerste vijf rijen van het samples.nyctaxi.tripstable weergegeven op het tabblad Main. Alle Scala-code wordt lokaal uitgevoerd, terwijl alle Scala-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.

  23. Fouten opsporen in de code: start het doelcluster in uw externe Azure Databricks-werkruimte als deze nog niet actief is.

  24. Klik in de voorgaande code op de rugmarge naast df.limit(5).show() om een onderbrekingspunt te set.

  25. Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > Debuggen ‘Main’.

  26. Klik in het hulpprogramma Foutopsporing hulpprogramma window (Weergave > hulpprogramma Windows > Foutopsporing) op het tabblad Console op de rekenmachine (expressie evalueren) .

  27. Voer de expressie in df.schema en klik op Evalueren om de schemavan het DataFrame weer te geven.

  28. Klik in het hulpprogramma Foutopsporingwindowzijbalk op het groene pijlpictogram (Programma hervatten).

  29. In het deelvenster Console worden de eerste vijf rijen van de samples.nyctaxi.tripstable weergegeven. Alle Scala-code wordt lokaal uitgevoerd, terwijl alle Scala-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.