Azure Databricks för Scala-utvecklare
Den här artikeln innehåller en guide för att utveckla notebook-filer och jobb i Azure Databricks med hjälp av Scala-språket. Det första avsnittet innehåller länkar till självstudier för vanliga arbetsflöden och uppgifter. Det andra avsnittet innehåller länkar till API:er, bibliotek och nyckelverktyg.
Ett grundläggande arbetsflöde för att komma igång är:
- Importera kod och kör den med hjälp av en interaktiv Databricks-notebook-fil: Importera antingen din egen kod från filer eller Git-lagringsplatser eller prova en självstudie som visas nedan.
- Kör koden i ett kluster: Skapa antingen ett eget kluster eller se till att du har behörighet att använda ett delat kluster. Koppla anteckningsboken till klustret och kör notebook-filen.
Utöver detta kan du förgrena dig till mer specifika ämnen:
- Arbeta med större datamängder med Apache Spark
- Lägga till visualiseringar
- Automatisera din arbetsbelastning som ett jobb
- Utveckla i IDE:er
Självstudier
Självstudierna nedan innehåller exempelkod och notebook-filer för att lära dig mer om vanliga arbetsflöden. Mer information om hur du importerar notebook-exempel till din arbetsyta finns i Importera en notebook-fil .
- Självstudie: Läsa in och transformera data med Apache Spark DataFrames
- Självstudie: Delta Lake innehåller Scala-exempel.
- Använd XGBoost i Azure Databricks är ett Scala-exempel.
Referens
I underavsnitten nedan visas viktiga funktioner och tips som hjälper dig att börja utveckla i Azure Databricks med Scala.
Scala-API
De här länkarna ger en introduktion till och referens för Apache Spark Scala-API:et.
- Självstudie: Läsa in och transformera data med Apache Spark DataFrames
- Fråga efter JSON-strängar
- Introduktion till strukturerad direktuppspelning
- Apache Spark Core API-referens
- Apache Spark ML API-referens
Hantera kod med notebook-filer och Databricks Git-mappar
Databricks notebook-filer stöder Scala. Dessa notebook-filer tillhandahåller funktioner som liknar Jupyter, men med tillägg som inbyggda visualiseringar med stordata, Apache Spark-integreringar för felsökning och prestandaövervakning och MLflow-integreringar för att spåra maskininlärningsexperiment. Kom igång genom att importera en notebook-fil. När du har åtkomst till ett kluster kan du koppla en notebook-fil till klustret och köra notebook-filen.
Dricks
För att återställa din notebook, starta om kerneln. För Jupyter-användare motsvarar alternativet "starta om kärna" i Jupyter att koppla från och återansluta en notebook i Databricks. Om du vill starta om kerneln i en notebook-fil klickar du på beräkningsväljaren i notebook-verktygsfältet och hovra över det anslutna klustret eller SQL-lagret i listan för att visa en sidomeny. Välj Koppla från och koppla om. Detta kopplar från notebook-filen från klustret och kopplar om den, vilket startar om processen.
Med Databricks Git-mappar kan användare synkronisera notebook-filer och andra filer med Git-lagringsplatser. Databricks Git-mappar hjälper till med kodversioner och samarbete, och det kan förenkla importen av en fullständig lagringsplats med kod till Azure Databricks, visa tidigare notebook-versioner och integrera med IDE-utveckling. Kom igång genom att klona en fjärransluten Git-lagringsplats. Du kan sedan öppna eller skapa notebook-filer med lagringsplatsens klon, koppla anteckningsboken till ett kluster och köra notebook-filen.
Kluster och bibliotek
Azure Databricks-beräkning tillhandahåller beräkningshantering för kluster av valfri storlek: från kluster med en enda nod upp till stora kluster. Du kan anpassa klustermaskinvara och bibliotek efter dina behov. Dataexperter börjar vanligtvis arbeta antingen genom att skapa ett kluster eller använda ett befintligt delat kluster. När du har åtkomst till ett kluster kan du koppla en notebook-fil till klustret eller köra ett jobb i klustret.
- För små arbetsbelastningar som bara kräver enskilda noder kan dataexperter använda beräkning med en nod för kostnadsbesparingar.
- Detaljerade tips finns i Rekommendationer för beräkningskonfiguration
- Administratörer kan konfigurera klusterprinciper för att förenkla och vägleda skapandet av kluster.
Azure Databricks-kluster använder en Databricks Runtime som tillhandahåller många populära bibliotek, inklusive Apache Spark, Delta Lake med mera. Du kan också installera ytterligare bibliotek från tredje part eller anpassade bibliotek som ska användas med notebook-filer och jobb.
- Börja med standardbiblioteken i versionsanteckningarna för Databricks Runtime och kompatibilitet. Fullständiga listor över förinstallerade bibliotek finns i Versionsanteckningar för Databricks Runtime och kompatibilitet.
- Du kan också installera Scala-bibliotek i ett kluster.
- Mer information finns i Bibliotek.
Visualiseringar
Azure Databricks Scala-notebook-filer har inbyggt stöd för många typer av visualiseringar. Du kan också använda äldre visualiseringar:
Samverkan
I det här avsnittet beskrivs funktioner som stöder samverkan mellan Scala och SQL.
Projekt
Du kan automatisera Scala-arbetsbelastningar som schemalagda eller utlösta jobb i Azure Databricks. Jobb kan köra notebook-filer och JAR:er.
- Mer information om hur du skapar ett jobb via användargränssnittet finns i Konfigurera och redigera Databricks-jobb.
- Med Databricks SDK:er kan du skapa, redigera och ta bort jobb programmatiskt.
- Databricks CLI tillhandahåller ett bekvämt kommandoradsgränssnitt för att automatisera jobb.
ID:er, utvecklarverktyg och SDK:er
Förutom att utveckla Scala-kod i Azure Databricks-notebook-filer kan du utveckla externt med hjälp av integrerade utvecklingsmiljöer (IDE:er) som IntelliJ IDEA. Om du vill synkronisera arbetet mellan externa utvecklingsmiljöer och Azure Databricks finns det flera alternativ:
- Kod: Du kan synkronisera kod med Git. Se Git-integrering för Databricks Git-mappar.
- Bibliotek och jobb: Du kan skapa bibliotek externt och ladda upp dem till Azure Databricks. Dessa bibliotek kan importeras i Azure Databricks-notebook-filer, eller så kan de användas för att skapa jobb. Se Bibliotek samt Översikt över orkestrering på Databricks.
- Fjärrdatorkörning: Du kan köra kod från din lokala IDE för interaktiv utveckling och testning. IDE kan kommunicera med Azure Databricks för att köra stora beräkningar på Azure Databricks-kluster. Du kan till exempel använda IntelliJ IDEA med Databricks Connect.
Databricks tillhandahåller en uppsättning SDK:er som stöder automatisering och integrering med externa verktyg. Du kan använda Databricks SDK:er för att hantera resurser som kluster och bibliotek, kod och andra arbetsyteobjekt, arbetsbelastningar och jobb med mera. Se Databricks SDK:er.
Mer information om IDE:er, utvecklarverktyg och SDK:er finns i Lokala utvecklingsverktyg.
Ytterligare resurser
- Databricks Academy erbjuder kurser i egen takt och instruktörsledda kurser i många ämnen.