Använda Spark i notebook-filer

Slutförd

Du kan köra många olika typer av program på Spark, inklusive kod i Python- eller Scala-skript, Java-kod som kompilerats som javaarkiv (JAR) och andra. Spark används ofta i två typer av arbetsbelastningar:

  • Batch- eller dataströmbearbetningsjobb för att mata in, rensa och transformera data – som ofta körs som en del av en automatiserad pipeline.
  • Interaktiva analyssessioner för att utforska, analysera och visualisera data.

Köra Spark-kod i notebook-filer

Azure Databricks innehåller ett integrerat notebook-gränssnitt för att arbeta med Spark. Notebook-filer är ett intuitivt sätt att kombinera kod med Markdown-anteckningar, som ofta används av dataforskare och dataanalytiker. Utseendet och känslan i den integrerade notebook-upplevelsen i Azure Databricks liknar Jupyter Notebooks – en populär öppen källkod notebook-plattform.

En skärmbild av en notebook-fil i Azure Databricks.

Notebook-filer består av en eller flera celler som var och en innehåller antingen kod eller markdown. Kodceller i notebook-filer har några funktioner som kan hjälpa dig att bli mer produktiv, inklusive:

  • Syntaxmarkering och felstöd.
  • Automatisk slutförande av kod.
  • Interaktiva datavisualiseringar.
  • Möjligheten att exportera resultat.

Dricks

Mer information om hur du arbetar med notebook-filer i Azure Databricks finns i artikeln Notebooks i Azure Databricks-dokumentationen.