Introduktion

Slutförd

Azure Databricks erbjuder en mycket skalbar plattform för dataanalys och bearbetning med Apache Spark.

Spark är en flexibel plattform som stöder många olika programmeringsspråk och API:er. Genom att konfigurera en Databricks-arbetsyta och distribuera Spark-kluster kan användarna enkelt mata in data från olika källor som Azure Data Lake eller Cosmos DB till Spark DataFrames. I de interaktiva Databricks-notebook-filerna kan användarna utföra komplexa datatransformeringar med Sparks DataFrame-API, som omfattar åtgärder som filtrering, gruppering och aggregering. De flesta databearbetnings- och analysuppgifter kan utföras med hjälp av Dataframe-API:et, vilket är det vi fokuserar på i den här modulen.

I den här modulen kommer du att:

  • Beskriv viktiga element i Apache Spark-arkitekturen.
  • Skapa och konfigurera ett Spark-kluster.
  • Beskriv användningsfall för Spark.
  • Använd Spark för att bearbeta och analysera data som lagras i filer.
  • Använd Spark för att visualisera data.