Introduktion

1 minut

Azure Databricks erbjuder en mycket skalbar plattform för dataanalys och bearbetning med Apache Spark.

Spark är en flexibel plattform som stöder många olika programmeringsspråk och API:er. Genom att konfigurera en Databricks-arbetsyta och distribuera Spark-kluster kan användarna enkelt mata in data från olika källor som Azure Data Lake eller Cosmos DB till Spark DataFrames. I de interaktiva Databricks-notebook-filerna kan användarna utföra komplexa datatransformeringar med Sparks DataFrame-API, som omfattar åtgärder som filtrering, gruppering och aggregering. De flesta databearbetnings- och analysuppgifter kan utföras med hjälp av Dataframe-API:et, vilket är det vi fokuserar på i den här modulen.

I den här modulen kommer du att:

Beskriv viktiga element i Apache Spark-arkitekturen.
Skapa och konfigurera ett Spark-kluster.
Beskriv användningsfall för Spark.
Använd Spark för att bearbeta och analysera data som lagras i filer.
Använd Spark för att visualisera data.

Introduktion

Feedback