Introduktion
Azure Databricks erbjuder en mycket skalbar plattform för dataanalys och bearbetning med Apache Spark.
Spark är en flexibel plattform som stöder många olika programmeringsspråk och API:er. Genom att konfigurera en Databricks-arbetsyta och distribuera Spark-kluster kan användarna enkelt mata in data från olika källor som Azure Data Lake eller Cosmos DB till Spark DataFrames. I de interaktiva Databricks-notebook-filerna kan användarna utföra komplexa datatransformeringar med Sparks DataFrame-API, som omfattar åtgärder som filtrering, gruppering och aggregering. De flesta databearbetnings- och analysuppgifter kan utföras med hjälp av Dataframe-API:et, vilket är det vi fokuserar på i den här modulen.
I den här modulen kommer du att:
- Beskriv viktiga element i Apache Spark-arkitekturen.
- Skapa och konfigurera ett Spark-kluster.
- Beskriv användningsfall för Spark.
- Använd Spark för att bearbeta och analysera data som lagras i filer.
- Använd Spark för att visualisera data.