Inleiding

Voltooid

Azure Databricks biedt een zeer schaalbaar platform voor gegevensanalyse en -verwerking met behulp van Apache Spark.

Spark is een flexibel platform dat ondersteuning biedt voor veel verschillende programmeertalen en API's. Door een Databricks-werkruimte in te stellen en Spark-clusters te implementeren, kunnen gebruikers eenvoudig gegevens opnemen uit verschillende bronnen zoals Azure Data Lake of Cosmos DB in Spark DataFrames. Binnen de interactieve Databricks-notebooks kunnen gebruikers complexe gegevenstransformaties uitvoeren met behulp van de DataFrame-API van Spark, waaronder bewerkingen zoals filteren, groeperen en aggregatie. De meeste gegevensverwerkings- en analysetaken kunnen worden uitgevoerd met behulp van de Dataframe-API , waar we ons in deze module op richten.

In deze module wordt het volgende behandeld:

  • Beschrijf de belangrijkste elementen van de Apache Spark-architectuur.
  • Een Spark-cluster maken en configureren.
  • Gebruiksvoorbeelden voor Spark beschrijven.
  • Spark gebruiken voor het verwerken en analyseren van gegevens die zijn opgeslagen in bestanden.
  • Spark gebruiken om gegevens te visualiseren.