Spark gebruiken in notebooks

Voltooid

U kunt veel verschillende soorten toepassingen uitvoeren in Spark, waaronder code in Python- of Scala-scripts, Java-code die is gecompileerd als een Java Archive (JAR) en andere. Spark wordt vaak gebruikt in twee soorten workloads:

  • Batch- of streamverwerkingstaken voor het opnemen, opschonen en transformeren van gegevens, die vaak worden uitgevoerd als onderdeel van een geautomatiseerde pijplijn.
  • Interactieve analysesessies voor het verkennen, analyseren en visualiseren van gegevens.

Spark-code uitvoeren in notebooks

Azure Databricks bevat een geïntegreerde notebookinterface voor het werken met Spark. Notebooks bieden een intuïtieve manier om code te combineren met Markdown-notities, die vaak worden gebruikt door gegevenswetenschappers en gegevensanalisten. Het uiterlijk van de geïntegreerde notebookervaring in Azure Databricks is vergelijkbaar met die van Jupyter-notebooks: een populair opensource-notebookplatform.

Een schermopname van een notebook in Azure Databricks.

Notebooks bestaan uit een of meer cellen, elk met code of markdown. Codecellen in notebooks hebben enkele functies die u kunnen helpen productiever te zijn, waaronder:

  • Syntaxismarkering en foutondersteuning.
  • Automatisch aanvullen van code.
  • Interactieve gegevensvisualisaties.
  • De mogelijkheid om resultaten te exporteren.

Tip

Zie het artikel Notebooks in de documentatie van Azure Databricks voor meer informatie over het werken met notebooks in Azure Databricks.