Spark gebruiken in Azure Synapse Analytics
U kunt veel verschillende soorten toepassingen uitvoeren op Spark, waaronder code in Python- of Scala-scripts, Java-code die is gecompileerd als een Java Archive (JAR) en andere. Spark wordt vaak gebruikt in twee soorten werkbelastingen:
- Batch- of streamverwerkingstaken voor het opnemen, opschonen en transformeren van gegevens, die vaak worden uitgevoerd als onderdeel van een geautomatiseerde pijplijn.
- Interactieve analysesessies voor het verkennen, analyseren en visualiseren van gegevens.
Spark-code uitvoeren in notebooks
Azure Synapse Studio bevat een geïntegreerde notebookinterface voor het werken met Spark. Notebooks bieden een intuïtieve manier om code te combineren met Markdown-notities, die vaak worden gebruikt door gegevenswetenschappers en gegevensanalisten. Het uiterlijk van de geïntegreerde notebookervaring in Azure Synapse Studio is vergelijkbaar met die van Jupyter-notebooks: een populair opensource-notebookplatform.
Notitie
Hoewel notebooks meestal interactief worden gebruikt, kunnen notebooks worden opgenomen in geautomatiseerde pijplijnen en worden uitgevoerd als een script zonder toezicht.
Notebooks bestaan uit een of meer cellen, elk met code of markdown. Codecellen in notebooks hebben enkele functies die u kunnen helpen productiever te zijn, waaronder:
- Syntaxismarkering en foutondersteuning.
- Automatisch aanvullen van code.
- Interactieve gegevensvisualisaties.
- De mogelijkheid om resultaten te exporteren.
Tip
Zie het artikel Synapse Analytics maken, ontwikkelen en onderhouden in Azure Synapse Analytics voor meer informatie over het werken met notebooks in Azure Synapse Analytics .
Toegang tot gegevens uit een Synapse Spark-pool
U kunt Spark in Azure Synapse Analytics gebruiken om te werken met gegevens uit verschillende bronnen, waaronder:
- Een data lake op basis van het primaire opslagaccount voor de Azure Synapse Analytics-werkruimte.
- Een data lake op basis van opslag die is gedefinieerd als een gekoppelde service in de werkruimte.
- Een toegewezen of serverloze SQL-pool in de werkruimte.
- Een Azure SQL- of SQL Server-database (met behulp van de Spark-connector voor SQL Server)
- Een analytische Azure Cosmos DB-database die is gedefinieerd als een gekoppelde service en geconfigureerd met behulp van Azure Synapse Link voor Cosmos DB.
- Een Azure Data Explorer Kusto-database die is gedefinieerd als een gekoppelde service in de werkruimte.
- Een externe Hive-metastore gedefinieerd als een gekoppelde service in de werkruimte.
Een van de meest voorkomende toepassingen van Spark is om te werken met gegevens in een data lake, waar u bestanden kunt lezen en schrijven in meerdere veelgebruikte indelingen, waaronder gescheiden tekst, Parquet, Avro en andere.