Apache Spark synchroniseren voor externe tabeldefinities van Azure Synapse in een serverloze SQL-pool
Met een serverloze SQL-pool kunnen automatisch metagegevens worden gesynchroniseerd van Apache Spark. Er wordt een serverloze SQL-pooldatabase gemaakt voor elke database in serverloze Apache Spark-pools.
Voor elke externe Spark-tabel op basis van Parquet of CSV die zich in Azure Storage bevindt, wordt een externe tabel gemaakt in een serverloze SQL-pooldatabase. Op deze manier kunt u uw Spark-pools afsluiten en nog steeds query’s uitvoeren op externe Spark-tabellen vanuit een serverloze SQL-pool.
Wanneer een tabel is gepartitioneerd in Spark, worden de bestanden in de opslag geordend in mappen. Serverloze SQL-pools maken gebruik van partitiemetagegevens en werken alleen met relevante mappen en bestanden voor uw query.
Synchronisatie van metagegevens wordt automatisch geconfigureerd voor elke serverloze Apache Spark-pool die is ingericht in de Azure Synapse-werkruimte. U kunt direct beginnen met het uitvoeren van query’s op externe Spark-tabellen.
Elke externe Spark Parquet- of CSV-tabel in Azure Storage wordt weergegeven met een externe tabel in een dbo-schema dat overeenkomt met een serverloze SQL-pooldatabase.
Voer voor externe Spark-tabelquery’s een query uit die is gericht op een externe [spark_table]. Voordat u het volgende voorbeeld uitvoert, moet u controleren of u de juiste toegang tot het opslagaccount hebt waar de bestanden zich bevinden.
SELECT * FROM [db].dbo.[spark_table]
Apache Spark-gegevenstypen toewijzen aan SQL-gegevenstypen
Zie Azure Synapse gedeelde metagegevenstabellen van Analytics voor meer informatie over het toewijzen van Apache Spark-gegevenstypen aan SQL-gegevenstypen.
Volgende stappen
Ga naar het artikel Storage-toegangsbeheer voor meer informatie over opslagtoegangsbeheer.