在無伺服器 SQL 集區中同步處理 Apache Spark for Azure Synapse 的外部資料表定義
無伺服器 SQL 集區可以自動同步處理來自 Apache Spark 的中繼資料。 系統會針對 Spark 集區中的每個資料庫建立無伺服器 SQL 集區資料庫。
針對以 Parquet 或 CSV 為基礎且位於 Azure 儲存體中的每個 Spark 外部資料表,系統會在無伺服器 SQL 集區資料庫中建立一個外部資料表。 因此,您可以在關閉 Spark 集區後,繼續從無伺服器 SQL 集區查詢 Spark 外部資料表。
在 Spark 中分割資料表時,儲存體中的檔案會依資料夾組織。 無伺服器 SQL 集區會使用分割區中繼資料,而且只會以相關的資料夾和檔案作為查詢目標。
系統已針對 Azure Synapse 工作區中佈建的每個無伺服器 Apache Spark 集區自動設定中繼資料同步。 您可以立即開始查詢 Spark 外部資料表。
位於 Azure 儲存體中的每個 Spark Parquet 或 CSV 外部資料表都會以 dbo 結構描述中對應至無伺服器 SQL 集區資料庫的外部資料表來表示。
針對 Spark 外部資料表查詢,請執行以外部 [spark_table] 為目標的查詢。 在執行下列範例之前,請確定您可以正確地存取檔案所在的儲存體帳戶。
SELECT * FROM [db].dbo.[spark_table]
Apache Spark 資料類型與 SQL 資料類型的對應
如需有關將 Apache Spark 資料類型對應到 SQL 資料類型的詳細資訊,請參閱 Azure Synapse Analytics 共用中繼資料資料表。
下一步
若要深入了解儲存體的存取控制,請前往儲存體存取控制一文。