使用適用於 Azure Synapse Analytics 的 Apache Spark 連線到 Azure 資料總管
本文說明如何使用適用于 Azure Synapse Analytics 的 Apache Spark,從 Synapse Studio 存取 Azure 資料總管資料庫。
必要條件
- 建立 Azure 資料總管叢集和資料庫 。
- 擁有現有的 Azure Synapse Analytics 工作區,或遵循快速入門:建立 Azure Synapse 工作區中的 步驟來建立新的工作區 。
- 請擁有現有的 Apache Spark 集區,或遵循快速入門:使用 Azure 入口網站 建立 Apache Spark 集區中的 步驟來建立新的集區。
- 藉由布建 Microsoft Entra 應用程式來建立 Microsoft Entra 應用程式 。
- 遵循管理 Azure 資料總管資料庫許可權中的 步驟,將 Microsoft Entra 應用程式存取權授與資料庫。
移至 Synapse Studio
從 Azure Synapse 工作區中,選取 [ 啟動 Synapse Studio ]。 在 Synapse Studio 首頁上,選取 [資料] 以移至 [資料 物件總管 ]。
連線 Azure 資料總管資料庫至 Azure Synapse 工作區
連線 Azure 資料總管資料庫至工作區,是透過連結的服務來完成。 使用 Azure 資料總管連結服務,您可以流覽和探索適用于 Azure Synapse 的 Apache Spark 中的資料、讀取和寫入。 您也可以在管線中執行整合作業。
從 [資料] 物件總管,遵循下列步驟來直接連線 Azure 資料總管叢集:
+選取 [資料 ] 附近的 圖示。
選取 [連線 ],以連線到外部資料。
選取 [Azure 資料總管] [Kusto]。
選取 [繼續]。
使用易記名稱來命名連結的服務。 名稱會出現在資料物件總管中,並由 Azure Synapse 執行時間用來連線到資料庫。
從您的訂用帳戶選取 Azure 資料總管叢集,或輸入 URI。
輸入服務主體識別碼 和服務 主體金鑰 。 請確定此服務主體可檢視資料庫的存取權,以進行讀取作業,以及擷取資料的擷取器存取。
輸入 Azure 資料總管資料庫名稱。
選取 [ 測試連線 ],以確保您擁有正確的許可權。
選取建立。
注意
(選擇性) 測試連線 不會驗證寫入存取權。 請確定您的服務主體識別碼具有 Azure 資料總管資料庫的寫入權限。
Azure 資料總管叢集和資料庫會出現在 [Azure 資料 總管] 區段下方的 [ 連結 ] 索引標籤上。
您必須先將它發佈至工作區,才能從筆記本與連結服務互動。 按一下工具列中的 [ 發佈 ],檢閱擱置中的變更,然後按一下 [ 確定 ]。
注意
在目前的版本中,資料庫物件會根據 Azure 資料總管資料庫的 Microsoft Entra 帳戶許可權填入。 當您執行 Apache Spark 筆記本或整合作業時,將會使用連結服務中的認證(例如服務主體)。
快速與程式碼產生的動作互動
當您以滑鼠右鍵按一下資料庫或資料表時,就會顯示範例 Spark 筆記本清單。 選取選項以讀取、寫入或串流資料至 Azure 資料總管。
以下是讀取資料的範例。 將筆記本附加至 Spark 集區,然後執行資料格。
注意
第一次執行可能需要三分鐘以上的時間來起始 Spark 會話。 後續的執行速度將會大幅加快。
限制
Azure Synapse 受控虛擬網路目前不支援 Azure 資料總管連接器。