共用方式為


連線到 StreamSets

重要

這項功能處於公開預覽狀態

StreamSets 可協助您管理及監視整個生命周期的數據流。 StreamSet 與 Azure Databricks 和 Delta Lake 的原生整合可讓您從各種來源提取數據,並輕鬆地管理管線。

如需 StreamSets 的一般示範,請觀看下列 YouTube 影片(10 分鐘)。

以下是搭配 Azure Databricks 使用 StreamSets 的步驟。

步驟 1:Generate Databricks 個人存取令牌

StreamSet 會使用 Azure Databricks 個人存取令牌向 Azure Databricks 進行驗證。

注意

作為安全性最佳做法,當您使用自動化工具、系統、指令碼和應用程式進行驗證時,Databricks 建議您使用屬於服務主體的個人存取權杖,而不是工作區使用者。 若要建立服務主體的權杖,請參閱管理服務主體的權杖

步驟 2:Set 建立叢集以支援整合需求

StreamSets 會將數據寫入 Azure Data Lake Storage 路徑,而 Azure Databricks 整合叢集會從該位置讀取數據。 因此,整合叢集需要安全存取 Azure Data Lake Storage 路徑。

保護 Azure Data Lake Storage 路徑的存取

若要安全地存取 Azure Data Lake Storage (ADLS) 中的數據,您可以使用 Azure 儲存體帳戶存取密鑰(建議)或Microsoft Entra ID 服務主體。

使用 Azure 記憶體帳戶存取金鑰

您可以在整合叢集上設定記憶體帳戶存取金鑰,作為 Spark 設定的一部分。 確保儲存帳戶能夠存取用於暫存資料的 ADLS 容器和檔案系統,以及用於寫入 Delta Lake tables的 ADLS 容器和檔案系統 where。 若要將整合叢集設定為使用密鑰,請遵循連線至 Azure Data Lake Storage Gen2 和 Blob 記憶體中的步驟。

使用Microsoft Entra ID 服務主體

您可以在 Azure Databricks 整合叢集上設定服務主體,作為 Spark 組態的一部分。 請確定服務主體可以存取用於暫存數據的 ADLS 容器,以及您想要寫入 Delta tables的 ADLS 容器 where。 若要將整合叢集設定為使用服務主體,請遵循使用服務主體存取 ADLS Gen2 中的步驟。

指定叢集設定

  1. Set 叢集模式從標準

  2. Set Databricks Runtime Version 至 Runtime:6.3 或更新版本。

  3. 將下列屬性新增至 Spark 組態,以啟用優化的寫入和自動壓縮:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. 根據您的整合和調整需求來設定叢集。

如需叢集組態詳細數據,請參閱 計算組態參考

如需取得 JDBC URL 和 HTTP 路徑的步驟,請參閱 azure Databricks 計算資源 連線詳細數據。

步驟 3:取得 JDBC 和 ODBC 連線詳細數據以連線到叢集

若要將 Azure Databricks 叢集連線至 StreamSet,您需要下列 JDBC/ODBC 連線屬性:

  • JDBC URL
  • HTTP 路徑

步驟 4:Get 適用於 Azure Databricks 的 StreamSets

如果您還沒有 StreamSets 帳戶,請註冊 Databricks 的 StreamSets。 您可以get免費開始,並在準備好時升級;請參閱StreamSets DataOps 平台定價

步驟 5:瞭解如何使用 StreamSet 將數據載入 Delta Lake

從範例管線開始,或查看 StreamSets 解決方案 ,以瞭解如何建置管線以將數據內嵌至 Delta Lake。

其他資源

支援