快速入門:使用 Apache Spark 作業定義轉換數據
在本快速入門中,您將使用 Azure Synapse Analytics 來建立使用 Apache Spark 作業定義的管線。
必要條件
- Azure 訂用帳戶:如果您沒有 Azure 訂用帳戶,請在開始前先建立免費 Azure 帳戶。
- Azure Synapse 工作區:使用 Azure 入口網站 建立 Synapse 工作區,請遵循快速入門:建立 Synapse 工作區中的指示。
- Apache Spark 作業定義:遵循教學課程:在 Synapse Studio 中建立 Apache Spark 作業定義中的 指示,在 Synapse 工作區中建立 Apache Spark 作業定義。
流覽至 Synapse Studio
建立 Azure Synapse 工作區之後,有兩種方式可以開啟 Synapse Studio:
- 在 Azure 入口網站中開啟 Synapse 工作區。 在 [開始使用] 底下的 [開啟 Synapse Studio] 卡片上選取 [開啟]。
- 開啟 Azure Synapse Analytics 並登入您的工作區。
在本快速入門中,我們使用名為 「sampletest」 的工作區作為範例。 它會自動巡覽至 Synapse Studio 首頁。
使用 Apache Spark 作業定義建立管線
管線包含一組活動的執行邏輯流程。 在本節中,您將建立包含 Apache Spark 作業定義活動的管線。
移至 [ 整合] 索引標籤。選取管線標頭旁邊的加號圖示,然後選取 [ 管線]。
在管線的 [屬性設定] 頁面中,輸入 [名稱] 的示範。
在 [活動] 窗格中的 [Synapse] 底下,將Spark作業定義拖曳到管線畫布上。
設定 Apache Spark 工作定義畫布
建立 Apache Spark 作業定義之後,系統會自動傳送至 Spark 作業定義畫布。
一般設定
選取畫布上的Spark作業定義模組。
在 [一般] 索引標籤中,輸入 [名稱] 的範例。
(選項) 您也可以輸入描述。
逾時:活動可以執行的最長時間。 預設是 7 天,也就是允許的最長時間。 格式是 D.HH:MM:SS (日期.小時:分鐘:秒)。
重試嘗試:重新嘗試次數的上限。
重試間隔:每次重新嘗試間隔的秒數。
安全輸出:核取時,活動輸出不會擷取至記錄。
安全輸入:核取時,活動輸入不會擷取至記錄。
設定索引標籤
在此面板中,您可以參考要執行的Spark作業定義。
展開 [Spark 作業定義] 清單,您可以選擇現有的 Apache Spark 作業定義。 您也可以選取 [新增 ] 按鈕來參考要執行的Spark作業定義,以建立新的Apache Spark 作業定義。
(選用) 您可以填入 Apache Spark 作業定義的資訊。 如果下列設定是空的,則會使用 Spark 工作定義本身的設定來執行;如果下列設定不是空的,這些設定將會取代 Spark 工作定義本身的設定。
屬性 說明 主要定義檔 用於作業的主要檔案。 從您的儲存體中選取 PY/JAR/ZIP 檔案。 您可以選取 [上傳檔案],以將檔案上傳至儲存體帳戶。
範例:abfss://…/path/to/wordcount.jar
子資料夾中的參考 從主要定義檔案的根資料夾掃描子資料夾,這些檔案將會新增為參考檔案。 系統會掃描名為 "jars"、“pyFiles”、“files” 或 “archive” 的資料夾,而且資料夾名稱會區分大小寫。 Main class name (主要類別名稱) 主要定義檔中的完整識別碼或主要類別。
範例:WordCount
命令列引數 您可以按一下新增按鈕,新增命令列引數。 請注意,新增命令列引數會覆寫 Spark 工作定義所定義的命令列引數。
範例:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Apache Spark 集區 您可以從清單中選取 Apache Spark 集區。 Python 程式碼參考 用於主要定義檔中參考的其他 Python 程式代碼檔案。
其支援將檔案 (.py、.py3、.zip) 傳遞至 “pyFiles” 屬性。 其會覆寫 Spark 工作定義中定義的 "pyFiles" 屬性。參考檔案 用於主要定義檔中參考的其他檔案。 動態配置執行程式 此設定會對應到 Spark 設定中的動態配置屬性,以進行 Spark 應用程式執行程式配置。 執行程式數目下限 要在針對工作所指定 Spark 集區中配置的執行程式數目下限。 執行程式數目上限 要在針對工作所指定 Spark 集區中配置的執行程式數目上限。 驅動程式大小 在指定 Apache Spark 集區中提供給作業使用的驅動程式所能使用的核心和記憶體數目。 Spark 設定 指定文章中列出的 Spark 組態屬性值:Spark 組態 - 應用程式屬性。 使用者可以使用預設設定和自訂設定。 您可以按一下新增動態內容按鈕,或按快速鍵 Alt+Shift+D,新增動態內容。 在 [新增動態內容] 頁面,您可使用任何組合的運算式、函式和系統變數,新增至動態內容。
[使用者屬性] 索引標籤
您可以在此面板新增 Apache Spark 工作定義活動的屬性。
相關內容
請前往下列文章,以瞭解 Azure Synapse Analytics 支援: