使用 Azure Data Factory 或 Synapse Analytics 中的 Hadoop 資料流活動轉換資料
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
Azure Data Factory 或 Synapse Analytics 管道中的 HDInsight 資料流活動會在您自己或隨選 HDInsight 叢集上執行 Hadoop 資料流程式。 本文是根據 資料轉換活動 一文,它呈現資料轉換和支援的轉換活動的一般概觀。
若要深入瞭解,請閱讀 Azure Data Factory 和 Synapse Analytics 的簡介文章,並在閱讀本文之前進行教學課程:轉換資料。
使用 UI 將 HDInsight 資料流活動新增至管道
若要對管道使用 HDInsight 資料流活動,請完成下列步驟:
在管道 [活動] 窗格中搜尋資料流,然後將資料流活動拖曳至管線畫布。
如果尚未選取,請選取畫布上的新資料流活動。
選取 [HDI 叢集] 索引標籤,以選取或建立要用來執行資料流活動 HDInsight 叢集的新連結服務。
選取 [檔案] 索引標籤以指定資料流作業的對應工具和減速工具名稱,然後選取或建立連結至 Azure 儲存體帳戶的新服務,以將對應工具、減速工具、輸入和輸出檔案用於作業。 您也可以設定進階詳細資料,包含偵錯設定、引數,以及要傳遞至作業的參數。
JSON 範例
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
語法詳細資料
屬性 | 描述 | 必要 |
---|---|---|
NAME | 活動的名稱 | Yes |
description | 說明活動用途的文字 | No |
type | 針對 Hadoop 資料流活動,活動類型是 HDInsightStreaming | Yes |
linkedServiceName | 註冊為連結服務的 HDInsight 叢集參考。 若要深入了解此已連結的服務,請參閱計算已連結的服務一文。 | Yes |
mapper | 指定對應程式可執行檔的名稱 | Yes |
reducer | 指定減壓器可執行檔的名稱 | Yes |
結合子 | 指定結合子可執行檔的名稱 | No |
fileLinkedService | Azure 儲存體已連結的服務用來儲存要執行之對應程式、結合子和減壓器的參考。 這裡僅支援 Azure Blob 儲存體和 ADLS Gen2 的連結服務。 如果您未指定這項連結服務,則會使用 HDInsight 已連結的服務中定義的 Azure 儲存體已連結的服務。 | No |
filePath | 提供 fileLinkedService 引用之 Azure 儲存體中儲存的對應程式、結合子和減壓器程式的路徑陣列。 路徑會區分大小寫。 | Yes |
input | 指定對應程式輸入檔案的 WASB 路徑。 | Yes |
output | 指定減壓器輸出檔案的 WASB 路徑。 | Yes |
getDebugInfo | 指定何時將記錄檔複製到 HDInsight 叢集所使用 (或) scriptLinkedService 所指定的 Azure 儲存體。 允許的值︰None、Always 或 Failure。 預設值:無。 | No |
引數 | 指定 Hadoop 作業的引數陣列。 引數會以命令列引數的方式傳遞給每項工作。 | No |
定義 | 指定參數作為機碼/值組,以供在 Hive 指令碼內參考。 | No |
相關內容
請參閱下列文章,其說明如何以其他方式轉換資料: