Trasformare i dati usando l'attività Hadoop Streaming in Azure Data Factory o Synapse Analytics
SI APPLICA A: Azure Data Factory Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
L'attività di streaming HDInsight in una pipeline di Azure Data Factory o Synapse Analytics esegue programmi Hadoop Streaming nel proprio cluster HDInsight o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.
Per altre informazioni, leggere gli articoli introduttivi di Azure Data Factory e Synapse Analytics ed eseguire l'esercitazione : trasformare i dati prima di leggere questo articolo.
Aggiungere un'attività HDInsight Streaming a una pipeline con l'interfaccia utente
Per usare un'attività di streaming HDInsight in una pipeline, completare la procedura seguente:
Cercare Streaming nel riquadro Attività pipeline e trascinare un'attività di streaming nell'area di disegno della pipeline.
Selezionare la nuova attività Streaming nell'area di disegno, se non è già selezionata.
Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato in un cluster HDInsight che verrà usato per eseguire l'attività di streaming.
Selezionare la scheda File per specificare i nomi del mapper e del riduttore per il processo di streaming e selezionare o creare un nuovo servizio collegato a un account Archiviazione di Azure che consentirà il mapper, il riduttore, l'input e i file di output per il processo. È anche possibile configurare dettagli avanzati, tra cui la configurazione di debug, gli argomenti e i parametri da passare al processo.
Esempio di JSON
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Dettagli sintassi
Proprietà | Descrizione | Richiesto |
---|---|---|
name | Nome dell'attività | Sì |
description | Testo descrittivo per lo scopo dell'attività | No |
type | Per l'attività di streaming di Hadoop, il tipo di attività è HDInsightStreaming | Sì |
linkedServiceName | Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo. | Sì |
mapper | Specifica il nome del mapper eseguibile | Sì |
reducer | Specifica il nome del reducer eseguibile | Sì |
combiner | Specifica il nome del combiner eseguibile | No |
fileLinkedService | Riferimento a un servizio collegato Archiviazione di Azure usato per memorizzare i programmi relativi a mapper, combiner e reducer da eseguire. Qui sono supportati solo i servizi collegati Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. | No |
filePath | Specificare una matrice di percorso per i programmi relativi a mapper, combiner e reducer memorizzati in Archiviazione di Azure a cui fa riferimento fileLinkedService. Per il percorso viene applicata la distinzione tra maiuscole e minuscole. | Sì |
input | Specifica il percorso WASB del file di input per il mapper. | Sì |
output | Specifica il percorso WASB del file di output per il reducer. | Sì |
getDebugInfo | Specifica quando i file di log vengono copiati nell'Archiviazione di Azure usata dal cluster HDInsight (o) indicata da scriptLinkedService. Valori consentiti: None, Always o Failure. Valore predefinito: None. | No |
argomenti | Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. | No |
defines | Specificare i parametri come coppie chiave/valore per fare riferimento a essi nello script Hive. | No |
Contenuto correlato
Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: