Trasformare i dati usando l'attività Pig di Hadoop in Azure Data Factory o Synapse Analytics
SI APPLICA A: Azure Data Factory Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
L'attività Hadoop Pig in una pipeline di Data Factory esegue query Pig nel cluster HDInsight personale o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.
Per altre informazioni, leggere l'introduzione ad Azure Data Factory o Synapse Analytics ed eseguire l'esercitazione : trasformare i dati prima di leggere questo articolo.
Aggiungere un'attività Pig di HDInsight a una pipeline con l'interfaccia utente
Per usare un'attività Pig di HDInsight in una pipeline, completare la procedura seguente:
Cercare Pig nel riquadro Attività pipeline e trascinare un'attività Pig nell'area di disegno della pipeline.
Selezionare la nuova attività Pig nell'area di disegno, se non è già selezionata.
Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato in un cluster HDInsight che verrà usato per eseguire l'attività MapReduce.
Selezionare la scheda Script per selezionare o creare un nuovo servizio collegato script in un percorso Archiviazione di Azure in cui verrà ospitato lo script. Specificare un nome di classe da eseguire e un percorso di file all'interno del percorso di archiviazione. È anche possibile configurare dettagli avanzati, tra cui la configurazione di debug, gli argomenti e i parametri da passare allo script.
Sintassi
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Dettagli sintassi
Proprietà | Descrizione | Richiesto |
---|---|---|
name | Nome dell'attività | Sì |
description | Testo descrittivo per lo scopo dell'attività | No |
type | Per l'attività Hive, il tipo di attività è HDinsightPig | Sì |
linkedServiceName | Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo. | Sì |
scriptLinkedService | Riferimento a un servizio collegato di Archiviazione di Azure usato per archiviare lo script Pig da eseguire. Qui sono supportati solo i servizi collegati Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. | No |
scriptPath | Specificare il percorso del file di script archiviato nel servizio Archiviazione di Azure indicato da scriptLinkedService. Il nome del file distingue tra maiuscole e minuscole. | No |
getDebugInfo | Specifica quando i file di log vengono copiati nell'Archiviazione di Azure usata dal cluster HDInsight (o) indicata da scriptLinkedService. Valori consentiti: None, Always o Failure. Valore predefinito: None. | No |
argomenti | Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. | No |
defines | Specificare i parametri come coppie chiave/valore per i riferimenti all'interno dello script Pig. | No |
Contenuto correlato
Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: