Trasformare i dati usando l'attività Pig di Hadoop in Azure Data Factory o Synapse Analytics

Articolo
11/25/2024

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

L'attività Hadoop Pig in una pipeline di Data Factory esegue query Pig nel cluster HDInsight personale o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Per altre informazioni, leggere l'introduzione ad Azure Data Factory o Synapse Analytics ed eseguire l'esercitazione : trasformare i dati prima di leggere questo articolo.

Aggiungere un'attività Pig di HDInsight a una pipeline con l'interfaccia utente

Per usare un'attività Pig di HDInsight in una pipeline, completare la procedura seguente:

Cercare Pig nel riquadro Attività pipeline e trascinare un'attività Pig nell'area di disegno della pipeline.
Selezionare la nuova attività Pig nell'area di disegno, se non è già selezionata.
Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato in un cluster HDInsight che verrà usato per eseguire l'attività MapReduce.
Selezionare la scheda Script per selezionare o creare un nuovo servizio collegato script in un percorso Archiviazione di Azure in cui verrà ospitato lo script. Specificare un nome di classe da eseguire e un percorso di file all'interno del percorso di archiviazione. È anche possibile configurare dettagli avanzati, tra cui la configurazione di debug, gli argomenti e i parametri da passare allo script.

Sintassi

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Dettagli sintassi

Proprietà	Descrizione	Richiesto
name	Nome dell'attività	Sì
description	Testo descrittivo per lo scopo dell'attività	No
type	Per l'attività Hive, il tipo di attività è HDinsightPig	Sì
linkedServiceName	Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo.	Sì
scriptLinkedService	Riferimento a un servizio collegato di Archiviazione di Azure usato per archiviare lo script Pig da eseguire. Qui sono supportati solo i servizi collegati Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight.	No
scriptPath	Specificare il percorso del file di script archiviato nel servizio Archiviazione di Azure indicato da scriptLinkedService. Il nome del file distingue tra maiuscole e minuscole.	No
getDebugInfo	Specifica quando i file di log vengono copiati nell'Archiviazione di Azure usata dal cluster HDInsight (o) indicata da scriptLinkedService. Valori consentiti: None, Always o Failure. Valore predefinito: None.	No
argomenti	Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando.	No
defines	Specificare i parametri come coppie chiave/valore per i riferimenti all'interno dello script Pig.	No

Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati:

Condividi tramite

Trasformare i dati usando l'attività Pig di Hadoop in Azure Data Factory o Synapse Analytics

Aggiungere un'attività Pig di HDInsight a una pipeline con l'interfaccia utente

Sintassi

Dettagli sintassi

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Trasformare i dati usando l'attività Pig di Hadoop in Azure Data Factory o Synapse Analytics

Aggiungere un'attività Pig di HDInsight a una pipeline con l'interfaccia utente

Sintassi

Dettagli sintassi

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive