Delen via


Gegevens transformeren met behulp van Hadoop Pig-activiteit in Azure Data Factory of Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

De HDInsight Pig-activiteit in een Data Factory-pijplijn voert Pig-query's uit op uw eigen of on-demand HDInsight-cluster. Dit artikel is gebaseerd op het artikel over activiteiten voor gegevenstransformatie , waarin een algemeen overzicht wordt weergegeven van de gegevenstransformatie en de ondersteunde transformatieactiviteiten.

Lees voor meer informatie de inleiding tot Azure Data Factory of Synapse Analytics en voer de zelfstudie uit: gegevens transformeren voordat u dit artikel leest.

Een HDInsight Pig-activiteit toevoegen aan een pijplijn met ui

Voer de volgende stappen uit om een HDInsight Pig-activiteit te gebruiken voor een pijplijn:

  1. Zoek naar Pig in het deelvenster Pijplijnactiviteiten en sleep een Pig-activiteit naar het pijplijncanvas.

  2. Selecteer de nieuwe Pig-activiteit op het canvas als deze nog niet is geselecteerd.

  3. Selecteer het tabblad HDI-cluster om een nieuwe gekoppelde service te selecteren of te maken voor een HDInsight-cluster dat wordt gebruikt om de MapReduce-activiteit uit te voeren.

    Toont de gebruikersinterface voor een Pig-activiteit.

  4. Selecteer het tabblad Script om een nieuwe script gekoppelde service te selecteren of te maken naar een Azure Storage-locatie waar uw script wordt gehost. Geef een klassenaam op die daar moet worden uitgevoerd en een bestandspad binnen de opslaglocatie. U kunt ook geavanceerde details configureren, waaronder foutopsporingsconfiguratie, argumenten en parameters die moeten worden doorgegeven aan het script.

    Toont de gebruikersinterface voor het tabblad Script voor een Pig-activiteit.

Syntaxis

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Syntaxisdetails

Eigenschappen Beschrijving Vereist
naam Naam van de activiteit Ja
beschrijving Tekst waarin wordt beschreven waarvoor de activiteit wordt gebruikt Nee
type Voor Hive-activiteit is het activiteitstype HDinsightPig Ja
linkedServiceName Verwijzing naar het HDInsight-cluster dat is geregistreerd als een gekoppelde service. Zie het artikel Gekoppelde services berekenen voor meer informatie over deze gekoppelde service. Ja
scriptLinkedService Verwijzing naar een gekoppelde Azure Storage-service die wordt gebruikt om het Pig-script op te slaan dat moet worden uitgevoerd. Hier worden alleen gekoppelde Azure Blob Storage- en ADLS Gen2-services ondersteund. Als u deze gekoppelde service niet opgeeft, wordt de gekoppelde Azure Storage-service die is gedefinieerd in de gekoppelde HDInsight-service gebruikt. Nee
scriptPath Geef het pad op naar het scriptbestand dat is opgeslagen in Azure Storage waarnaar wordt verwezen door scriptLinkedService. De bestandsnaam is hoofdlettergevoelig. Nee
getDebugInfo Hiermee geeft u op wanneer de logboekbestanden worden gekopieerd naar de Azure Storage die wordt gebruikt door het HDInsight-cluster (of) dat is opgegeven door scriptLinkedService. Toegestane waarden: Geen, Altijd of Fout. Standaardwaarde: Geen. Nee
Argumenten Hiermee geeft u een matrix van argumenten voor een Hadoop-taak. De argumenten worden doorgegeven als opdrachtregelargumenten aan elke taak. Nee
Definieert Geef parameters op als sleutel-waardeparen om te verwijzen in het Pig-script. Nee

Zie de volgende artikelen waarin wordt uitgelegd hoe u gegevens op andere manieren kunt transformeren: