Transforme dados usando a atividade do Hadoop Pig no Azure Data Factory ou no Synapse Analytics

Artigo
10/03/2024

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

A atividade do HDInsight Pig em um pipeline do Data Factory executa consultas do Pig por conta própria ou sob demanda do cluster HDInsight. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.

Para saber mais, leia a introdução ao Azure Data Factory ou Synapse Analytics e faça o Tutorial: transformar dados antes de ler este artigo.

Adicionar uma atividade do HDInsight Pig a um pipeline com a interface do usuário

Para usar uma atividade do HDInsight Pig em um pipeline, conclua as seguintes etapas:

Procure Pig no painel Atividades do pipeline e arraste uma atividade do Pig para a tela do pipeline.
Selecione a nova atividade do Pig na tela, se ainda não estiver selecionada.
Selecione a guia Cluster HDI para selecionar ou criar um novo serviço vinculado a um cluster HDInsight que será usado para executar a atividade MapReduce.
Selecione a guia Script para selecionar ou criar um novo serviço vinculado de script a um local de Armazenamento do Azure onde seu script será hospedado. Especifique um nome de classe a ser executado lá e um caminho de arquivo dentro do local de armazenamento. Você também pode configurar detalhes avançados, incluindo depuração, configuração e argumentos e parâmetros a serem passados para o script.

Sintaxe

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Detalhes da sintaxe

Property	Descrição	Obrigatório
nome	Nome da atividade	Sim
descrição	Texto que descreve para que serve a atividade	Não
tipo	Para Hive Activity, o tipo de atividade é HDinsightPig	Sim
linkedServiceName	Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação.	Sim
scriptLinkedService	Referência a um Serviço Vinculado de Armazenamento do Azure usado para armazenar o script Pig a ser executado. Somente o Armazenamento de Blobs do Azure e os serviços vinculados ADLS Gen2 são suportados aqui. Se você não especificar esse Serviço Vinculado, o Serviço Vinculado de Armazenamento do Azure definido no Serviço Vinculado do HDInsight será usado.	Não
scriptPath	Forneça o caminho para o arquivo de script armazenado no Armazenamento do Azure referido por scriptLinkedService. O nome do arquivo diferencia maiúsculas de minúsculas.	Não
getDebugInfo	Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum.	Não
Argumentos	Especifica uma matriz de argumentos para um trabalho Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa.	Não
define	Especifique parâmetros como pares chave/valor para referência dentro do script Pig.	Não

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras:

Partilhar via

Transforme dados usando a atividade do Hadoop Pig no Azure Data Factory ou no Synapse Analytics

Adicionar uma atividade do HDInsight Pig a um pipeline com a interface do usuário

Sintaxe

Detalhes da sintaxe

Comentários

Recursos adicionais

Partilhar via

Transforme dados usando a atividade do Hadoop Pig no Azure Data Factory ou no Synapse Analytics

Adicionar uma atividade do HDInsight Pig a um pipeline com a interface do usuário

Sintaxe

Detalhes da sintaxe

Conteúdos relacionados

Comentários

Recursos adicionais