Transformar dados executando uma atividade do Azure HDInsight

Artigo
05/21/2024

A atividade do Azure HDInsight no Data Factory para Microsoft Fabric permite orquestrar os seguintes tipos de trabalhos do Azure HDInsight:

Executar consultas de Hive
Invocar um programa MapReduce
Executar consultas do Pig
Executar um programa Spark
Executar um programa Hadoop Stream

Este artigo fornece um passo a passo que descreve como criar uma atividade do Azure HDInsight usando a interface do usuário do Data Factory.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

Uma conta de locatário com uma assinatura ativa. Crie uma conta gratuitamente.
Um espaço de trabalho é criado.

Adicionar uma atividade do Azure HDInsight (HDI) a um pipeline com a interface do usuário

Crie um novo pipeline de dados no seu espaço de trabalho.
Pesquise Azure HDInsight no cartão da tela de início e selecione essa opção ou escolha a atividade na barra Atividades para adicioná-la à tela do pipeline.
- Como criar a atividade no cartão da tela de início:
- Como criar a atividade na barra Atividades:
Selecione a nova atividade do Azure HDInsight na tela do editor de pipeline se ela ainda não estiver selecionada.

Consulte as diretrizes de Configurações gerais para definir as opções encontradas na guia Configurações gerais.

Configurar o cluster HDI

Selecione a guia Cluster HDI. Em seguida, você pode escolher uma conexão existente ou criar uma nova conexão HDInsight.
Para a conexão de Recurso, escolha o Armazenamento de Blobs do Azure que faz referência ao cluster Azure HDInsight. Você pode escolher um armazenamento de blobs existente ou criar um novo.

Definir configurações

Selecione a guia Configurações para ver as configurações avançadas da atividade.

Captura de tela mostrando a guia Configurações das propriedades de atividade do Azure HDInsight na janela do editor de pipeline. .

Todas as propriedades de cluster avançadas e expressões dinâmicas com suporte no serviço vinculado do Azure Data Factory e do Synapse Analytics HDInsight agora também têm suporte na atividade do Azure HDInsight para Data Factory no Microsoft Fabric, na seção Avançado na interface do usuário. Todas essas propriedades oferecem suporte a expressões parametrizadas personalizadas fáceis de usar com conteúdo dinâmico.

Tipo de cluster

Para definir as configurações do cluster HDInsight, primeiro escolha seu Tipo nas opções disponíveis, incluindo Hive, Map Reduce, Pig, Spark e Streaming.

Hive

Se você escolher Hive para Tipo, a atividade executará uma consulta do Hive. Opcionalmente, você pode especificar a conexão de script que faz referência a uma conta de armazenamento que contém o tipo Hive. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações na seção Avançado, Informações de depuração, Tempo limite da consulta, Argumentos, Parâmetros e Variáveis.

Captura de tela mostrando o tipo de cluster do Hive.

Map Reduce

Se você escolher Map Reduce para Tipo, a atividade invocará um programa do Map Reduce. Opcionalmente, você pode especificar na conexão Jar uma referência a uma conta de armazenamento que contenha o tipo Map Reduce. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o nome da classe e o caminho do arquivo a serem executados no Azure HDInsight. Opcionalmente, você pode especificar mais detalhes de configuração, como importar bibliotecas Jar, informações de depuração, argumentos e parâmetros na seção Avançado.

Captura de tela mostrando a seleção de Map Reduce para o tipo de cluster HDInsight.

Pig

Se você escolher Pig para Tipo, a atividade invocará uma consulta Pig. Opcionalmente, você pode especificar a configuração de conexão de script que faz referência à conta de armazenamento que contém o tipo Pig. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações, como informações de depuração, argumentos, parâmetros e variáveis na seção Avançado.

Captura de tela mostrando a seleção do tipo Pig para o cluster HDInsight.

Spark

Se você escolher Spark para Tipo, a atividade invocará um programa de Spark. Selecione Script ou Jar para o tipo Spark. Opcionalmente, você pode especificar a conexão de trabalho fazendo referência à conta de armazenamento que contém o tipo Spark. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações, como nome de classe, usuário proxy, informações de depuração, argumentos e configuração do Spark na seção Avançado.

Captura de tela mostrando a seleção do tipo Spark para o cluster HDInsight.

Streaming

Se você escolher Streaming para Tipo, a atividade invocará um programa de Streaming. Especifique os nomes do Mapeador e do Redutor e, opcionalmente, você pode especificar a conexão de arquivo que faz referência à conta de armazenamento que contém o tipo de Streaming. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o Caminho do arquivo para o Mapeador e o Caminho do arquivo para o Redutor a serem executados no Azure HDInsight. Inclua as opções de Entrada e Saída, assim como para o caminho WASB. Opcionalmente, você pode especificar mais configurações, como informações de depuração, argumentos e parâmetros na seção Avançado.

Captura de tela mostrando a seleção do tipo de Streaming para o cluster HDInsight.

Referência de propriedade

Propriedade	Descrição	Obrigatório
tipo	Para a atividade de streaming do Hadoop, o tipo de atividade é HDInsightStreaming	Sim
mapper	Especifica o nome do executável do Mapeador	Sim
reducer	Especifica o nome do executável do Redutor	Sim
combiner	Especifica o nome do executável de Combinação	Não
Conexão do arquivo	Referência a um serviço vinculado de Armazenamento do Azure usado para armazenar os programas Mapeador, Combinação e Redutor a serem executados.	Não
	Somente as conexões do Armazenamento de Blobs do Azure e do ADLS Gen2 são compatíveis aqui. Se você não especificar essa conexão, a conexão de armazenamento definida na conexão do HDInsight será usada.
filePath	Forneça uma matriz de caminho para os programas Mapeador, Combinação e Redutor armazenados no Armazenamento do Azure referenciados pela conexão de arquivo.	Sim
input	Especifica o caminho do WASB para o arquivo de entrada do Mapeador.	Sim
output	Especifica o caminho do WASB para o arquivo de saída do Redutor.	Sim
getDebugInfo	Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster do HDInsight (ou) especificado por scriptLinkedService.	Não
	Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum.
argumentos	Especifica uma matriz de argumentos para um trabalho do Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa.	Não
defines	Especifique parâmetros como pares chave-valor para referências no script do Hive.	Não

Salvar e executar ou agendar o pipeline

Após configurar quaisquer outras atividades exigidas pelo pipeline, alterne para a guia Página Inicial na parte superior do editor do pipeline e selecione o botão Salvar para salvar o pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode exibir o histórico de execuções aqui ou definir outras configurações.

Captura de tela mostrando a guia Início do editor de pipeline, destacando os botões Salvar, Executar e Agendar.

Como monitorar execuções de pipeline

Compartilhar via

Transformar dados executando uma atividade do Azure HDInsight

Pré-requisitos

Adicionar uma atividade do Azure HDInsight (HDI) a um pipeline com a interface do usuário

Configurar o cluster HDI