Compartilhar via


Transformar dados executando uma atividade do Azure HDInsight

A atividade do Azure HDInsight no Data Factory para Microsoft Fabric permite orquestrar os seguintes tipos de trabalhos do Azure HDInsight:

  • Executar consultas de Hive
  • Invocar um programa MapReduce
  • Executar consultas do Pig
  • Executar um programa Spark
  • Executar um programa Hadoop Stream

Este artigo fornece um passo a passo que descreve como criar uma atividade do Azure HDInsight usando a interface do usuário do Data Factory.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

Adicionar uma atividade do Azure HDInsight (HDI) a um pipeline com a interface do usuário

  1. Crie um novo pipeline de dados no seu espaço de trabalho.

  2. Pesquise Azure HDInsight no cartão da tela de início e selecione essa opção ou escolha a atividade na barra Atividades para adicioná-la à tela do pipeline.

    • Como criar a atividade no cartão da tela de início:

      Captura de tela mostrando onde criar uma nova atividade do Azure HDInsight.

    • Como criar a atividade na barra Atividades:

      Captura de tela mostrando onde criar uma nova atividade do Azure HDInsight na barra Atividades na janela do editor de pipeline.

  3. Selecione a nova atividade do Azure HDInsight na tela do editor de pipeline se ela ainda não estiver selecionada.

    Captura de tela mostrando a atividade do Azure HDInsight na tela do editor de pipeline.

    Consulte as diretrizes de Configurações gerais para definir as opções encontradas na guia Configurações gerais.

Configurar o cluster HDI

  1. Selecione a guia Cluster HDI. Em seguida, você pode escolher uma conexão existente ou criar uma nova conexão HDInsight.

  2. Para a conexão de Recurso, escolha o Armazenamento de Blobs do Azure que faz referência ao cluster Azure HDInsight. Você pode escolher um armazenamento de blobs existente ou criar um novo.

    Captura de tela mostrando as propriedades do Cluster HDI para a atividade do Azure HDInsight.

Definir configurações

Selecione a guia Configurações para ver as configurações avançadas da atividade.

Captura de tela mostrando a guia Configurações das propriedades de atividade do Azure HDInsight na janela do editor de pipeline. .

Todas as propriedades de cluster avançadas e expressões dinâmicas com suporte no serviço vinculado do Azure Data Factory e do Synapse Analytics HDInsight agora também têm suporte na atividade do Azure HDInsight para Data Factory no Microsoft Fabric, na seção Avançado na interface do usuário. Todas essas propriedades oferecem suporte a expressões parametrizadas personalizadas fáceis de usar com conteúdo dinâmico.

Tipo de cluster

Para definir as configurações do cluster HDInsight, primeiro escolha seu Tipo nas opções disponíveis, incluindo Hive, Map Reduce, Pig, Spark e Streaming.

Hive

Se você escolher Hive para Tipo, a atividade executará uma consulta do Hive. Opcionalmente, você pode especificar a conexão de script que faz referência a uma conta de armazenamento que contém o tipo Hive. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações na seção Avançado, Informações de depuração, Tempo limite da consulta, Argumentos, Parâmetros e Variáveis.

Captura de tela mostrando o tipo de cluster do Hive.

Map Reduce

Se você escolher Map Reduce para Tipo, a atividade invocará um programa do Map Reduce. Opcionalmente, você pode especificar na conexão Jar uma referência a uma conta de armazenamento que contenha o tipo Map Reduce. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o nome da classe e o caminho do arquivo a serem executados no Azure HDInsight. Opcionalmente, você pode especificar mais detalhes de configuração, como importar bibliotecas Jar, informações de depuração, argumentos e parâmetros na seção Avançado.

Captura de tela mostrando a seleção de Map Reduce para o tipo de cluster HDInsight.

Pig

Se você escolher Pig para Tipo, a atividade invocará uma consulta Pig. Opcionalmente, você pode especificar a configuração de conexão de script que faz referência à conta de armazenamento que contém o tipo Pig. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações, como informações de depuração, argumentos, parâmetros e variáveis na seção Avançado.

Captura de tela mostrando a seleção do tipo Pig para o cluster HDInsight.

Spark

Se você escolher Spark para Tipo, a atividade invocará um programa de Spark. Selecione Script ou Jar para o tipo Spark. Opcionalmente, você pode especificar a conexão de trabalho fazendo referência à conta de armazenamento que contém o tipo Spark. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações, como nome de classe, usuário proxy, informações de depuração, argumentos e configuração do Spark na seção Avançado.

Captura de tela mostrando a seleção do tipo Spark para o cluster HDInsight.

Streaming

Se você escolher Streaming para Tipo, a atividade invocará um programa de Streaming. Especifique os nomes do Mapeador e do Redutor e, opcionalmente, você pode especificar a conexão de arquivo que faz referência à conta de armazenamento que contém o tipo de Streaming. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o Caminho do arquivo para o Mapeador e o Caminho do arquivo para o Redutor a serem executados no Azure HDInsight. Inclua as opções de Entrada e Saída, assim como para o caminho WASB. Opcionalmente, você pode especificar mais configurações, como informações de depuração, argumentos e parâmetros na seção Avançado.

Captura de tela mostrando a seleção do tipo de Streaming para o cluster HDInsight.

Referência de propriedade

Propriedade Descrição Obrigatório
tipo Para a atividade de streaming do Hadoop, o tipo de atividade é HDInsightStreaming Sim
mapper Especifica o nome do executável do Mapeador Sim
reducer Especifica o nome do executável do Redutor Sim
combiner Especifica o nome do executável de Combinação Não
Conexão do arquivo Referência a um serviço vinculado de Armazenamento do Azure usado para armazenar os programas Mapeador, Combinação e Redutor a serem executados. Não
Somente as conexões do Armazenamento de Blobs do Azure e do ADLS Gen2 são compatíveis aqui. Se você não especificar essa conexão, a conexão de armazenamento definida na conexão do HDInsight será usada.
filePath Forneça uma matriz de caminho para os programas Mapeador, Combinação e Redutor armazenados no Armazenamento do Azure referenciados pela conexão de arquivo. Sim
input Especifica o caminho do WASB para o arquivo de entrada do Mapeador. Sim
output Especifica o caminho do WASB para o arquivo de saída do Redutor. Sim
getDebugInfo Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster do HDInsight (ou) especificado por scriptLinkedService. Não
Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum.
argumentos Especifica uma matriz de argumentos para um trabalho do Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
defines Especifique parâmetros como pares chave-valor para referências no script do Hive. Não

Salvar e executar ou agendar o pipeline

Após configurar quaisquer outras atividades exigidas pelo pipeline, alterne para a guia Página Inicial na parte superior do editor do pipeline e selecione o botão Salvar para salvar o pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode exibir o histórico de execuções aqui ou definir outras configurações.

Captura de tela mostrando a guia Início do editor de pipeline, destacando os botões Salvar, Executar e Agendar.

Como monitorar execuções de pipeline