Transformar dados executando uma atividade do Azure HDInsight
A atividade do Azure HDInsight no Data Factory para Microsoft Fabric permite orquestrar os seguintes tipos de trabalhos do Azure HDInsight:
- Executar consultas de Hive
- Invocar um programa MapReduce
- Executar consultas do Pig
- Executar um programa Spark
- Executar um programa Hadoop Stream
Este artigo fornece um passo a passo que descreve como criar uma atividade do Azure HDInsight usando a interface do usuário do Data Factory.
Pré-requisitos
Para começar, você deve concluir os seguintes pré-requisitos:
- Uma conta de locatário com uma assinatura ativa. Crie uma conta gratuitamente.
- Um espaço de trabalho é criado.
Adicionar uma atividade do Azure HDInsight (HDI) a um pipeline com a interface do usuário
Crie um novo pipeline de dados no seu espaço de trabalho.
Pesquise Azure HDInsight no cartão da tela de início e selecione essa opção ou escolha a atividade na barra Atividades para adicioná-la à tela do pipeline.
Selecione a nova atividade do Azure HDInsight na tela do editor de pipeline se ela ainda não estiver selecionada.
Consulte as diretrizes de Configurações gerais para definir as opções encontradas na guia Configurações gerais.
Configurar o cluster HDI
Selecione a guia Cluster HDI. Em seguida, você pode escolher uma conexão existente ou criar uma nova conexão HDInsight.
Para a conexão de Recurso, escolha o Armazenamento de Blobs do Azure que faz referência ao cluster Azure HDInsight. Você pode escolher um armazenamento de blobs existente ou criar um novo.
Definir configurações
Selecione a guia Configurações para ver as configurações avançadas da atividade.
Todas as propriedades de cluster avançadas e expressões dinâmicas com suporte no serviço vinculado do Azure Data Factory e do Synapse Analytics HDInsight agora também têm suporte na atividade do Azure HDInsight para Data Factory no Microsoft Fabric, na seção Avançado na interface do usuário. Todas essas propriedades oferecem suporte a expressões parametrizadas personalizadas fáceis de usar com conteúdo dinâmico.
Tipo de cluster
Para definir as configurações do cluster HDInsight, primeiro escolha seu Tipo nas opções disponíveis, incluindo Hive, Map Reduce, Pig, Spark e Streaming.
Hive
Se você escolher Hive para Tipo, a atividade executará uma consulta do Hive. Opcionalmente, você pode especificar a conexão de script que faz referência a uma conta de armazenamento que contém o tipo Hive. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações na seção Avançado, Informações de depuração, Tempo limite da consulta, Argumentos, Parâmetros e Variáveis.
Map Reduce
Se você escolher Map Reduce para Tipo, a atividade invocará um programa do Map Reduce. Opcionalmente, você pode especificar na conexão Jar uma referência a uma conta de armazenamento que contenha o tipo Map Reduce. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o nome da classe e o caminho do arquivo a serem executados no Azure HDInsight. Opcionalmente, você pode especificar mais detalhes de configuração, como importar bibliotecas Jar, informações de depuração, argumentos e parâmetros na seção Avançado.
Pig
Se você escolher Pig para Tipo, a atividade invocará uma consulta Pig. Opcionalmente, você pode especificar a configuração de conexão de script que faz referência à conta de armazenamento que contém o tipo Pig. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações, como informações de depuração, argumentos, parâmetros e variáveis na seção Avançado.
Spark
Se você escolher Spark para Tipo, a atividade invocará um programa de Spark. Selecione Script ou Jar para o tipo Spark. Opcionalmente, você pode especificar a conexão de trabalho fazendo referência à conta de armazenamento que contém o tipo Spark. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o caminho do arquivo a ser executado no Azure HDInsight. Opcionalmente, você pode especificar mais configurações, como nome de classe, usuário proxy, informações de depuração, argumentos e configuração do Spark na seção Avançado.
Streaming
Se você escolher Streaming para Tipo, a atividade invocará um programa de Streaming. Especifique os nomes do Mapeador e do Redutor e, opcionalmente, você pode especificar a conexão de arquivo que faz referência à conta de armazenamento que contém o tipo de Streaming. Por padrão, a conexão de armazenamento especificada na guia Cluster HDI é usada. Você precisa especificar o Caminho do arquivo para o Mapeador e o Caminho do arquivo para o Redutor a serem executados no Azure HDInsight. Inclua as opções de Entrada e Saída, assim como para o caminho WASB. Opcionalmente, você pode especificar mais configurações, como informações de depuração, argumentos e parâmetros na seção Avançado.
Referência de propriedade
Propriedade | Descrição | Obrigatório |
---|---|---|
tipo | Para a atividade de streaming do Hadoop, o tipo de atividade é HDInsightStreaming | Sim |
mapper | Especifica o nome do executável do Mapeador | Sim |
reducer | Especifica o nome do executável do Redutor | Sim |
combiner | Especifica o nome do executável de Combinação | Não |
Conexão do arquivo | Referência a um serviço vinculado de Armazenamento do Azure usado para armazenar os programas Mapeador, Combinação e Redutor a serem executados. | Não |
Somente as conexões do Armazenamento de Blobs do Azure e do ADLS Gen2 são compatíveis aqui. Se você não especificar essa conexão, a conexão de armazenamento definida na conexão do HDInsight será usada. | ||
filePath | Forneça uma matriz de caminho para os programas Mapeador, Combinação e Redutor armazenados no Armazenamento do Azure referenciados pela conexão de arquivo. | Sim |
input | Especifica o caminho do WASB para o arquivo de entrada do Mapeador. | Sim |
output | Especifica o caminho do WASB para o arquivo de saída do Redutor. | Sim |
getDebugInfo | Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster do HDInsight (ou) especificado por scriptLinkedService. | Não |
Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. | ||
argumentos | Especifica uma matriz de argumentos para um trabalho do Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. | Não |
defines | Especifique parâmetros como pares chave-valor para referências no script do Hive. | Não |
Salvar e executar ou agendar o pipeline
Após configurar quaisquer outras atividades exigidas pelo pipeline, alterne para a guia Página Inicial na parte superior do editor do pipeline e selecione o botão Salvar para salvar o pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode exibir o histórico de execuções aqui ou definir outras configurações.