Utilizar a Vista do Apache Ambari Hive com o Apache Hadoop no HDInsight
Saiba como executar consultas do Hive usando o Apache Ambari Hive View. A Visualização do Hive permite que você crie, otimize e execute consultas do Hive a partir do seu navegador da Web.
Pré-requisitos
Um cluster Hadoop no HDInsight. Consulte Introdução ao HDInsight no Linux.
Executar uma consulta do Hive
No portal do Azure, selecione o seu cluster. Consulte Listar e mostrar clusters para obter instruções. O cluster é aberto em uma nova exibição de portal.
Em Painéis de cluster, selecione Modos de exibição Ambari. Quando solicitado a autenticar, use o nome da conta de login (padrão
admin
) do cluster e a senha que você forneceu quando criou o cluster. Você também pode navegar até onde está o nome do cluster nohttps://CLUSTERNAME.azurehdinsight.net/#/main/views
navegadorCLUSTERNAME
.Na lista de modos de exibição, selecione Exibição do Hive.
A página de visualização do Hive é semelhante à seguinte imagem:
Na guia Consulta, cole as seguintes instruções HiveQL na planilha:
DROP TABLE log4jLogs; CREATE EXTERNAL TABLE log4jLogs( t1 string, t2 string, t3 string, t4 string, t5 string, t6 string, t7 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '/example/data/'; SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs WHERE t4 = '[ERROR]' GROUP BY t4;
Essas declarações executam as seguintes ações:
Declaração Description DROP TABLE Exclui a tabela e o arquivo de dados, caso a tabela já exista. CRIAR TABELA EXTERNA Cria uma nova tabela "externa" no Hive. As tabelas externas armazenam apenas a definição de tabela no Hive. Os dados são deixados no local original. FORMATO DA LINHA Mostra como os dados são formatados. Nesse caso, os campos em cada log são separados por um espaço. ARMAZENADO COMO LOCAL DO ARQUIVO DE TEXTO Mostra onde os dados são armazenados e que são armazenados como texto. SELECIONAR Seleciona uma contagem de todas as linhas em que a coluna t4 contém o valor [ERROR]. Importante
Deixe a seleção Banco de dados como padrão. Os exemplos neste documento usam o banco de dados padrão incluído no HDInsight.
Para iniciar a consulta, selecione Executar abaixo da planilha. O botão fica laranja e o texto muda para Parar.
Após a conclusão da consulta, a guia Resultados exibe os resultados da operação. O seguinte texto é o resultado da consulta:
loglevel count [ERROR] 3
Você pode usar a guia LOG para exibir as informações de log que o trabalho criou.
Gorjeta
Transfira ou guarde os resultados a partir da caixa de diálogo pendente Ações no separador Resultados.
Visual explica
Para exibir uma visualização do plano de consulta, selecione a guia Explicações Visuais abaixo da planilha.
O modo de exibição Visual Explains da consulta pode ser útil para entender o fluxo de consultas complexas.
Tez UI
Para exibir a Tez UI para a consulta, selecione a guia Tez UI abaixo da planilha.
Importante
Tez não é usado para resolver todas as consultas. Você pode resolver muitas consultas sem usar o Tez.
Ver histórico de tarefas
A guia Trabalhos exibe um histórico de consultas do Hive.
Tabelas de banco de dados
Você pode usar a guia Tabelas para trabalhar com tabelas em um banco de dados do Hive.
Consultas guardadas
Na guia Consulta, você pode, opcionalmente, salvar consultas. Depois de guardar uma consulta, pode reutilizá-la a partir do separador Consultas Guardadas .
Gorjeta
As consultas salvas são armazenadas no armazenamento de cluster padrão. Você pode encontrar as consultas salvas no caminho /user/<username>/hive/scripts
. Estes são armazenados como ficheiros de texto .hql
simples.
Se você excluir o cluster, mas mantiver o armazenamento, poderá usar um utilitário como o Gerenciador de Armazenamento do Azure ou o Gerenciador de Armazenamento Data Lake (do Portal do Azure) para recuperar as consultas.
Funções definidas pelo utilizador
Você pode estender o Hive por meio de funções definidas pelo usuário (UDF). Use um UDF para implementar funcionalidade ou lógica que não é facilmente modelada no HiveQL.
Declare e salve um conjunto de UDFs usando a guia UDF na parte superior da Visualização do Hive. Essas UDFs podem ser usadas com o Editor de Consultas.
Um botão Inserir udfs aparece na parte inferior do Editor de Consultas. Esta entrada exibe uma lista suspensa das UDFs definidas na Visualização do Hive. A seleção de uma UDF adiciona instruções HiveQL à sua consulta para habilitar a UDF.
Por exemplo, se você definiu uma UDF com as seguintes propriedades:
Nome do recurso: myudfs
Caminho do recurso: /myudfs.jar
Nome UDF: myawesomeudf
Nome da classe UDF: com.myudfs.Awesome
O uso do botão Inserir udfs exibe uma entrada chamada myudfs, com outra lista suspensa para cada UDF definida para esse recurso. Neste caso, é myawesomeudf. A seleção desta entrada adiciona o seguinte ao início da consulta:
add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';
Em seguida, você pode usar o UDF em sua consulta. Por exemplo, SELECT myawesomeudf(name) FROM people;
.
Para obter mais informações sobre como usar UDFs com o Hive no HDInsight, consulte os seguintes artigos:
- Usando Python com Apache Hive e Apache Pig no HDInsight
- Usar um Java UDF com Apache Hive no HDInsight
Configurações do Hive
Você pode alterar várias configurações do Hive, como alterar o mecanismo de execução do Hive de Tez (o padrão) para MapReduce.
Próximos passos
Para obter informações gerais sobre o Hive no HDInsight: