Partilhar via


Como monitorar a disponibilidade do cluster com os logs do Azure Monitor no HDInsight

Os clusters HDInsight incluem a integração de logs do Azure Monitor, que fornece métricas e logs consultáveis, bem como alertas configuráveis. Este artigo mostra como usar o Azure Monitor para monitorar seu cluster.

Integração de logs do Azure Monitor

Os logs do Azure Monitor permitem que os dados gerados por vários recursos, como clusters HDInsight, sejam coletados e agregados em um só lugar para obter uma experiência de monitoramento unificada.

Como pré-requisito, você precisará de um espaço de trabalho do Log Analytics para armazenar os dados coletados. Se ainda não criou um, siga as instruções aqui: Criar um espaço de trabalho do Log Analytics.

Habilitar a integração de logs do Azure Monitor do HDInsight

Na página de recursos do cluster HDInsight no portal, selecione Azure Monitor. Em seguida, selecione ativar e selecione seu espaço de trabalho do Log Analytics na lista suspensa.

Pacote de gerenciamento de operações do HDInsight.

Por padrão, isso instala o agente do OMS em todos os nós do cluster, exceto nos nós de borda. Como nenhum agente do OMS está instalado em nós de borda de cluster, não há telemetria em nós de borda presente no Log Analytics por padrão.

Métricas de consulta e tabelas de logs

Depois que a integração de logs do Azure Monitor estiver habilitada (isso pode levar alguns minutos), navegue até o recurso Espaço de Trabalho do Log Analytics e selecione Logs.

Logs do espaço de trabalho do Log Analytics.

Os logs listam várias consultas de exemplo, como:

Nome da consulta Description
Disponibilidade dos computadores hoje Criar um gráfico com o número de computadores que estão a enviar registos, por hora
Listar heartbeats Listar todos os heartbeats do computador na última hora
Listar o heartbeat de cada computador Mostrar a última pulsação enviada por cada computador
Computadores indisponíveis Listar todos os computadores conhecidos que não enviaram uma pulsação nas últimas 5 horas
Taxa de disponibilidade Calcular a taxa de disponibilidade de cada computador conectado

Como exemplo, execute a consulta de exemplo Taxa de disponibilidade selecionando Executar nessa consulta, conforme mostrado na captura de tela acima. Isso mostrará a taxa de disponibilidade de cada nó em seu cluster como uma porcentagem. Se você tiver habilitado vários clusters HDInsight para enviar métricas para o mesmo espaço de trabalho do Log Analytics, verá a taxa de disponibilidade de todos os nós (excluindo nós de borda) nesses clusters exibidos.

O espaço de trabalho do Log Analytics registra a consulta de exemplo de 'taxa de disponibilidade'.

Nota

A taxa de disponibilidade é medida durante um período de 24 horas, pelo que o cluster terá de ser executado durante pelo menos 24 horas antes de ver taxas de disponibilidade precisas.

Você pode fixar essa tabela em um painel compartilhado clicando em Fixar no canto superior direito. Se você não tiver nenhum painel compartilhado gravável, poderá ver como criar um aqui: Criar e compartilhar painéis no portal do Azure.

Alertas do Azure Monitor

Você também pode configurar alertas do Azure Monitor que serão acionados quando o valor de uma métrica ou os resultados de uma consulta atenderem a determinadas condições. Como exemplo, vamos criar um alerta para enviar um e-mail quando um ou mais nós não tiverem enviado uma pulsação em 5 horas (ou seja, presume-se que estejam indisponíveis).

Em Logs, execute a consulta de exemplo Computadores indisponíveis selecionando Executar nessa consulta, conforme mostrado abaixo.

O espaço de trabalho do Log Analytics registra o exemplo de 'computadores indisponíveis'.

Se todos os nós estiverem disponíveis, essa consulta deverá retornar zero resultados por enquanto. Clique em Nova regra de alerta para começar a configurar o alerta para esta consulta.

Nova regra de alerta do espaço de trabalho do Log Analytics.

Há três componentes para um alerta: o recurso para o qual criar a regra (o espaço de trabalho do Log Analytics neste caso), a condição para disparar o alerta e os grupos de ação que determinam o que acontecerá quando o alerta for acionado. Clique no título da condição, como mostrado abaixo, para concluir a configuração da lógica do sinal.

Alerta do portal criar condição de regra.

Isso abrirá Configurar lógica de sinal.

Defina a seção Lógica de alerta da seguinte maneira:

Com base em: Número de resultados, Condição: Maior que, Limiar: 0.

Como essa consulta só retorna nós indisponíveis como resultados, se o número de resultados for sempre maior que 0, o alerta deverá ser acionado.

Na seção Avaliado com base em, defina o período e a frequência com base na frequência com que você deseja verificar se há nós indisponíveis.

Para este alerta, você deseja certificar-se de Period =Frequency. Mais informações sobre período, frequência e outros parâmetros de alerta podem ser encontradas aqui.

Selecione Concluído quando terminar de configurar a lógica do sinal.

A regra de alerta configura a lógica do sinal.

Se você ainda não tiver um grupo de ações existente, clique em Criar Novo na seção Grupos de Ações .

A regra de alerta cria um novo grupo de ações.

Isso abrirá Adicionar grupo de ações. Escolha um Nome do grupo de ações, Nome abreviado, Assinatura e Grupo de recursos. Na seção Ações, escolha um Nome da Ação e selecione E-mail/SMS/Push/Voz como o Tipo de Ação.

Nota

Há várias outras ações que um alerta pode disparar além de um Email/SMS/Push/Voice, como uma Função do Azure, LogicApp, Webhook, ITSM e Runbook de Automação. Saiba mais.

Isso abrirá Email/SMS/Push/Voice. Escolha um Nome para o destinatário, marque a caixa Email e digite um endereço de e-mail para o qual deseja enviar o alerta. Selecione OK em Email/SMS/Push/Voice e, em seguida, em Adicionar grupo de ações para concluir a configuração do grupo de ações.

A regra de alerta cria um grupo de ações de adição.

Depois que essas folhas fecharem, você verá seu grupo de ações listado na seção Grupos de ações . Por fim, preencha a seção Detalhes do alerta digitando um Nome e Descrição da regra de alerta e escolhendo uma gravidade. Clique em Criar Regra de Alerta para concluir.

O portal cria a conclusão da regra de alerta.

Gorjeta

A capacidade de especificar Severidade é uma ferramenta poderosa que pode ser usada ao criar vários alertas. Por exemplo, você pode criar um alerta para gerar um Aviso (gravidade 1) se um único nó principal cair e outro alerta para aumentar Crítico (gravidade 1) no caso improvável de ambos os nós principais caírem.

Quando a condição para este alerta for atendida, o alerta será acionado e você receberá um e-mail com os detalhes do alerta como este:

Exemplo de email de alerta do Azure Monitor.

Também pode ver todos os alertas que foram disparados, agrupados por gravidade, acedendo a Alertas na sua área de trabalho do Log Analytics.

Alertas do espaço de trabalho do Log Analytics.

Quando você seleciona em um grupo de gravidade (ou seja , gravidade 1, conforme destacado acima), ele mostrará registros para todos os alertas dessa gravidade que foram acionados, como abaixo:

Captura de tela mostrando o alerta de gravidade do espaço de trabalho do Log Analytics.

Próximos passos