Como monitorar a disponibilidade do cluster com os logs do Azure Monitor no HDInsight
Os clusters HDInsight incluem a integração de logs do Azure Monitor, que fornece métricas e logs consultáveis, bem como alertas configuráveis. Este artigo mostra como usar o Azure Monitor para monitorar seu cluster.
Integração de logs do Azure Monitor
Os logs do Azure Monitor permitem que os dados gerados por vários recursos, como clusters HDInsight, sejam coletados e agregados em um só lugar para obter uma experiência de monitoramento unificada.
Como pré-requisito, você precisará de um espaço de trabalho do Log Analytics para armazenar os dados coletados. Se ainda não criou um, siga as instruções aqui: Criar um espaço de trabalho do Log Analytics.
Habilitar a integração de logs do Azure Monitor do HDInsight
Na página de recursos do cluster HDInsight no portal, selecione Azure Monitor. Em seguida, selecione ativar e selecione seu espaço de trabalho do Log Analytics na lista suspensa.
Por padrão, isso instala o agente do OMS em todos os nós do cluster, exceto nos nós de borda. Como nenhum agente do OMS está instalado em nós de borda de cluster, não há telemetria em nós de borda presente no Log Analytics por padrão.
Métricas de consulta e tabelas de logs
Depois que a integração de logs do Azure Monitor estiver habilitada (isso pode levar alguns minutos), navegue até o recurso Espaço de Trabalho do Log Analytics e selecione Logs.
Os logs listam várias consultas de exemplo, como:
Nome da consulta | Description |
---|---|
Disponibilidade dos computadores hoje | Criar um gráfico com o número de computadores que estão a enviar registos, por hora |
Listar heartbeats | Listar todos os heartbeats do computador na última hora |
Listar o heartbeat de cada computador | Mostrar a última pulsação enviada por cada computador |
Computadores indisponíveis | Listar todos os computadores conhecidos que não enviaram uma pulsação nas últimas 5 horas |
Taxa de disponibilidade | Calcular a taxa de disponibilidade de cada computador conectado |
Como exemplo, execute a consulta de exemplo Taxa de disponibilidade selecionando Executar nessa consulta, conforme mostrado na captura de tela acima. Isso mostrará a taxa de disponibilidade de cada nó em seu cluster como uma porcentagem. Se você tiver habilitado vários clusters HDInsight para enviar métricas para o mesmo espaço de trabalho do Log Analytics, verá a taxa de disponibilidade de todos os nós (excluindo nós de borda) nesses clusters exibidos.
Nota
A taxa de disponibilidade é medida durante um período de 24 horas, pelo que o cluster terá de ser executado durante pelo menos 24 horas antes de ver taxas de disponibilidade precisas.
Você pode fixar essa tabela em um painel compartilhado clicando em Fixar no canto superior direito. Se você não tiver nenhum painel compartilhado gravável, poderá ver como criar um aqui: Criar e compartilhar painéis no portal do Azure.
Alertas do Azure Monitor
Você também pode configurar alertas do Azure Monitor que serão acionados quando o valor de uma métrica ou os resultados de uma consulta atenderem a determinadas condições. Como exemplo, vamos criar um alerta para enviar um e-mail quando um ou mais nós não tiverem enviado uma pulsação em 5 horas (ou seja, presume-se que estejam indisponíveis).
Em Logs, execute a consulta de exemplo Computadores indisponíveis selecionando Executar nessa consulta, conforme mostrado abaixo.
Se todos os nós estiverem disponíveis, essa consulta deverá retornar zero resultados por enquanto. Clique em Nova regra de alerta para começar a configurar o alerta para esta consulta.
Há três componentes para um alerta: o recurso para o qual criar a regra (o espaço de trabalho do Log Analytics neste caso), a condição para disparar o alerta e os grupos de ação que determinam o que acontecerá quando o alerta for acionado. Clique no título da condição, como mostrado abaixo, para concluir a configuração da lógica do sinal.
Isso abrirá Configurar lógica de sinal.
Defina a seção Lógica de alerta da seguinte maneira:
Com base em: Número de resultados, Condição: Maior que, Limiar: 0.
Como essa consulta só retorna nós indisponíveis como resultados, se o número de resultados for sempre maior que 0, o alerta deverá ser acionado.
Na seção Avaliado com base em, defina o período e a frequência com base na frequência com que você deseja verificar se há nós indisponíveis.
Para este alerta, você deseja certificar-se de Period =Frequency. Mais informações sobre período, frequência e outros parâmetros de alerta podem ser encontradas aqui.
Selecione Concluído quando terminar de configurar a lógica do sinal.
Se você ainda não tiver um grupo de ações existente, clique em Criar Novo na seção Grupos de Ações .
Isso abrirá Adicionar grupo de ações. Escolha um Nome do grupo de ações, Nome abreviado, Assinatura e Grupo de recursos. Na seção Ações, escolha um Nome da Ação e selecione E-mail/SMS/Push/Voz como o Tipo de Ação.
Nota
Há várias outras ações que um alerta pode disparar além de um Email/SMS/Push/Voice, como uma Função do Azure, LogicApp, Webhook, ITSM e Runbook de Automação. Saiba mais.
Isso abrirá Email/SMS/Push/Voice. Escolha um Nome para o destinatário, marque a caixa Email e digite um endereço de e-mail para o qual deseja enviar o alerta. Selecione OK em Email/SMS/Push/Voice e, em seguida, em Adicionar grupo de ações para concluir a configuração do grupo de ações.
Depois que essas folhas fecharem, você verá seu grupo de ações listado na seção Grupos de ações . Por fim, preencha a seção Detalhes do alerta digitando um Nome e Descrição da regra de alerta e escolhendo uma gravidade. Clique em Criar Regra de Alerta para concluir.
Gorjeta
A capacidade de especificar Severidade é uma ferramenta poderosa que pode ser usada ao criar vários alertas. Por exemplo, você pode criar um alerta para gerar um Aviso (gravidade 1) se um único nó principal cair e outro alerta para aumentar Crítico (gravidade 1) no caso improvável de ambos os nós principais caírem.
Quando a condição para este alerta for atendida, o alerta será acionado e você receberá um e-mail com os detalhes do alerta como este:
Também pode ver todos os alertas que foram disparados, agrupados por gravidade, acedendo a Alertas na sua área de trabalho do Log Analytics.
Quando você seleciona em um grupo de gravidade (ou seja , gravidade 1, conforme destacado acima), ele mostrará registros para todos os alertas dessa gravidade que foram acionados, como abaixo: