Partilhar via


Monitorar vários clusters HCI do Azure Stack com o Insights

Aplica-se a: Azure Local, versão 22H2

Importante

O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Mais informações.

Este artigo explica como usar o Insights para monitorar vários clusters HCI do Azure Stack. Para um único cluster HCI do Azure Stack, consulte Monitorar HCI do Azure Stack com Insights.

Importante

Se você registrou seu cluster HCI do Azure Stack e configurou o Insights antes de novembro de 2023, determinados recursos que usam o Azure Monitor Agent (AMA), como Arc for Servers, VM Insights, Defender for Cloud ou Sentinel, podem não coletar logs e dados de eventos corretamente. Para obter orientações sobre solução de problemas, consulte a seção Solucionar problemas de clusters registrados antes de novembro de 2023 .

Para obter informações sobre os benefícios, pré-requisitos e como habilitar o Insights em cada cluster, consulte Benefícios, pré-requisitos e habilitar insights.

Assista ao vídeo para uma rápida introdução:

Veja informações sobre integridade, desempenho e uso

O Insights armazena seus dados em um espaço de trabalho do Log Analytics, o que permite fornecer agregação e filtragem poderosas e analisar tendências de dados ao longo do tempo. Não há custo direto para o Insights. Os usuários são cobrados com base na quantidade de dados ingeridos e nas configurações de retenção de dados de seu espaço de trabalho do Log Analytics.

Você pode acessar o Insights do Azure Monitor > Insights hub > Azure Stack HCI. Você verá as seguintes guias para alternar entre as exibições: Adicionar ao monitoramento, Integridade do cluster, Servidores, Máquinas virtuais, Armazenamento.

Filtrar os resultados

A visualização pode ser filtrada entre assinaturas. Você pode filtrar os resultados com base nos seguintes menus suspensos:

  • Intervalo de tempo: este filtro permite selecionar um intervalo para visualização de tendência. O valor padrão é Últimas 24 horas.
  • Assinaturas: mostra as assinaturas que registraram clusters HCI do Azure Stack. Pode selecionar várias subscrições neste filtro.
  • Clusters HCI: Lista os clusters HCI registrados do Azure Stack que têm os recursos de Logs e Monitoramento habilitados no intervalo de tempo selecionado. Você pode selecionar vários clusters a partir desse filtro.
  • Grupos de recursos: este filtro permite selecionar todos os clusters dentro de um grupo de recursos.

Adicionar à monitorização

Esse recurso fornece detalhes de clusters que não são monitorados pelo usuário. Para começar a monitorar um cluster, selecione-o para abri-lo e, em seguida, selecione Capabilities > Insights. Se não vir o cluster, certifique-se de que se ligou recentemente ao Azure.

Captura de tela para selecionar cluster para monitoramento.

Column Description Exemplo
Cluster O nome do cluster. 27CLS1
Status da conexão do Azure O status do recurso HCI. Ligado
Versão do Sistema Operativo O sistema operacional é construído no servidor. 10.0.20348.10131

Por padrão, o modo de exibição de grade mostra as primeiras 250 linhas. Você pode definir o valor editando as linhas da grade, conforme mostrado na imagem a seguir:

Captura de ecrã a mostrar o ecrã para definir valores de grelha.

Você pode exportar os detalhes no Excel selecionando Exportar para o Excel , conforme mostrado na imagem a seguir:

Captura de tela mostrando o link para exportar para o Excel.

O Excel fornecerá o status de conexão do Azure da seguinte maneira:

  • 0: Não registado
  • 1: Desconectado
  • 2: Não recentemente
  • 3: Conectado

Estado de funcionamento do cluster

Esta exibição fornece uma visão geral da integridade dos clusters.

Captura de tela mostrando informações gerais de integridade do cluster.

Column Description Exemplo
Cluster O nome do cluster. 27CLS1
Última atualização O carimbo de data/hora de quando o servidor foi atualizado pela última vez. 9/4/2022, 12:15:42
Status Fornece a integridade dos recursos do servidor no cluster. Pode ser saudável, de advertência, crítico ou outro. Bom estado de funcionamento
Recurso com falha Descrição de qual recurso causou a falha. Servidor, StoragePool, Subsistema
Total de servidores O número de servidores dentro de um cluster. 4

Se o cluster estiver ausente ou mostrando o status Outro, vá para o espaço de trabalho do Log Analytics usado para o cluster e verifique se a configuração do Agente está capturando dados do log microsoft-windows-health/operation. Verifique também se os clusters se conectaram recentemente ao Azure e verifique se os clusters não estão filtrados nesta pasta de trabalho.

Servidor

Esta exibição fornece uma visão geral da integridade e do desempenho do servidor e do uso de clusters selecionados. Esta vista é criada utilizando o ID de evento do servidor 3000 do Canal de Registo de Eventos Microsoft-Windows-SDDC-Management/Operational do Windows. Cada linha pode ser expandida para ver o status de integridade do nó. Você pode interagir com o cluster e o recurso do servidor para navegar até a respetiva página de recursos.

Captura de tela mostrando a integridade dos servidores.

Máquinas virtuais

Essa exibição fornece o estado de todas as VMs no cluster selecionado. A exibição é criada usando a ID de evento de máquina virtual 3003 do Canal de Log de Eventos do Microsoft-Windows-SDDC-Management/Operational Windows. Cada linha pode ser expandida para exibir a distribuição de VMs entre servidores no cluster. Você pode interagir com o cluster e o recurso de nó para navegar até a respetiva página de recurso.

Captura de tela mostrando a integridade das máquinas virtuais.

Métrico Description Exemplo
Servidor de Cluster > O nome do cluster. Na expansão, ele mostra os servidores dentro do cluster. Exemplo-VM-1
Última Actualização O carimbo datetimestamp de quando o servidor foi atualizado pela última vez. 09/04/2022, 12:24:02
Total VMs O número de VMs em um nó de servidor dentro de um cluster. 1 de 2 em execução
Em Execução O número de VMs em execução em um nó de servidor dentro de um cluster. 2
Parado O número de VMs paradas em um nó de servidor dentro de um cluster. 3
Com falhas O número de VMs falhou em um nó de servidor dentro de um cluster. 2
Outro Se a VM estiver em um dos seguintes estados (Desconhecido, Iniciando, Snapshotting, Saving, Parando, Pausando, Retomando, Pausado, Suspenso), ela será considerada como "Outros". 2

Armazenamento

Essa exibição mostra a integridade dos volumes, o uso e o desempenho em clusters monitorados. Expanda um cluster para ver o estado de volumes individuais. Esta vista é criada utilizando o ID de evento de volume 3002 do Canal de Registo de Eventos do Microsoft-Windows-SDDC-Management/Operational Windows. Os blocos na parte superior fornecem uma visão geral da integridade do armazenamento.

Captura de tela mostrando a integridade dos volumes de armazenamento.

Métrico Description Exemplo
Volume do cluster > O nome do cluster. Na expansão, ele mostra os volumes dentro de um cluster. AltaylCluster1 > ClusterPerformanceHistory
Última atualização O carimbo datetimestamp de quando o armazenamento foi atualizado pela última vez. 14/4/2022, 14:58:55
Estado de funcionamento do volume O status do volume. Pode ser saudável, de advertência, crítico ou outro. Bom estado de funcionamento
Tamanho A capacidade total do dispositivo em bytes durante o período de relatório. 25 B
Utilização Percentagem da capacidade disponível durante o período abrangido pelo relatório. 23.54%
Iops Operações de entrada/saída por segundo. 45/s
Mais Populares A tendência IOPS.
Débito Número de bytes por segundo que o Application Gateway atendeu. 5B/s
Tendência (B/s) A tendência de taxa de transferência.
Latência média Latência é o tempo médio necessário para que a solicitação de E/S seja concluída. 334 μs

Personalizar Insights

Como a experiência do usuário é criada sobre os modelos de pasta de trabalho do Azure Monitor, os usuários podem editar as visualizações e consultas e salvá-las como uma pasta de trabalho personalizada.

Se você estiver usando a visualização do Azure Monitor > Insights hub > Azure Stack HCI, selecione Personalizar Editar > > Salvar Como para salvar uma cópia da sua versão modificada em uma pasta de trabalho personalizada.

As pastas de trabalho são salvas dentro de um grupo de recursos. Todos com acesso ao grupo de recursos podem acessar a pasta de trabalho personalizada.

A maioria das consultas são escritas usando Kusto Query Language (KQL). Algumas consultas são escritas usando a Consulta do Gráfico de Recursos. Para obter mais informações, consulte os seguintes artigos:

Suporte

Para abrir um tíquete de suporte para o Insights, use o tipo de serviço Insights for Azure Stack HCI em Monitoring & Management.

Canal de Log de Eventos

Os insights e as exibições de monitoramento são baseados no Canal de Log de Eventos do Microsoft-Windows-SDDC-Management/Operational do Windows. Quando a monitorização está ativada, os dados deste canal são guardados numa área de trabalho do Log Analytics.

Exibindo e alterando o intervalo de cache de despejo

O intervalo padrão para despejar o cache é definido como 3600 segundos (1 hora).

Use os seguintes cmdlets do PowerShell para exibir o valor do intervalo de despejo de cache:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Use os cmdlets a seguir para alterar a frequência do despejo de cache. Se definido como 0, ele interromperá a publicação de eventos:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Eventos do Windows no canal de log

Este canal inclui cinco eventos. Cada evento tem o nome do cluster e a ID do Azure Resource Manager como EventData.

ID do Evento Tipo de evento
3000 Servidor
3001 Conduzir
3002 Volume
3003 Máquina virtual
3004 Cluster

Evento do servidor 3000 Valor da coluna RenderedDescription

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

A maioria das variáveis é autoexplicativa a partir dessas informações JSON. No entanto, a tabela abaixo lista algumas variáveis que são um pouco mais difíceis de entender.

Variável Description
m_servers Matriz de nós de servidor.
m_statusCategory Estado de funcionamento do servidor.
m_status Estado do servidor. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9).

Os valores para a variável m_statusCategory são os seguintes:

Value Significado
0 Bom estado de funcionamento
1 Aviso
2 Mau estado de funcionamento
255 Outro

Os valores para a variável m_status são os seguintes:

Value Significado
0 Cima
1 Baixo
2 Em manutenção
3 Associar
4 Normal
5 Isolado
6 Em quarentena
7 Drenagem
8 Drenagem concluída
9 Falha no dreno
0xffff Desconhecido

Evento de unidade 3001 Valor da coluna RenderedDescription

Evento Drive 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Evento de volume 3002 Valor da coluna RenderedDescription

Evento de volume 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

A maioria das variáveis é autoexplicativa a partir das informações JSON acima. No entanto, a tabela abaixo lista algumas variáveis que são um pouco mais difíceis de entender.

Variável Description
Lista de Volumes Matriz de volumes.
m_StatusCategory Estado de saúde do volume.
m_Status Estado do volume. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9).

Os valores para a variável m_statusCategory são os seguintes:

Value Significado
0 Bom estado de funcionamento
1 Aviso
2 Mau estado de funcionamento
255 Outro

Os valores para a variável m_status são os seguintes:

Value Significado
0 Desconhecido
1 Outro
2 OK
3 Necessita de reparação
4 Stressado
5 Falha preditiva
6 Erro
7 Erro não recuperável
8 A iniciar
9 A parar
10 Parado
11 Em serviço
12 Sem contato
13 Comunicação perdida
14 Abortado
15 Adormecido
16 Entidade de suporte em erro
17 Concluído
18 Modo de energia
19 Recolocação
0xD002 Baixo
0xD003 Precisa de ressincronização

Evento de máquina virtual 3003 Valor da coluna RenderedDescription

Evento de máquina virtual 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Evento de cluster 3004 Valor da coluna RenderedDescription

Evento de cluster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Para obter mais informações sobre os dados coletados, consulte Falhas do Serviço de Integridade.

Próximos passos

Para obter informações relacionadas, consulte: