Monitorar vários clusters do Azure Stack HCI com o Insights
Aplica-se a: Azure Stack HCI, versão 22H2
Este artigo explica como usar o Insights para monitorar vários clusters do Azure Stack HCI. Para um único cluster do Azure Stack HCI, consulte Monitorar o Azure Stack HCI com o Insights.
Importante
Se você registrou o cluster do Azure Stack HCI e configurou o Insights antes de novembro de 2023, determinados recursos que usam o AMA (Agente do Azure Monitor), como Arc para Servidores, Insights de VM, Defender para Nuvem ou Sentinel podem não coletar logs e dados de eventos corretamente. Para obter diretrizes de solução de problemas, consulte a seção Solucionar problemas de clusters registrados antes de novembro de 2023 .
Para obter informações sobre os benefícios, os pré-requisitos e como habilitar o Insights em cada cluster, consulte Benefícios, Pré-requisitos e Habilitar Insights.
Assista ao vídeo para obter uma introdução rápida:
Exibir insights de integridade, desempenho e uso
O Insights armazena seus dados em um workspace do Log Analytics, o que permite que ele forneça agregação e filtragem poderosas e analise tendências de dados ao longo do tempo. Não há custo direto para o Insights. Os usuários são cobrados com base na quantidade de dados ingeridos e nas configurações de retenção de dados do workspace do Log Analytics.
Você pode acessar o Insights do Azure Monitor > Insights hub > Azure Stack HCI. Você verá as seguintes guias para alternar entre exibições: Adicionar ao monitoramento, Integridade do cluster, Servidores, Máquinas virtuais, Armazenamento.
Filtrando os resultados
A visualização pode ser filtrada entre assinaturas. Você pode filtrar os resultados com base nos seguintes menus suspensos:
- Intervalo de tempo: Esse filtro permite que você selecione um intervalo para exibição de tendência. O valor padrão é Últimas 24 horas.
- Assinaturas: Mostra as assinaturas que registraram clusters do Azure Stack HCI. Você pode selecionar várias assinaturas neste filtro.
- Clusters HCI: Listas os clusters do Azure Stack HCI registrados que têm recursos de Logs e Monitoramento habilitados no intervalo de tempo selecionado. Você pode selecionar vários clusters nesse filtro.
- Grupos de recursos: Esse filtro permite que você selecione todos os clusters em um grupo de recursos.
Adicionar ao monitoramento
Esse recurso fornece detalhes de clusters que não são monitorados pelo usuário. Para começar a monitorar um cluster, selecione-o para abrir esse cluster e selecione Recursos > Insights. Se você não vir o cluster, verifique se ele se conectou recentemente ao Azure.
Coluna | Descrição | Exemplo |
---|---|---|
Cluster | O nome do cluster. | 27cls1 |
Status de conexão do Azure | O recurso HCI status. | Conectado |
Versão do SO | O build do sistema operacional no servidor. | 10.0.20348.10131 |
Por padrão, a exibição de grade mostra as primeiras 250 linhas. Você pode definir o valor editando as linhas de grade, conforme mostrado na imagem a seguir:
Você pode exportar os detalhes no Excel selecionando Exportar para o Excel , conforme mostrado na imagem a seguir:
O Excel fornecerá status de conexão do Azure da seguinte maneira:
- 0: Não registrado
- 1: Desconectado
- 2: Não recentemente
- 3: Conectado
Integridade do cluster
Essa exibição fornece uma visão geral da integridade dos clusters.
Coluna | Descrição | Exemplo |
---|---|---|
Cluster | O nome do cluster. | 27cls1 |
Última atualização | O carimbo de data/hora de quando o servidor foi atualizado pela última vez. | 9/04/2022, 12:15:42 PM |
Status | Fornece integridade dos recursos do servidor no cluster. Pode ser íntegro, aviso, crítico ou outro. | Íntegros |
Recurso de falha | Descrição de qual recurso causou a falha. | Server, StoragePool, Subsystem |
Total de servidores | O número de servidores em um cluster. | 4 |
Se o cluster estiver ausente ou mostrando o status Outros, vá para o workspace do Log Analytics usado para o cluster e verifique se a configuração do Agent está capturando dados do log operacional/microsoft-windows-health. Verifique também se os clusters se conectaram recentemente ao Azure e marcar que os clusters não estão filtrados nesta pasta de trabalho.
Servidor
Essa exibição fornece uma visão geral da integridade e do desempenho do servidor e do uso de clusters selecionados. Essa exibição é criada usando a ID de evento do servidor 3000 do Canal de Log de Eventos do Windows Microsoft-Windows-SDDC-Management/Operational Windows. Cada linha pode ser expandida ainda mais para ver a integridade do nó status. Você pode interagir com o recurso de cluster e servidor para navegar até a respectiva página de recursos.
Máquinas virtuais
Essa exibição fornece o estado de todas as VMs no cluster selecionado. A exibição é criada usando a ID de evento da máquina virtual 3003 do Canal de Log de Eventos do Windows Microsoft-Windows-SDDC-Management/Operational Windows. Cada linha pode ser expandida ainda mais para exibir a distribuição de VMs entre servidores no cluster. Você pode interagir com o cluster e o recurso de nó para navegar até a respectiva página de recursos.
Métrica | Descrição | Exemplo |
---|---|---|
Servidor de Cluster > | O nome do cluster. Na expansão, ele mostra os servidores dentro do cluster. | Amostra-VM-1 |
Última Atualização | O datetimestamp de quando o servidor foi atualizado pela última vez. | 9/04/2022, 12:24:02 PM |
Total de VMs | O número de VMs em um nó de servidor em um cluster. | 1 de 2 em execução |
Executando | O número de VMs em execução em um nó de servidor em um cluster. | 2 |
Parado | O número de VMs interrompidas em um nó de servidor dentro de um cluster. | 3 |
Com falha | O número de VMs falhou em um nó de servidor em um cluster. | 2 |
Outro | Se a VM estiver em um dos seguintes estados (Desconhecido, Iniciando, Instantâneo, Salvando, Parando, Pausando, Retomando, Pausado, Suspenso), ele será considerado como "Outro". | 2 |
Armazenamento
Essa exibição mostra a integridade dos volumes, do uso e do desempenho entre clusters monitorados. Expanda um cluster para ver o estado dos volumes individuais. Essa exibição é criada usando a ID do evento de volume 3002 do Canal de Log de Eventos do Windows Microsoft-Windows-SDDC-Management/Operational Windows. Os blocos na parte superior fornecem uma visão geral da integridade do armazenamento.
Métrica | Descrição | Exemplo |
---|---|---|
Volume do cluster > | O nome do cluster. Na expansão, ele mostra os volumes dentro de um cluster. | AltaylCluster1 > ClusterPerformanceHistory |
Última atualização | O datetimestamp de quando o armazenamento foi atualizado pela última vez. | 14/04/2022, 14h58h55 |
Integridade do volume | O status do volume. Pode ser íntegro, aviso, crítico ou outro. | Íntegros |
Tamanho | A capacidade total do dispositivo em bytes durante o período do relatório. | 25B |
Uso | O percentual de capacidade disponível durante o período de relatório. | 23.54% |
Iops | Operações de entrada/saída por segundo. | 45/s |
Tendência | A tendência de IOPS. | |
Produtividade | Número de bytes por segundo atendidos pelo Gateway de Aplicativo. | 5B/s |
Tendência (B/s) | A tendência de taxa de transferência. | |
Latência Média | Latência é o tempo médio necessário para que a solicitação de E/S seja concluída. | 334 μs |
Personalizar Insights
Como a experiência do usuário é criada com base em modelos de pasta de trabalho do Azure Monitor, os usuários podem editar as visualizações e consultas e salvá-las como uma pasta de trabalho personalizada.
Se você estiver usando a visualização do Azure Monitor > Insights hub > Azure Stack HCI, selecione Personalizar Editar > Salvar > como para salvar uma cópia de sua versão modificada em uma pasta de trabalho personalizada.
As pastas de trabalho são salvas em um grupo de recursos. Todos com acesso ao grupo de recursos podem acessar a pasta de trabalho personalizada.
A maioria das consultas é gravada usando Linguagem de Consulta Kusto (KQL). Algumas consultas são gravadas usando a consulta Resource Graph. Para obter mais informações, confira os seguintes artigos:
- Pastas de trabalho do Azure Monitor
- Introdução aos Kusto
- Exemplos de consultas iniciais do Resource Graph
Suporte
Para abrir um tíquete de suporte para Insights, use o tipo de serviço Insights para o Azure Stack HCI em Monitoramento & Management.
Canal de Log de Eventos
As exibições de insights e monitoramento são baseadas no Canal de Log de Eventos do Windows Microsoft-Windows-SDDC-Management/Operational Windows. Quando o monitoramento estiver habilitado, os dados desse canal serão salvos em um workspace do Log Analytics.
Exibindo e alterando o intervalo de cache de despejo
O intervalo padrão para despejar o cache é definido como 3600 segundos (1 hora).
Use os seguintes cmdlets do PowerShell para exibir o valor do intervalo de despejo de cache:
Get-ClusterResource "sddc management" | Get-ClusterParameter
Use os cmdlets a seguir para alterar a frequência do despejo de cache. Se definido como 0, ele interromperá a publicação de eventos:
Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>
Eventos do Windows no canal de log
Esse canal inclui cinco eventos. Cada evento tem o nome do cluster e a ID de Resource Manager do Azure como EventData.
ID do evento | Tipo de evento |
---|---|
3000 | Servidor |
3001 | Unidade |
3002 | Volume |
3003 | Máquina virtual |
3004 | Cluster |
Valor da coluna Evento do servidor 3000 RenderedDescription
{
"m_servers":[
{
"m_statusCategory":"Integer",
"m_status":[
"Integer",
"…"
],
"m_id":"String",
"m_name":"String",
"m_totalPhysicalMemoryInBytes":"Integer",
"m_usedPhysicalMemoryInBytes":"Integer",
"m_totalProcessorsUsedPercentage":"Integer",
"m_totalClockSpeedInMHz":"Integer",
"m_uptimeInSeconds":"Integer",
"m_InboundNetworkUsage":"Double (Bits/sec)",
"m_OutboundNetworkUsage":"Double (Bits/sec)",
"m_InboundRdmaUsage":"Double (Bits/sec)",
"m_OutboundRdmaUsage":"Double (Bits/sec)",
"m_site":"String",
"m_location":"String",
"m_vm":{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer"
},
"m_osVersion":"String",
"m_buildNumber":"String",
"m_totalPhysicalProcessors":"Integer",
"m_totalLogicalProcessors":"Integer"
},
"…"
],
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
A maioria das variáveis é autoexplicativa dessas informações JSON. No entanto, a tabela a seguir lista algumas variáveis que são um pouco mais difíceis de entender.
Variável | Descrição |
---|---|
m_servers | Matriz de nós de servidor. |
m_statusCategory | Status de integridade do servidor. |
m_status | Estado do servidor. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9). |
Os valores da variável m_statusCategory são os seguintes:
Valor | Significado |
---|---|
0 | Íntegros |
1 | Aviso |
2 | Unhealthy |
255 | Outro |
Os valores da variável m_status são os seguintes:
Valor | Significado |
---|---|
0 | Para cima |
1 | Para baixo |
2 | Em manutenção |
3 | Adição |
4 | Normal |
5 | Isolado |
6 | Em Quarentena |
7 | Drenagem |
8 | Drenagem concluída |
9 | Falha no dreno |
0xffff | Unknown |
Valor da coluna Evento de unidade 3001 RenderedDescription
Evento de unidade 3001
{
"m_drives":[
{
"m_uniqueId":"String",
"m_model":"String",
"m_type":"Integer",
"m_canPool":"Boolean",
"m_sizeInBytes":"Integer",
"m_sizeUsedInBytes":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
},
"…"
],
"m_correlationId":"String",
"m_isLastElement":"Boolean"
}
Valor da coluna Evento de volume 3002 RenderedDescription
Evento de volume 3002
{
"VolumeList":[
{
"m_Id":"String",
"m_Label":"String",
"m_Path":"String",
"m_StatusCategory":"Integer",
"m_Status":[
"Integer",
"…"
],
"m_Size":"Integer (Bytes)",
"m_SizeUsed":"Integer (Bytes)",
"m_TotalIops":"Double (Count/second)",
"m_TotalThroughput":"Double (Bytes/Second)",
"m_AverageLatency":"Double (Seconds)",
"m_Resiliency":"Integer",
"m_IsDedupEnabled":"Boolean",
"m_FileSystem":"String"
},
"…"
],
"m_Alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
A maioria das variáveis é autoexplicativa das informações JSON acima. No entanto, a tabela a seguir lista algumas variáveis que são um pouco mais difíceis de entender.
Variável | Descrição |
---|---|
VolumeList | Matriz de volumes. |
m_StatusCategory | Status de integridade do volume. |
m_Status | Estado do volume. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9). |
Os valores da variável m_statusCategory são os seguintes:
Valor | Significado |
---|---|
0 | Íntegros |
1 | Aviso |
2 | Unhealthy |
255 | Outro |
Os valores da variável m_status são os seguintes:
Valor | Significado |
---|---|
0 | Unknown |
1 | Outro |
2 | OK |
3 | Precisa de reparo |
4 | Estressado |
5 | Falha preditiva |
6 | Erro do |
7 | Erro não recuperável |
8 | Iniciando |
9 | Parando |
10 | Parado |
11 | Em serviço |
12 | Sem contato |
13 | Comunicação perdida |
14 | Anulado |
15 | Inativo |
16 | Entidade de suporte com erro |
17 | Concluído |
18 | Modo de energia |
19 | Relocating |
0xD002 | Para baixo |
0xD003 | Precisa de ressincronização |
Evento da máquina virtual 3003 RenderedDescription valor da coluna
Evento da máquina virtual 3003
{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
Valor da coluna 3004 RenderedDescription do evento de cluster
Evento de cluster 3004
{
"m_cpuUsage":"Double (%)",
"m_totalVolumeIops":"Double",
"m_averageVolumeLatency":"Double (Seconds)",
"m_totalVolumeThroughput":"Double (Bytes/Second)",
"m_totalVolumeSizeInBytes":"Integer",
"m_usedVolumeSizeInBytes":"Integer",
"m_totalMemoryInBytes":"Integer",
"m_usedMemoryInBytes":"Integer",
"m_isStretch":"Boolean",
"m_QuorumType":"String",
"m_QuorumMode":"String",
"m_QuorumState":"String",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
Para obter mais informações sobre os dados coletados, consulte Falhas do Serviço de Integridade.
Próximas etapas
Para obter informações relacionadas. consulte: