Monitorowanie usługi Site Recovery przy użyciu dzienników usługi Azure Monitor

Artykuł
05/17/2024

W tym artykule opisano sposób monitorowania maszyn replikowanych przez usługę Azure Site Recovery przy użyciu dzienników usługi Azure Monitor i usługi Log Analytics.

Dzienniki usługi Azure Monitor udostępniają platformę danych dziennika, która zbiera dzienniki aktywności i dzienniki zasobów oraz inne dane monitorowania. W dziennikach usługi Azure Monitor używasz usługi Log Analytics do pisania i testowania zapytań dzienników oraz interaktywnego analizowania danych dziennika. Możesz wizualizować wyniki dziennika i wykonywać zapytania oraz konfigurować alerty w celu wykonywania akcji na podstawie monitorowanych danych.

W przypadku usługi Site Recovery możesz użyć dzienników usługi Azure Monitor, aby ułatwić wykonanie następujących czynności:

Monitorowanie kondycji i stanu usługi Site Recovery. Można na przykład monitorować kondycję replikacji, stan pracy w trybie failover, zdarzenia usługi Site Recovery, cele punktu odzyskiwania (RPO) dla chronionych maszyn oraz współczynniki zmian dysku/danych.
Konfigurowanie alertów dla usługi Site Recovery. Można na przykład skonfigurować alerty dotyczące kondycji maszyny, stanu pracy w trybie failover lub stanu zadania usługi Site Recovery.

Korzystanie z dzienników usługi Azure Monitor z usługą Site Recovery jest obsługiwane w przypadku replikacji z platformy Azure do platformy Azure oraz replikacji maszyny wirtualnej/serwera fizycznego VMware do platformy Azure .

Uwaga

Aby uzyskać dzienniki danych zmian i przekazać dzienniki szybkości dla maszyn wirtualnych VMware i fizycznych, należy zainstalować agenta monitorowania firmy Microsoft na serwerze przetwarzania. Ten agent wysyła dzienniki replikujących maszyn do obszaru roboczego. Ta funkcja jest dostępna tylko dla wersji agenta mobilności w wersji 9.30.

Wymagania wstępne

Oto, co jest potrzebne:

Co najmniej jedna maszyna jest chroniona w magazynie usługi Recovery Services.
Obszar roboczy usługi Log Analytics do przechowywania dzienników usługi Site Recovery. Dowiedz się więcej o konfigurowaniu obszaru roboczego.
Podstawowa wiedza na temat pisania, uruchamiania i analizowania zapytań dzienników w usłudze Log Analytics. Dowiedz się więcej.

Przed rozpoczęciem zalecamy przejrzenie typowych pytań dotyczących monitorowania.

Dzienniki zdarzeń dostępne dla usługi Azure Site Recovery

Usługa Azure Site Recovery udostępnia następujące tabele specyficzne dla zasobów i starsze. Każde zdarzenie zawiera szczegółowe dane dotyczące określonego zestawu artefaktów związanych z odzyskiwaniem lokacji.

Tabele specyficzne dla zasobów:

Starsze tabele:

Zdarzenia usługi Azure Site Recovery
Replikowane elementy usługi Azure Site Recovery
Statystyki replikacji usługi Azure Site Recovery
Punkty usługi Azure Site Recovery
Szybkość przekazywania danych replikacji usługi Azure Site Recovery
Współczynnik zmian danych dysku chronionego w usłudze Azure Site Recovery
Szczegóły replikowanego elementu usługi Azure Site Recovery

Konfigurowanie usługi Site Recovery do wysyłania dzienników

W magazynie wybierz pozycję Ustawienia>diagnostyczne Dodaj ustawienie diagnostyczne.
W obszarze Ustawienia diagnostyczne określ nazwę i zaznacz pole Wyślij do usługi Log Analytics.
Wybierz subskrypcję dzienników usługi Azure Monitor i obszar roboczy usługi Log Analytics.
Wybierz Diagnostyka Azure w przełączniku.
Z listy dzienników wybierz wszystkie dzienniki z prefiksem AzureSiteRecovery. Następnie wybierz opcję OK.

Dzienniki usługi Site Recovery zaczynają być wprowadzane do tabeli (AzureDiagnostics) w wybranym obszarze roboczym.

Konfigurowanie agenta monitorowania firmy Microsoft na serwerze przetwarzania w celu wysyłania dzienników współczynnika zmian i przekazywania dzienników

Możesz przechwycić informacje o współczynniku zmian danych i informacje o szybkości przekazywania danych źródłowych dla maszyn wirtualnych VMware/fizycznych w środowisku lokalnym. Aby to umożliwić, na serwerze przetwarzania musi być zainstalowany agent monitorowania firmy Microsoft.

Przejdź do obszaru roboczego usługi Log Analytics i wybierz pozycję Ustawienia zaawansowane.
Wybierz stronę Połączone źródła , a następnie wybierz pozycję Serwery z systemem Windows.
Pobierz agenta systemu Windows (64-bitowego) na serwerze przetwarzania.
Uzyskiwanie identyfikatora i klucza obszaru roboczego
Konfigurowanie agenta do używania protokołu TLS 1.2
Ukończ instalację agenta, podając uzyskany identyfikator i klucz obszaru roboczego.
Po zakończeniu instalacji przejdź do obszaru roboczego usługi Log Analytics i wybierz pozycję Zarządzanie starszymi agentami. Przejdź do strony Dane i wybierz pozycję Liczniki wydajności systemu Windows.
Wybierz pozycję "+" , aby dodać następujące dwa liczniki z interwałem próbki wynoszącym 300 sekund:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
Dane współczynnika zmian i przekazywania zaczną przekazywać dane do obszaru roboczego.
Następujące liczniki usługi Site Recovery nie można obecnie przeszukiwać:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
  Można je jednak dodać, wklejając nazwy w całości.

Uwaga

Obecnie nie można wyszukiwać tych liczników. Można je jednak dodać, kopiując i wklejając ich pełne nazwy.

SourceVmThrpRate pokazuje sieć za pośrednictwem współczynnika umieszczania w źródle.
SourceVmChurnRate pokazuje szybkość zmian danych na dysku na źródłowej maszynie wirtualnej.

Zrzut ekranu przedstawiający ekran ustawień liczników.

Wykonywanie zapytań dotyczących dzienników — przykłady

Dane są pobierane z dzienników przy użyciu zapytań dziennika napisanych za pomocą języka zapytań Kusto. Ta sekcja zawiera kilka przykładów typowych zapytań, których można użyć do monitorowania usługi Site Recovery.

Uwaga

W niektórych przykładach użyto replicationProviderName_s ustawionego na wartość A2A. Spowoduje to pobranie maszyn wirtualnych platformy Azure replikowanych do pomocniczego regionu świadczenia usługi Azure przy użyciu usługi Site Recovery. W tych przykładach możesz zastąpić usługę A2A maszyną wirtualną InMageRcm, jeśli chcesz pobrać lokalne maszyny wirtualne VMware lub serwery fizyczne replikowane na platformę Azure przy użyciu usługi Site Recovery.

Kondycja replikacji zapytań

To zapytanie wykreśli wykres kołowy dla bieżącej kondycji replikacji wszystkich chronionych maszyn wirtualnych platformy Azure podzielonych na trzy stany: Normalny, Ostrzeżenie lub Krytyczne.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart

Wykonywanie zapytań o wersję usługa mobilności

To zapytanie wykreśla wykres kołowy dla maszyn wirtualnych platformy Azure replikowanych za pomocą usługi Site Recovery podzielonego na wersję uruchomionego agenta mobilności.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart

Czas celu punktu odzyskiwania zapytania

To zapytanie wykreśla wykres słupkowy maszyn wirtualnych platformy Azure replikowanych za pomocą usługi Site Recovery, podzielonego na cel punktu odzyskiwania (RPO): mniej niż 15 minut z zakresu od 15 do 30 minut, ponad 30 minut.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart

Zrzut ekranu przedstawiający wykres słupkowy maszyn wirtualnych platformy Azure replikowanych za pomocą usługi Site Recovery.

Wykonywanie zapytań o zadania usługi Site Recovery

To zapytanie pobiera wszystkie zadania usługi Site Recovery (dla wszystkich scenariuszy odzyskiwania po awarii), wyzwalane w ciągu ostatnich 72 godzin i ich stan ukończenia.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType

Wykonywanie zapytań o zdarzenia usługi Site Recovery

To zapytanie pobiera wszystkie zdarzenia usługi Site Recovery (dla wszystkich scenariuszy odzyskiwania po awarii) zgłoszone w ciągu ostatnich 72 godzin wraz z ich ważnością.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level

Testowy stan pracy w trybie failover zapytania (wykres kołowy)

To zapytanie wykreśla wykres kołowy testowy stanu pracy w trybie failover maszyn wirtualnych platformy Azure replikowanych za pomocą usługi Site Recovery.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart

Testowy stan pracy w trybie failover zapytania (tabela)

To zapytanie wykreśla tabelę stanu testowego trybu failover maszyn wirtualnych platformy Azure replikowanych za pomocą usługi Site Recovery.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s

Cel punktu odzyskiwania maszyny zapytań

To zapytanie wykreśli wykres trendu, który śledzi cel punktu odzyskiwania określonej maszyny wirtualnej platformy Azure (ContosoVM123) w ciągu ostatnich 72 godzin.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart

Zrzut ekranu przedstawiający wykres trendu śledzący cel punktu odzyskiwania określonej maszyny wirtualnej platformy Azure.

Wykonywanie zapytań dotyczących współczynnika zmian danych (współczynnik zmian) i szybkość przekazywania dla maszyny wirtualnej platformy Azure

To zapytanie przedstawia wykres trendu dla określonej maszyny wirtualnej platformy Azure (ContosoVM123), która reprezentuje szybkość zmian danych (liczba bajtów zapisu na sekundę) i szybkość przekazywania danych.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart

zrzut ekranu przedstawiający wykres trendu dla określonej maszyny wirtualnej platformy Azure.

Wykonywanie zapytań dotyczących współczynnika zmian danych (współczynnik zmian) i szybkość przekazywania dla maszyny wirtualnej VMware lub fizycznej

Uwaga

Upewnij się, że skonfigurowaliśmy agenta monitorowania na serwerze przetwarzania, aby pobrać te dzienniki. Zapoznaj się z krokami konfigurowania agenta monitorowania.

To zapytanie wykreśla wykres trendu dla określonego dysku, disk0, replikowanego elementu win-9r7sfh9qlru, który reprezentuje szybkość zmian danych (zapis bajtów na sekundę) i szybkość przekazywania danych. Nazwę dysku można znaleźć w bloku Dyski replikowanego elementu w magazynie usługi Recovery Services. Nazwa wystąpienia, która ma być używana w zapytaniu, to nazwa DNS maszyny, po której następuje _ i nazwa dysku, jak w tym przykładzie.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

Serwer przetwarzania wypycha te dane co 5 minut do obszaru roboczego usługi Log Analytics. Te punkty danych reprezentują średnią obliczoną przez 5 minut.

Podsumowanie odzyskiwania po awarii (platforma Azure do platformy Azure)

To zapytanie wykreśla tabelę podsumowania maszyn wirtualnych platformy Azure replikowanych do pomocniczego regionu świadczenia usługi Azure. Przedstawia on nazwę, replikację i stan ochrony maszyny wirtualnej, cel punktu odzyskiwania, stan testu pracy w trybie failover, wersję agenta mobilności, wszelkie aktywne błędy replikacji i lokalizację źródłową.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s

Podsumowanie odzyskiwania po awarii (serwery VMware/fizyczne)

To zapytanie zawiera tabelę podsumowania dla maszyn wirtualnych VMware i serwerów fizycznych replikowanych na platformę Azure. Przedstawia on nazwę maszyny, stan replikacji i ochrony, cel punktu odzyskiwania, stan testu pracy w trybie failover, wersję agenta mobilności, wszelkie aktywne błędy replikacji i odpowiedni serwer przetwarzania.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g

Konfigurowanie alertów — przykłady

Alerty usługi Site Recovery można skonfigurować na podstawie danych usługi Azure Monitor. Dowiedz się więcej o konfigurowaniu alertów dzienników.

Uwaga

W niektórych przykładach użyto replicationProviderName_s ustawionego na wartość A2A. Spowoduje to ustawienie alertów dla maszyn wirtualnych platformy Azure replikowanych do pomocniczego regionu świadczenia usługi Azure. W tych przykładach możesz zastąpić usługę A2A maszyną wirtualną InMageRcm , jeśli chcesz ustawić alerty dla lokalnych maszyn wirtualnych VMware lub serwerów fizycznych replikowanych na platformę Azure.

Wiele maszyn w stanie krytycznym

Skonfiguruj alert, jeśli więcej niż 20 replikowanych maszyn wirtualnych platformy Azure przechodzi w stan krytyczny.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Dla alertu ustaw wartość Próg na 20.

Pojedyncza maszyna w stanie krytycznym

Skonfiguruj alert, jeśli określona zreplikowana maszyna wirtualna platformy Azure przechodzi w stan krytyczny.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Dla alertu ustaw wartość Próg na 1.

Wiele maszyn przekracza cel punktu odzyskiwania

Skonfiguruj alert, jeśli cel punktu odzyskiwania dla ponad 20 maszyn wirtualnych platformy Azure przekracza 30 minut.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()

Dla alertu ustaw wartość Próg na 20.

Pojedyncza maszyna przekracza cel punktu odzyskiwania

Skonfiguruj alert, jeśli cel punktu odzyskiwania dla pojedynczej maszyny wirtualnej platformy Azure przekracza 30 minut.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()

Dla alertu ustaw wartość Próg na 1.

Testowanie pracy w trybie failover dla wielu maszyn przekracza 90 dni

Skonfiguruj alert, jeśli ostatnie pomyślne przejście w tryb failover trwało ponad 90 dni dla ponad 20 maszyn wirtualnych.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Dla alertu ustaw wartość Próg na 20.

Testowanie pracy w trybie failover dla pojedynczej maszyny przekracza 90 dni

Skonfiguruj alert, jeśli ostatni test pracy w trybie failover dla określonej maszyny wirtualnej wynosił ponad 90 dni temu.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Dla alertu ustaw wartość Próg na 1.

Zadanie usługi Site Recovery kończy się niepowodzeniem

Skonfiguruj alert, jeśli zadanie usługi Site Recovery (w tym przypadku zadanie ponownego włączania ochrony) zakończy się niepowodzeniem dla dowolnego scenariusza usługi Site Recovery w ciągu ostatniego dnia.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()

W przypadku alertu ustaw wartość Próg na 1 i Okres na 1440 minut, aby sprawdzić błędy w ciągu ostatniego dnia.

Następne kroki

Dowiedz się więcej o wbudowanym monitorowaniu usługi Site Recovery.

Udostępnij za pośrednictwem

Monitorowanie usługi Site Recovery przy użyciu dzienników usługi Azure Monitor

Wymagania wstępne

Dzienniki zdarzeń dostępne dla usługi Azure Site Recovery

Konfigurowanie usługi Site Recovery do wysyłania dzienników

Konfigurowanie agenta monitorowania firmy Microsoft na serwerze przetwarzania w celu wysyłania dzienników współczynnika zmian i przekazywania dzienników

Wykonywanie zapytań dotyczących dzienników — przykłady

Kondycja replikacji zapytań

Wykonywanie zapytań o wersję usługa mobilności

Czas celu punktu odzyskiwania zapytania

Wykonywanie zapytań o zadania usługi Site Recovery

Wykonywanie zapytań o zdarzenia usługi Site Recovery

Testowy stan pracy w trybie failover zapytania (wykres kołowy)

Testowy stan pracy w trybie failover zapytania (tabela)

Cel punktu odzyskiwania maszyny zapytań

Wykonywanie zapytań dotyczących współczynnika zmian danych (współczynnik zmian) i szybkość przekazywania dla maszyny wirtualnej platformy Azure

Wykonywanie zapytań dotyczących współczynnika zmian danych (współczynnik zmian) i szybkość przekazywania dla maszyny wirtualnej VMware lub fizycznej

Podsumowanie odzyskiwania po awarii (platforma Azure do platformy Azure)

Podsumowanie odzyskiwania po awarii (serwery VMware/fizyczne)

Konfigurowanie alertów — przykłady

Wiele maszyn w stanie krytycznym

Pojedyncza maszyna w stanie krytycznym

Wiele maszyn przekracza cel punktu odzyskiwania

Pojedyncza maszyna przekracza cel punktu odzyskiwania

Testowanie pracy w trybie failover dla wielu maszyn przekracza 90 dni

Testowanie pracy w trybie failover dla pojedynczej maszyny przekracza 90 dni

Zadanie usługi Site Recovery kończy się niepowodzeniem

Następne kroki

Opinia

Dodatkowe zasoby