Tworzenie alertu dotyczącego metryki z progami dynamicznymi
Być może nie masz pewności co do poprawnej liczby, która ma być używana jako progi reguł alertów. Progi dynamiczne stosują zaawansowane uczenie maszynowe i używają zestawu algorytmów i metod do:
- Poznaj historyczne zachowanie metryk.
- Analizowanie metryk w czasie i identyfikowanie wzorców, takich jak wzorce godzinowe, dzienne lub tygodniowe.
- Rozpoznaj anomalie wskazujące możliwe problemy z usługą.
- Oblicz najbardziej odpowiednie progi dla metryk.
Jeśli używasz progów dynamicznych, nie musisz znać odpowiedniego progu dla każdej metryki. Progi dynamiczne obliczają najbardziej odpowiednie progi.
Zalecamy skonfigurowanie reguł alertów z progami dynamicznymi dla następujących metryk:
- Procent użycia procesora CPU maszyny wirtualnej
- Czas wykonywania żądania HTTP usługi Application Insights
Progi dynamiczne ułatwiają:
- Utwórz skalowalne alerty dla setek serii metryk z jedną regułą alertu. Jeśli masz mniej reguł alertów, poświęcasz mniej czasu na tworzenie i zarządzanie nimi. Skalowalne alerty są szczególnie przydatne w przypadku wielu wymiarów lub wielu zasobów, takich jak wszystkie zasoby w subskrypcji.
- Tworzenie reguł bez konieczności znajomości progu do skonfigurowania.
- Konfigurowanie alertów dotyczących metryk przy użyciu pojęć wysokiego poziomu bez konieczności posiadania obszernej wiedzy o domenie dotyczącej metryki.
- Zapobiegaj hałaśliwym (niskiej precyzji) lub szerokim (niskim odwołaniu) progom, które nie mają oczekiwanego wzorca.
Możesz użyć progów dynamicznych w:
- Większość platformy Azure Monitor i metryk niestandardowych.
- Typowe metryki aplikacji i infrastruktury.
- Hałaśliwe metryki, takie jak procesor komputera lub pamięć.
- Metryki o niskim rozproszeniu, takie jak dostępność i szybkość błędów.
Progi dynamiczne można skonfigurować przy użyciu:
- witryny Azure Portal.
- W pełni zautomatyzowany interfejs API usługi Azure Resource Manager.
- Szablony alertów dotyczących metryk.
Obliczanie progu alertu i podgląd
Po utworzeniu reguły alertu progi dynamiczne używają 10 dni danych historycznych do obliczania wzorców sezonowych lub godzinowych. Wykres widoczny w podglądzie alertu odzwierciedla te dane.
Progi dynamiczne stale używają wszystkich dostępnych danych historycznych do nauki i umożliwiają dokładniejsze dostosowanie. Po trzech tygodniach progi dynamiczne mają wystarczającą ilość danych, aby zidentyfikować tygodniowe wzorce, a model jest dostosowywany w celu uwzględnienia tygodniowej sezonowości.
System automatycznie rozpoznaje długotrwałe awarie i usuwa je z algorytmu uczenia progowego. Jeśli występuje długotrwała awaria, progi dynamiczne rozumieją dane. Wykrywają problemy z systemem z takim samym poziomem poufności, jak przed wystąpieniem awarii.
Zagadnienia dotyczące używania progów dynamicznych
- Aby zapewnić dokładne obliczenie progu, reguły alertów używające progów dynamicznych nie wyzwalają alertu przed zebraniem trzech dni i co najmniej 30 próbek danych metryk. Nowe zasoby lub zasoby, dla których brakuje danych metryk, nie wyzwalają alertu do momentu udostępnienia wystarczającej ilości danych.
- Progi dynamiczne wymagają co najmniej trzech tygodni danych historycznych w celu wykrycia tygodniowej sezonowości. Niektóre szczegółowe wzorce, takie jak wzorce dwugodzinne lub częściowoweekly, mogą nie zostać wykryte.
- Jeśli zachowanie metryki uległo ostatnio zmianie, zmiany nie zostaną natychmiast odzwierciedlone w górnej i dolnej granicy progu dynamicznego. Obramowania są obliczane na podstawie danych metryk z ostatnich 10 dni. Po wyświetleniu obramowania progu dynamicznego dla określonej metryki przyjrzyj się trendowi metryki w ostatnim tygodniu, a nie tylko w ostatnich godzinach lub dniach.
- Progi dynamiczne są dobre do wykrywania znaczących odchyleń, w przeciwieństwie do powoli zmieniających się problemów. Powolne zmiany zachowania prawdopodobnie nie wyzwolą alertu.
- Nie można używać progów dynamicznych w regułach alertów, które monitorują wiele warunków.
Konfigurowanie progów dynamicznych
Aby skonfigurować progi dynamiczne, wykonaj procedurę tworzenia reguły alertu. Użyj tych ustawień na karcie Warunek :
- W obszarze Próg wybierz pozycję Dynamiczny.
- W polu Typ agregacji zalecamy, aby nie wybierać pozycji Maksimum.
- W obszarze Operator wybierz pozycję Większe niż , chyba że zachowanie reprezentuje użycie aplikacji.
- W obszarze Czułość progu wybierz pozycję Średni lub Niski , aby zmniejszyć szum alertu.
- W polu Sprawdź co wybierz, jak często reguła alertu sprawdza, czy warunek jest spełniony. Aby zminimalizować wpływ alertu na działalność biznesową, rozważ użycie niższej częstotliwości. Upewnij się, że ta wartość jest mniejsza lub równa wartości okresu wyszukiwania.
- W obszarze Okres wyszukiwania ustaw okres, aby za każdym razem, gdy dane są sprawdzane. Upewnij się, że ta wartość jest większa lub równa każdej wartości.
- W obszarze Opcje zaawansowane wybierz liczbę naruszeń, które będą wyzwalać alert w określonym przedziale czasu. Opcjonalnie ustaw datę, od której chcesz zacząć uczyć się danych historycznych metryk i obliczać progi dynamiczne.
Uwaga
Reguły alertów dotyczących metryk tworzone za pośrednictwem portalu są tworzone w tej samej grupie zasobów co zasób docelowy.
Dynamiczny wykres progowy
Na poniższym wykresie przedstawiono metrykę, jej limity progów dynamicznych i niektóre alerty, które zostały wyzwolone, gdy wartość przekroczyła dozwolone progi.
Aby interpretować wykres, skorzystaj z poniższych informacji:
- Niebieska linia: metryka mierzona w czasie.
- Niebieski zacieniony obszar: dozwolony zakres dla metryki. Jeśli wartości metryk pozostaną w tym zakresie, żaden alert nie zostanie wyzwolony.
- Niebieskie kropki: zagregowane wartości metryk. Jeśli wybierzesz część wykresu, a następnie umieść kursor nad niebieską linią, niebieska kropka pojawi się pod kursorem, aby wskazać pojedynczą zagregowaną wartość metryki.
- Okno podręczne z niebieską kropką: zmierzona wartość metryki (niebieska kropka) oraz górne i dolne wartości dozwolonego zakresu.
- Czerwona kropka z czarnym okręgiem: pierwsza wartość metryki poza dozwolonym zakresem. Ta wartość wyzwala alert metryki i umieszcza ją w stanie aktywnym.
- Czerwone kropki: Inne zmierzone wartości poza dozwolonym zakresem. Nie wyzwalają one większej liczby alertów metryk, ale alert pozostaje w stanie aktywnym.
- Czerwony obszar: czas, kiedy wartość metryki znajdowała się poza dozwolonym zakresem. Alert pozostaje w stanie aktywnym, o ile kolejne zmierzone wartości znajdują się poza dozwolonym zakresem, ale nie są wyzwalane żadne nowe alerty.
- Koniec czerwonego obszaru: powrót do dozwolonych wartości. Gdy niebieska linia jest z powrotem wewnątrz dozwolonych wartości, czerwony obszar zatrzymuje się, a linia zmierzonej wartości zmieni kolor na niebieski. Stan alertu dotyczącego metryki wyzwolony w momencie czerwonej kropki z czarnym okręgiem jest ustawiony na rozwiązanie problemu.
Znane problemy z poufnością progów dynamicznych
Jeśli reguła alertu korzystająca z progów dynamicznych jest zbyt hałaśliwa lub uruchamia zbyt wiele, może być konieczne zmniejszenie jego poufności. Skorzystaj z jednej z następujących opcji:
- Czułość progowa: ustaw czułość na Wartość Niska , aby być bardziej odporna na odchylenia.
- Liczba naruszeń (w obszarze Ustawienia zaawansowane): skonfiguruj regułę alertu, aby wyzwalać tylko wtedy, gdy w określonym okresie wystąpi kilka odchyleń. To ustawienie sprawia, że reguła jest mniej podatna na odchylenia przejściowe.
Może się okazać, że reguła alertu korzystająca z progów dynamicznych nie jest uruchamiana lub nie jest wystarczająco wrażliwa, mimo że jest skonfigurowana z wysoką poufnością. Ten scenariusz może wystąpić, gdy rozkład metryki jest bardzo nieregularny. Rozważ jedno z następujących rozwiązań:
- Przejdź do monitorowania uzupełniającej metryki, która jest odpowiednia dla danego scenariusza, jeśli ma to zastosowanie. Na przykład sprawdź zmiany współczynnika powodzenia, a nie współczynnik niepowodzeń.
- Spróbuj wybrać inną wartość dla stopnia szczegółowości agregacji (okres).
- Sprawdź, czy drastyczna zmiana wystąpiła w zachowaniu metryki w ciągu ostatnich 10 dni, takich jak awaria. Nagłe zmiany mogą mieć wpływ na górne i niższe progi obliczone dla metryki i uczynić je szerszymi. Poczekaj kilka dni, aż awaria nie zostanie już uwzględniona w obliczeniu progu. Możesz również edytować regułę alertu, aby użyć opcji Ignoruj dane przed w ustawieniach zaawansowanych.
- Jeśli dane mają cotygodniową sezonowość, ale za mało historii jest dostępna dla metryki, obliczone progi mogą spowodować szerokie górne i dolne granice. Na przykład obliczenie może traktować dni robocze i weekendy w taki sam sposób i tworzyć szerokie granice, które nie zawsze pasują do danych. Ten problem powinien zostać rozwiązany po udostępnieniu wystarczającej liczby historii metryk. Następnie wykryto poprawną sezonowość i odpowiednio zaktualizowano obliczone progi.
Gdy wartość metryki wykazuje duże wahania, progi dynamiczne mogą utworzyć szeroki model wokół wartości metryk, co może spowodować obniżenie lub wyższe granice niż oczekiwano. Ten scenariusz może wystąpić, gdy:
- Czułość jest ustawiona na niską.
- Metryka wykazuje nieregularne zachowanie z wysoką wariancją, która pojawia się jako skoki lub spadki danych.
Rozważ zmniejszenie poufności modelu przez wybranie większej poufności lub wybranie większej wartości okresu lookback. Możesz również użyć opcji Ignoruj dane przed , aby wykluczyć ostatnie nieregularności z danych historycznych używanych do kompilowania modelu.
Metryki nieobsługiwane przez progi dynamiczne
Progi dynamiczne obsługują większość metryk, ale następujące metryki nie mogą używać progów dynamicznych:
Typ zasobu | Nazwa metryki |
---|---|
Microsoft.ClassicStorage/storageAccounts | UsedCapacity |
Microsoft.ClassicStorage/storageAccounts/blobServices | Liczba obiektów blobCapacity |
Microsoft.ClassicStorage/storageAccounts/blobServices | BlobCount |
Microsoft.ClassicStorage/storageAccounts/blobServices | IndeksCapacity |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileCapacity |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileCount |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareCount |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareSnapshotCount |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareSnapshotSize |
Microsoft.ClassicStorage/storageAccounts/fileServices | Udział plikówQuota |
Microsoft.Compute/disks | Bajty odczytu dysku złożonego na sekundę |
Microsoft.Compute/disks | Operacje odczytu dysku złożonego na sekundę |
Microsoft.Compute/disks | Bajty zapisu dysku złożonego na sekundę |
Microsoft.Compute/disks | Operacje zapisu na dysku złożonym/s |
Microsoft.ContainerService/managedClusters | Liczba węzłów |
Microsoft.ContainerService/managedClusters | PodCount |
Microsoft.ContainerService/managedClusters | CompletedJobsCount |
Microsoft.ContainerService/managedClusters | RestartingContainerCount |
Microsoft.ContainerService/managedClusters | OomKilledContainerCount |
Microsoft.Devices/IotHubs | TotalDeviceCount |
Microsoft.Devices/IotHubs | ConnectedDeviceCount |
Microsoft.Devices/IotHubs | TotalDeviceCount |
Microsoft.Devices/IotHubs | ConnectedDeviceCount |
Microsoft.DocumentDB/databaseAccounts | CassandraConnectionClosures |
Microsoft.EventHub/clusters | Rozmiar |
Microsoft.EventHub/namespaces | Rozmiar |
Microsoft.IoTCentral/IoTApps | connectedDeviceCount |
Microsoft.IoTCentral/IoTApps | provisionedDeviceCount |
Microsoft.Kubernetes/connectedClusters | Liczba węzłów |
Microsoft.Kubernetes/connectedClusters | PodCount |
Microsoft.Kubernetes/connectedClusters | CompletedJobsCount |
Microsoft.Kubernetes/connectedClusters | RestartingContainerCount |
Microsoft.Kubernetes/connectedClusters | OomKilledContainerCount |
Microsoft.MachineLearningServices/workspaces/onlineEndpoints | RequestsPerMinute |
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments | DeploymentCapacity |
Microsoft.Maps/accounts | CreatorUsage |
Microsoft.Media/mediaservices/streamingEndpoints | EgressBandwidth |
Microsoft.Network/applicationGateways | Produktywność |
Microsoft.Network/azureFirewalls | Produktywność |
Microsoft.Network/expressRouteGateways | ExpressRouteGatewayPacketsPerSecond |
Microsoft.Network/expressRouteGateways | ExpressRouteGatewayNumberOfVmInVnet |
Microsoft.Network/expressRouteGateways | ExpressRouteGatewayFrequencyOfRoutesChanged |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayBitsPerSecond |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayPacketsPerSecond |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayNumberOfVmInVnet |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayFrequencyOfRoutesChanged |
Microsoft.ServiceBus/przestrzenie nazw | Rozmiar |
Microsoft.ServiceBus/przestrzenie nazw | Wiadomości |
Microsoft.ServiceBus/przestrzenie nazw | ActiveMessages |
Microsoft.ServiceBus/przestrzenie nazw | DeadletteredMessages |
Microsoft.ServiceBus/przestrzenie nazw | ScheduledMessages |
Microsoft.ServiceFabricMesh/applications | Przydzielony procesor |
Microsoft.ServiceFabricMesh/applications | PrzydzieloneMemory |
Microsoft.ServiceFabricMesh/applications | ActualCpu |
Microsoft.ServiceFabricMesh/applications | ActualMemory |
Microsoft.ServiceFabricMesh/applications | ApplicationStatus |
Microsoft.ServiceFabricMesh/applications | ServiceStatus |
Microsoft.ServiceFabricMesh/applications | ServiceReplicaStatus |
Microsoft.ServiceFabricMesh/applications | ContainerStatus |
Microsoft.ServiceFabricMesh/applications | RestartCount |
Microsoft.Storage/storageAccounts | UsedCapacity |
Microsoft.Storage/storageAccounts/blobServices | Liczba obiektów blobCapacity |
Microsoft.Storage/storageAccounts/blobServices | BlobCount |
Microsoft.Storage/storageAccounts/blobServices | BlobProvisionedSize |
Microsoft.Storage/storageAccounts/blobServices | IndeksCapacity |
Microsoft.Storage/storageAccounts/fileServices | FileCapacity |
Microsoft.Storage/storageAccounts/fileServices | FileCount |
Microsoft.Storage/storageAccounts/fileServices | FileShareCount |
Microsoft.Storage/storageAccounts/fileServices | FileShareSnapshotCount |
Microsoft.Storage/storageAccounts/fileServices | FileShareSnapshotSize |
Microsoft.Storage/storageAccounts/fileServices | FileShareCapacityQuota |
Microsoft.Storage/storageAccounts/fileServices | FileShareProvisionedIOPS |
Powiązana zawartość
Jeśli masz opinię na temat progów dynamicznych, wyślij nam wiadomość e-mail.