Sdílet prostřednictvím


Vytvoření upozornění na metriku s dynamickými prahovými hodnotami

Možná si nejste jisti správnými čísly, která se mají použít jako prahové hodnoty pravidel upozornění. Dynamické prahové hodnoty používají pokročilé strojové učení a používají sadu algoritmů a metod k:

  • Seznamte se s historickým chováním metrik.
  • Analyzujte metriky v průběhu času a identifikujte vzory, jako jsou hodinové, denní nebo týdenní vzory.
  • Rozpoznávat anomálie, které značí možné problémy se službami.
  • Vypočítejte nejvhodnější prahové hodnoty pro metriky.

Při použití dynamických prahových hodnot nemusíte znát správnou prahovou hodnotu pro každou metriku. Dynamické prahové hodnoty pro vás počítají nejvhodnější prahové hodnoty.

Doporučujeme nakonfigurovat pravidla upozornění s dynamickými prahovými hodnotami pro tyto metriky:

  • Procento procesoru virtuálního počítače
  • Doba spuštění požadavku HTTP služby Application Insights

Dynamické prahové hodnoty vám pomůžou:

  • Vytvářejte škálovatelné výstrahy pro stovky řad metrik pomocí jednoho pravidla upozornění. Pokud máte méně pravidel upozornění, strávíte tím méně času vytvořením a správou pravidel. Škálovatelné výstrahy jsou zvláště užitečné pro více dimenzí nebo pro více prostředků, například pro všechny prostředky v předplatném.
  • Vytvořte pravidla, aniž byste museli vědět, jakou prahovou hodnotu nakonfigurovat.
  • Nakonfigurujte upozornění na metriky pomocí konceptů vysoké úrovně, aniž byste potřebovali rozsáhlé znalosti domény o této metrice.
  • Zabraňte hlučným (nízkou přesností) nebo širokým prahovým hodnotám (nízké úplnosti), které nemají očekávaný vzor.

Dynamické prahové hodnoty můžete použít pro:

  • Většina platforem Azure Monitoru a vlastních metrik
  • Běžné metriky aplikací a infrastruktury
  • Hlučné metriky, jako je procesor počítače nebo paměť.
  • Metriky s nízkým rozptylem, jako je dostupnost a míra chyb.

Dynamické prahové hodnoty můžete nakonfigurovat pomocí:

Výpočet prahové hodnoty upozornění a náhled

Při vytváření pravidla upozornění používají dynamické prahové hodnoty 10 dnů historických dat k výpočtu hodinových nebo denních sezónních vzorů. Graf, který vidíte v náhledu upozornění, odráží tato data.

Dynamické prahové hodnoty neustále využívají všechna dostupná historická data ke učení a dělají úpravy, aby byly přesnější. Po třech týdnech mají dynamické prahové hodnoty dostatek dat k identifikaci týdenních vzorů a model se upraví tak, aby zahrnoval týdenní sezónnost.

Systém automaticky rozpozná dlouhodobé výpadky a odebere je z algoritmu učení prahové hodnoty. Pokud dojde k dlouhodobému výpadku, dynamické prahové hodnoty rozumí datům. Zjistí problémy se systémem se stejnou úrovní citlivosti jako před výpadkem.

Důležité informace o používání dynamických prahových hodnot

  • Aby bylo možné zajistit přesný výpočet prahové hodnoty, pravidla upozornění, která používají dynamické prahové hodnoty, neaktivují upozornění před shromažďováním tří dnů a nejméně 30 vzorků dat metriky. Nové prostředky nebo prostředky, u které chybí data metrik, neaktivují upozornění, dokud nebude k dispozici dostatek dat.
  • Dynamické prahové hodnoty potřebují k detekci týdenní sezónnosti aspoň tři týdny historických dat. Některé podrobné vzory, jako jsou bihourly nebo poloobjemné vzory, nemusí být zjištěny.
  • Pokud se chování metriky nedávno změnilo, změny se okamžitě neprojeví v horní a dolní hranici dynamické prahové hodnoty. Ohraničení se počítá na základě dat metrik za posledních 10 dnů. Když pro konkrétní metriku zobrazíte ohraničení dynamické prahové hodnoty, podívejte se na trend metriky v posledním týdnu a ne jenom na poslední hodiny nebo dny.
  • Dynamické prahové hodnoty jsou vhodné pro detekci významných odchylek oproti pomalu se vyvíjejícím problémům. Pomalé změny chování pravděpodobně neaktivují upozornění.
  • Dynamické prahové hodnoty nelze použít v pravidlech upozornění, která monitorují více podmínek.

Konfigurace dynamických prahových hodnot

Pokud chcete nakonfigurovat dynamické prahové hodnoty, postupujte podle pokynů pro vytvoření pravidla upozornění. Na kartě Podmínka použijte tato nastavení:

  • Jako prahovou hodnotu vyberte Dynamické.
  • U typu Agregace doporučujeme nevybít maximum.
  • V části Operátor vyberte možnost Větší, než pokud chování představuje využití aplikace.
  • V případě citlivosti prahové hodnoty vyberte Možnost Střední nebo Nízká , abyste snížili šum upozornění.
  • V případě každé kontroly vyberte, jak často pravidlo upozornění kontroluje, jestli je podmínka splněná. Pokud chcete minimalizovat obchodní dopad upozornění, zvažte použití nižší frekvence. Ujistěte se, že je tato hodnota menší nebo rovna hodnotě období zpětného vyhledávání.
  • U období zpětného vyhledávání nastavte časové období tak, aby se při každé kontrole dat vrátilo zpět. Ujistěte se, že je tato hodnota větší nebo rovna kontrole každé hodnoty.
  • U rozšířených možností zvolte, kolik porušení aktivuje výstrahu během určitého časového období. Volitelně můžete nastavit datum, od kterého chcete začít učit historická data metrik a vypočítat dynamické prahové hodnoty.

Poznámka:

Pravidla upozornění na metriku, která vytvoříte prostřednictvím portálu, se vytvoří ve stejné skupině prostředků jako cílový prostředek.

Dynamický prahový graf

Následující graf ukazuje metriku, její dynamické prahové limity a některé výstrahy, které se aktivovaly, když hodnota byla mimo povolené prahové hodnoty.

Snímek obrazovky s grafem, který zobrazuje metriku, její dynamické prahové limity a některá upozornění, která se aktivovala

K interpretaci grafu použijte následující informace:

  • Modrá čára: Metrika měřená v průběhu času.
  • Modrá vystínovaná oblast: Povolený rozsah pro metriku. Pokud hodnoty metrik zůstanou v tomto rozsahu, neaktivuje se žádná výstraha.
  • Modré tečky: Agregované hodnoty metrik Pokud vyberete část grafu a pak najedete myší na modrou čáru, zobrazí se pod kurzorem modrá tečka, která označuje jednotlivou agregovanou hodnotu metriky.
  • Automaticky otevírané okno s modrou tečkou: Měřená hodnota metriky (modrá tečka) a horní a nižší hodnoty povoleného rozsahu.
  • Červená tečka s černým kruhem: První hodnota metriky mimo povolený rozsah. Tato hodnota aktivuje upozornění na metriku a umístí ji do aktivního stavu.
  • Červené tečky: Jiné měřené hodnoty mimo povolený rozsah. Neaktivují více upozornění na metriky, ale výstraha zůstane v aktivním stavu.
  • Červená oblast: Čas, kdy hodnota metriky byla mimo povolený rozsah. Výstraha zůstane v aktivním stavu, pokud jsou následující měřené hodnoty mimo povolený rozsah, ale neaktivují se žádné nové výstrahy.
  • Konec červené oblasti: Návrat k povoleným hodnotám. Když se modrá čára vrátí uvnitř povolených hodnot, červená oblast se zastaví a čára naměřené hodnoty se změní na modrou. Stav upozornění na metriku aktivovaný v době červené tečky s černým kruhem je nastavený na vyřešení.

Známé problémy s citlivostí dynamické prahové hodnoty

  • Pokud pravidlo upozornění, které používá dynamické prahové hodnoty, je příliš hlučné nebo příliš velké, možná budete muset snížit jeho citlivost. Použijte jednu z následujících možností:

    • Citlivost prahové hodnoty: Nastavte citlivost na Nízkou , aby byla odolnější vůči odchylkám.
    • Počet porušení (v části Upřesnit nastavení): Nakonfigurujte pravidlo upozornění tak, aby se aktivovalo pouze v případě, že v určitém časovém období dojde k několika odchylkám. Díky tomuto nastavení je pravidlo méně náchylné k přechodným odchylkám.
  • Možná zjistíte, že pravidlo upozornění, které používá dynamické prahové hodnoty, se neaktivuje nebo není dostatečně citlivé, i když je nakonfigurované s vysokou citlivostí. K tomuto scénáři může dojít v případě, že je rozdělení metriky velmi nepravidelné. Zvažte jedno z následujících řešení:

    • Pokud je to možné, přejděte k monitorování doplňkové metriky, která je vhodná pro váš scénář. Například zkontrolujte, jestli se změny úspěšnosti neprobíjely míra selhání.
    • Zkuste vybrat jinou hodnotu pro členitost agregace (období).
    • Zkontrolujte, jestli během posledních 10 dnů došlo k závažné změně v chování metrik, jako je výpadek. Nečekaná změna může ovlivnit horní a dolní prahové hodnoty vypočítané pro metriku a zvětšit je. Počkejte několik dní, než se výpadek už nezahrne do výpočtu prahové hodnoty. Pravidlo upozornění můžete také upravit tak, aby před možností Ignorovat data používala v rozšířených nastaveních.
    • Pokud data mají týdenní sezónnost, ale pro metriku není k dispozici dostatek historie, můžou vypočítané prahové hodnoty vést k širokým horním a dolním hranicím. Výpočet může například zpracovávat pracovní dny a víkendy stejným způsobem a vytvářet široká ohraničení, která se vždy nevejdou do dat. Tento problém by se měl vyřešit, až bude k dispozici dostatek historie metrik. Pak se zjistí správná sezónnost a vypočítané prahové hodnoty se odpovídajícím způsobem aktualizují.
  • Když hodnota metriky vykazuje velké výkyvy, dynamické prahové hodnoty můžou vytvořit široký model kolem hodnot metrik, což může vést k nižší nebo vyšší hranici, než se čekalo. K tomuto scénáři může dojít v těchto případech:

    • Citlivost je nastavená na nízkou.
    • Metrika vykazuje nepravidelné chování s vysokou odchylkou, která se v datech zobrazuje jako špičky nebo poklesy.

    Zvažte, že model bude méně citlivý, když zvolíte vyšší citlivost nebo vyberete větší hodnotu období zpětného vyhledávání. Můžete také použít možnost Ignorovat data před možností vyloučit nedávné nepravidelnosti z historických dat, která se používají k sestavení modelu.

Metriky nepodporované dynamickými prahovými hodnotami

Dynamické prahové hodnoty podporují většinu metrik, ale následující metriky nemůžou používat dynamické prahové hodnoty:

Typ prostředku Název metriky
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices Kapacita objektu blob
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndexCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareQuota
Microsoft.Compute/disky Bajty čtení složeného disku za sekundu
Microsoft.Compute/disky Operace čtení složeného disku za sekundu
Microsoft.Compute/disky Bajty zápisu na složený disk za sekundu
Microsoft.Compute/disky Operace zápisu na složený disk za sekundu
Microsoft.ContainerService/managedClusters NodesCount
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartováníContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.DocumentDB/databaseAccounts CassandraConnectionClosures
Microsoft.EventHub/clusters Velikost
Microsoft.EventHub/namespaces Velikost
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters NodesCount
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartováníContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.MachineLearningServices/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft.Maps/accounts CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints Výchozí přenos dat
Microsoft.Network/applicationGateways Propustnost
Microsoft.Network/azureFirewalls Propustnost
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/namespaces Velikost
Microsoft.ServiceBus/namespaces Zprávy
Microsoft.ServiceBus/namespaces ActiveMessages
Microsoft.ServiceBus/namespaces DeadletteredMessages
Microsoft.ServiceBus/namespaces ScheduledMessages
Microsoft.ServiceFabricMesh/applications Přidělenýcpu
Microsoft.ServiceFabricMesh/applications PřidělenoMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices Kapacita objektu blob
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndexCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Pokud máte zpětnou vazbu k dynamickým prahům, pošlete nám e-mail.