Créer une alerte de métrique avec des seuils dynamiques
Vous n’êtes peut-être pas certain des chiffres à utiliser comme seuils pour vos règles d’alerte. Les seuils dynamiques appliquent le Machine Learning avancé, et utilisent un ensemble d’algorithmes et de méthodes pour :
- Apprendre le comportement historique des métriques.
- Analysez les métriques au fil du temps et identifiez des modèles tels que des modèles horaires, quotidiens ou hebdomadaires.
- Reconnaître les anomalies qui indiquent les problèmes de service éventuels.
- Calculez les seuils les plus appropriés pour les métriques.
Lorsque vous utilisez des seuils dynamiques, vous n’avez pas besoin de connaître le seuil approprié pour chaque métrique. Les seuils dynamiques calculent les seuils les plus appropriés pour vous.
Nous vous recommandons de configurer des règles d’alerte avec des seuils dynamiques sur les métriques suivantes :
- Pourcentage UC des machines virtuelles
- Durée d’exécution de la requête HTTP Application Insights
Les seuils dynamiques vous aident à :
- Créer des alertes scalables pour des centaines de séries de métriques avec une seule règle d’alerte. Si vous avez moins de règles d’alerte, vous passez moins de temps à les créer et à les gérer. Les alertes évolutives sont particulièrement utiles pour plusieurs dimensions ou pour plusieurs ressources, par exemple pour toutes les ressources d’un abonnement.
- Créer des règles sans avoir à connaître le seuil à configurer.
- Configurez des alertes de métriques à l’aide de concepts généraux sans avoir besoin de connaissances approfondies sur la métrique.
- Empêchez les seuils bruyants (faible précision) ou larges (faible rappel) qui n’ont pas de modèle attendu.
Vous pouvez utiliser des seuils dynamiques sur :
- La plupart des métriques personnalisées et de la plateforme Azure Monitor.
- Les métriques d’infrastructure et d’application courantes.
- Les métriques bruyantes, telles que le processeur ou la mémoire de la machine.
- Les métriques avec une faible dispersion, comme la disponibilité et le taux d’erreur.
Vous pouvez configurer des seuils dynamiques via les éléments suivants :
- Le portail Azure.
- L’API Azure Resource Manager entièrement automatisée.
- Les modèles d’alerte de métriques.
Calcul et préversion du seuil d’alerte
Lorsqu’une règle d’alerte est créée, les seuils dynamiques utilisent 10 jours de données historiques pour calculer des modèles saisonniers horaires ou quotidiens. Le graphique que vous voyez dans l’aperçu de l’alerte reflète ces données.
Les seuils dynamiques utilisent continuellement toutes les données historiques disponibles pour apprendre et effectuent des ajustements plus précis. Après trois semaines, les seuils dynamiques disposent de suffisamment de données pour identifier les modèles hebdomadaires, et le modèle est ajusté pour inclure la saisonnalité hebdomadaire.
Le système reconnaît automatiquement les pannes prolongées et les supprime de l’algorithme de formation de seuil. En cas de panne prolongée, les seuils dynamiques comprennent les données. Ils détectent les problèmes système avec le même niveau de sensibilité qu’avant la panne.
Considérations relatives à l’utilisation de seuils dynamiques
- Pour favoriser un calcul précis des seuils, les règles d’alerte qui utilisent des seuils dynamiques ne déclenchent pas d’alerte avant d’avoir collecté trois jours et au moins 30 échantillons de données de métriques. Les nouvelles ressources ou les ressources sans données de métriques ne déclenchent pas d’alerte tant que les données disponibles ne sont pas suffisantes.
- Les seuils dynamiques ont besoin d’au moins trois semaines de données historiques pour détecter la saisonnalité hebdomadaire. Certains modèles détaillés, tels que les modèles bi-horaires ou semi-hebdomadaires, peuvent ne pas être détectés.
- Les modifications récentes apportées au comportement d’une métrique ne sont pas reflétées immédiatement dans les limites supérieure et inférieure du seuil dynamique. Celles-ci sont en effet calculées en fonction des données de métriques des 10 derniers jours. Lorsque vous affichez les bordures du seuil dynamique d’une métrique donnée, examinez la tendance de la métrique au cours de la semaine précédente, et non seulement au cours des dernières heures ou des derniers jours.
- Les seuils dynamiques sont appropriés pour détecter des écarts significatifs plutôt que des problèmes se manifestant lentement. Les changements de comportement lents ne déclencheront probablement pas d’alerte.
- Vous ne pouvez pas utiliser de seuils dynamiques dans les règles d’alerte qui surveillent plusieurs conditions.
Configurer les seuils dynamiques
Pour configurer des seuils dynamiques, suivez la procédure de création d’une règle d’alerte. Utilisez ces paramètres sous l’onglet Condition :
- Sous Seuil, sélectionnez Dynamique.
- Sous Type d’agrégation, nous vous recommandons de ne pas sélectionner Maximum.
- Sous Opérateur, sélectionnez Supérieur à, sauf si le comportement représente l’utilisation de l’application.
- Sous Sensibilité du seuil, sélectionnez Moyenne ou Faible pour réduire le bruit de l’alerte.
- Sous Vérifier chaque, sélectionnez la fréquence à laquelle la règle d’alerte vérifie si la condition est remplie. Pour réduire l’impact opérationnel de l’alerte, envisagez d’utiliser une fréquence inférieure. Vérifiez que cette valeur est inférieure ou égale à la valeur de Période de recherche arrière.
- Sous Période de recherche arrière, définissez la période sur laquelle doit porter l’évaluation chaque fois que les données sont vérifiées. Vérifiez que cette valeur est supérieure ou égale à la valeur Vérifier chaque.
- Sous Paramètres avancés, choisissez le nombre de violations qui déclencheront l’alerte au cours d’une période spécifique. Vous pouvez éventuellement définir la date à partir de laquelle l’apprentissage des données historiques des métriques et le calcul des seuils dynamiques doivent commencer.
Remarque
Les règles d’alerte de métriques que vous créez via le portail sont créées dans le même groupe de ressources que la ressource cible.
Graphique de seuil dynamique
Vous trouverez ci-dessous un graphique présentant une métrique, ses limites de seuil dynamique et certaines alertes déclenchées quand la valeur se trouvait en dehors des seuils autorisés.
Utilisez les informations suivantes pour interpréter le graphique précédent :
- Ligne bleue : la métrique mesurée au fil du temps.
- Zone colorée en bleu : la plage autorisée pour la métrique. Si les valeurs de la métrique restent dans cette plage, aucune alerte n’est générée.
- Points bleus : les valeurs de métrique agrégées. Si vous sélectionnez une partie du graphique, puis pointez sur la ligne bleue, un point bleu apparaît sous le curseur pour indiquer une valeur de métrique agrégée individuelle.
- Fenêtre contextuelle avec un point bleu : la valeur de la métrique mesurée (le point bleu) et les valeurs supérieure et inférieure de la plage autorisée.
- Point rouge avec un cercle noir : la première valeur de la métrique située en dehors de la plage autorisée. Il s’agit de la valeur qui déclenche une alerte de métrique et la met dans un état actif.
- Points rouges : autres valeurs mesurées en dehors de la plage autorisée. Elles ne déclencheront plus d’alertes de métriques, mais l’alerte reste dans l’état actif.
- Zone rouge : l’heure à laquelle la valeur de la métrique se trouvait en dehors de la plage autorisée. L’alerte reste à l’état actif tant que les valeurs mesurées suivantes se trouvent en dehors de la plage autorisée, mais aucune nouvelle alerte n’est déclenchée.
- Fin de la zone rouge : retour aux valeurs autorisées. Lorsque la ligne bleue revient à l’intérieur des valeurs autorisées, la zone rouge s’arrête et la ligne des valeurs mesurées redevient bleue. L’état de l’alerte de métrique déclenchée au moment du point rouge avec un cercle noir est défini sur résolu.
Problèmes connus liés à la sensibilité des seuils dynamiques
Si une règle d’alerte qui utilise des seuils dynamiques est trop bruyante ou se déclenche trop souvent, vous devrez peut-être réduire sa sensibilité. Utilisez l’une des options suivantes :
- Seuil de sensibilité : réglez la sensibilité sur Faible afin d'être plus tolérant aux écarts.
- Nombre de violations (sous Paramètres avancés) : configurez la règle d’alerte pour qu’elle se déclenche uniquement si plusieurs écarts se produisent dans un laps de temps donné. Cela rend la règle moins vulnérable aux écarts temporaires.
Vous trouverez peut-être une règle d’alerte qui utilise des seuils dynamiques, mais qui ne se déclenche pas ou n’est pas assez suffisamment sensible, même si elle est configurée avec une sensibilité élevée. Ce scénario peut se produire lorsque la distribution de la métrique est très irrégulière. Envisagez l’une des solutions suivantes :
- Passez à la surveillance d’une mesure complémentaire adaptée à votre scénario, le cas échéant. Par exemple, recherchez les modifications du taux de réussite, plutôt que le taux d’échec.
- Essayez de sélectionner une valeur granularité d’agrégation (période) différente.
- Vérifiez si le comportement de la métrique a subi une modification radicale, comme une panne, au cours des 10 derniers jours. Une modification soudaine peut avoir un impact sur les seuils supérieur et inférieur calculés pour la mesure et les rendre plus larges. Patientez quelques jours jusqu’à ce que la panne ne soit plus incluse dans le calcul du seuil. Vous pouvez également modifier la règle d’alerte pour utiliser l’option Ignorer les données avant dans Paramètres avancés.
- Si vos données comportent un caractère saisonnier hebdomadaire, mais que l’historique disponible n’est pas suffisant pour la métrique, les seuils calculés peuvent entraîner des limites supérieures et inférieures larges. Par exemple, le calcul peut traiter les jours de semaine et les week-ends de la même façon, et créer des bordures larges qui ne correspondent pas toujours aux données. Ce problème doit se résoudre une fois que l’historique des métriques est suffisant. Ensuite, la saisonnalité correcte est détectée, puis les seuils calculés se mettent à jour en conséquence.
Lorsqu’une valeur de métrique présente des fluctuations importantes, les seuils dynamiques peuvent créer un modèle large autour des valeurs de la métrique, ce qui peut entraîner une limite inférieure ou supérieure à celle attendue. Ce scénario peut se produire quand :
- La sensibilité est définie sur faible.
- La métrique présente un comportement irrégulier avec une forte variance, une apparence de pics ou de creux dans les données.
Envisagez de rendre le modèle moins sensible en choisissant une sensibilité plus élevée ou en sélectionnant une Période de recherche arrière plus grande. Vous pouvez également utiliser l’option Ignorer les données avant pour exclure une irrégularité récente des données historiques utilisées pour générer le modèle.
Métriques non prises en charge par les seuils dynamiques
Les seuils dynamiques prennent en charge la plupart des métriques, mais les métriques suivantes ne peuvent pas utiliser de seuils dynamiques :
Type de ressource | Nom de métrique |
---|---|
Microsoft.ClassicStorage/storageAccounts | UsedCapacity |
Microsoft.ClassicStorage/storageAccounts/blobServices | BlobCapacity |
Microsoft.ClassicStorage/storageAccounts/blobServices | BlobCount |
Microsoft.ClassicStorage/storageAccounts/blobServices | IndexCapacity |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileCapacity |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileCount |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareCount |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareSnapshotCount |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareSnapshotSize |
Microsoft.ClassicStorage/storageAccounts/fileServices | FileShareQuota |
Ordinateur/disques Microsoft | Octets lus/s sur disque composite |
Ordinateur/disques Microsoft | Opérations de lecture/s sur disque composite |
Ordinateur/disques Microsoft | Octets écrits/s sur disque composite |
Ordinateur/disques Microsoft | Opérations d’écriture/s sur disque composite |
Microsoft.ContainerService/managedClusters | NodesCount |
Microsoft.ContainerService/managedClusters | PodCount |
Microsoft.ContainerService/managedClusters | completedJobsCount |
Microsoft.ContainerService/managedClusters | RestartingContainerCount |
Microsoft.ContainerService/managedClusters | OomKilledContainerCount |
Microsoft.Devices/IotHubs | TotalDeviceCount |
Microsoft.Devices/IotHubs | ConnectedDeviceCount |
Microsoft.Devices/IotHubs | TotalDeviceCount |
Microsoft.Devices/IotHubs | ConnectedDeviceCount |
Microsoft.DocumentDB/databaseAccounts | CassandraConnectionClosures |
Microsoft.EventHub/clusters | Taille |
Microsoft.EventHub/namespaces | Taille |
Microsoft.IoTCentral/IoTApps | connectedDeviceCount |
Microsoft.IoTCentral/IoTApps | provisionedDeviceCount |
Microsoft.Kubernetes/connectedClusters | NodesCount |
Microsoft.Kubernetes/connectedClusters | PodCount |
Microsoft.Kubernetes/connectedClusters | completedJobsCount |
Microsoft.Kubernetes/connectedClusters | RestartingContainerCount |
Microsoft.Kubernetes/connectedClusters | OomKilledContainerCount |
Microsoft.MachineLearningServices/workspaces/onlineEndpoints | RequestsPerMinute |
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments | DeploymentCapacity |
Microsoft.Maps/accounts | CreatorUsage |
Microsoft.Media/mediaservices/streamingEndpoints | EgressBandwidth |
Microsoft.Network/applicationGateways | Débit |
Microsoft.Network/azureFirewalls | Débit |
Microsoft.Network/expressRouteGateways | ExpressRouteGatewayPacketsPerSecond |
Microsoft.Network/expressRouteGateways | ExpressRouteGatewayNumberOfVmInVnet |
Microsoft.Network/expressRouteGateways | ExpressRouteGatewayFrequencyOfRoutesChanged |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayBitsPerSecond |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayPacketsPerSecond |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayNumberOfVmInVnet |
Microsoft.Network/virtualNetworkGateways | ExpressRouteGatewayFrequencyOfRoutesChanged |
Microsoft.ServiceBus/namespaces | Taille |
Microsoft.ServiceBus/namespaces | Messages |
Microsoft.ServiceBus/namespaces | ActiveMessages |
Microsoft.ServiceBus/namespaces | DeadletteredMessages |
Microsoft.ServiceBus/namespaces | ScheduledMessages |
Microsoft.ServiceFabricMesh/applications | AllocatedCpu |
Microsoft.ServiceFabricMesh/applications | AllocatedMemory |
Microsoft.ServiceFabricMesh/applications | ActualCpu |
Microsoft.ServiceFabricMesh/applications | ActualMemory |
Microsoft.ServiceFabricMesh/applications | ApplicationStatus |
Microsoft.ServiceFabricMesh/applications | ServiceStatus |
Microsoft.ServiceFabricMesh/applications | ServiceReplicaStatus |
Microsoft.ServiceFabricMesh/applications | ContainerStatus |
Microsoft.ServiceFabricMesh/applications | RestartCount |
Microsoft.Storage/storageAccounts | UsedCapacity |
Microsoft.Storage/storageAccounts/blobServices | BlobCapacity |
Microsoft.Storage/storageAccounts/blobServices | BlobCount |
Microsoft.Storage/storageAccounts/blobServices | BlobProvisionedSize |
Microsoft.Storage/storageAccounts/blobServices | IndexCapacity |
Microsoft.Storage/storageAccounts/fileServices | FileCapacity |
Microsoft.Storage/storageAccounts/fileServices | FileCount |
Microsoft.Storage/storageAccounts/fileServices | FileShareCount |
Microsoft.Storage/storageAccounts/fileServices | FileShareSnapshotCount |
Microsoft.Storage/storageAccounts/fileServices | FileShareSnapshotSize |
Microsoft.Storage/storageAccounts/fileServices | FileShareCapacityQuota |
Microsoft.Storage/storageAccounts/fileServices | FileShareProvisionedIOPS |
Contenu connexe
Si vous avez des commentaires sur les seuils dynamiques, envoyez-nous un e-mail.