Comprendre la rétention des données dans Azure Time Series Insights Gen1
Note
Le service Time Series Insights sera mis hors service le 7 juillet 2024. Envisagez de migrer des environnements existants vers d’autres solutions dès que possible. Pour plus d’informations sur la dépréciation et la migration, consultez notre documentation .
Prudence
Il s’agit d’un article de la première génération.
Cet article décrit deux paramètres principaux qui affectent la rétention des données dans votre environnement Azure Time Series Insights.
Vidéo
La vidéo suivante récapitule la rétention des données Azure Time Series Insights et explique comment la planifier.
Chacun de vos environnements Azure Time Series Insights a un paramètre qui contrôle temps de rétention des données. La valeur s’étend de 1 à 400 jours. Les données sont supprimées en fonction de la capacité de stockage de l’environnement ou de la durée de rétention, selon la première arrivée.
En outre, votre environnement Azure Time Series Insights a un paramètre de comportement pour la limite de stockage
- purger les anciennes données (par défaut)
- Suspendre l’entrée
Note
Par défaut, lors de la création d’un environnement, la rétention est configurée pour purger les anciennes données. Ce paramètre peut être activé en fonction des besoins après la création à l’aide du portail Azure, dans la page Configurer de l’environnement Azure Time Series Insights.
- Pour plus d’informations sur la configuration des stratégies de rétention, lisez Configuration de la rétention dans Azure Time Series Insights.
Les deux stratégies de rétention des données sont décrites plus en détail ci-dessous.
Vider les anciennes données
- Purger les anciennes données est le paramètre par défaut pour les environnements Azure Time Series Insights.
- Purger les anciennes données est préférable lorsque les utilisateurs souhaitent toujours avoir leurs données les plus récentes dans leur environnement Azure Time Series Insights.
- Le Vider les anciennes données paramètre purge les données une fois les limites de l’environnement (durée de rétention, taille ou nombre, selon le cas en premier) sont atteintes. La rétention est définie sur 30 jours par défaut.
- Les données ingérées les plus anciennes sont vidées en premier (l’approche « First In First Out »).
Exemple 1
Prenons un exemple d’environnement avec le comportement de rétention Continuer l’entrée et videz les anciennes données:
durée de rétention des données est définie sur 400 jours. Capacité est définie sur l'unité S1, qui possède une capacité totale de 30 Go. Supposons que les données entrantes s’accumulent à 500 Mo chaque jour en moyenne. Cet environnement ne peut conserver que 60 jours de données en fonction du taux de données entrantes, car la capacité maximale est atteinte à 60 jours. Les données entrantes s’accumulent comme suit : 500 Mo chaque jour x 60 jours = 30 Go.
Le 61e jour, l’environnement affiche les données les plus récentes, mais vide les données les plus anciennes, plus de 60 jours. La purge fait de la place pour l'arrivée des nouvelles données, afin que celles-ci puissent continuer à être explorées. Si l’utilisateur souhaite conserver les données plus longtemps, il peut augmenter la taille de l’environnement en ajoutant des unités supplémentaires ou en transmettant moins de données.
Exemple 2
Envisagez un environnement configuré de manière similaire pour le comportement de rétention Poursuivre l'entrée des données et purger les anciennes données. Dans cet exemple, durée de rétention des données est définie sur une valeur inférieure de 180 jours. capacité est définie sur l'unité S1, qui contient 30 Go de capacité totale. Pour stocker les données pendant les 180 jours complets, l’entrée quotidienne ne peut pas dépasser 0,166 Go (166 Mo) par jour.
Chaque fois que le taux d’entrée quotidien de cet environnement dépasse 0,166 Go par jour, les données ne peuvent pas être stockées pendant 180 jours, car certaines données sont vidées. Considérez ce même environnement pendant un intervalle de temps occupé. Supposons que le taux d’entrée de l’environnement pourrait augmenter à une moyenne de 0,189 Go par jour. Dans ce délai occupé, environ 158 jours de données sont conservés (30 Go/0,189 = 158,73 jours de rétention). Cette durée est inférieure à l’intervalle de temps de conservation des données souhaité.
Suspendre l’entrée
Le paramètre Suspendre l’entrée est conçu pour s’assurer que les données ne sont pas purgées si les limites de taille et de nombre sont atteintes avant leur période de rétention.
La mise en pause de l'entrée offre aux utilisateurs un temps supplémentaire pour augmenter la capacité de leur environnement avant la suppression des données en cas de dépassement de la période de rétention.
Il vous permet de vous protéger contre la perte de données, mais peut créer une opportunité pour la perte de vos données les plus récentes si l’entrée est suspendue au-delà de la période de rétention de votre source d’événement.
Toutefois, une fois la capacité maximale d’un environnement atteinte, l’environnement interrompt l’entrée des données jusqu’à ce que les actions supplémentaires suivantes se produisent :
- Vous augmentez la capacité maximale de l’environnement pour ajouter davantage d’unités d’échelle, comme décrit dans Comment mettre à l’échelle votre environnement Azure Time Series Insights.
- La période de rétention des données est atteinte et les données sont purgées, ce qui fait que l’environnement est inférieur à sa capacité maximale.
Exemple trois
Considérez un environnement avec le comportement de rétention configuré pour suspendre le flux d'entrée. Dans cet exemple, la période de rétention des données est configurée sur 60 jours. Capacité est fixée à trois (3) unités de S1. Supposons que cet environnement reçoive 2 Go de données chaque jour. Dans cet environnement, l’entrée est suspendue une fois la capacité maximale atteinte.
À ce stade, l’environnement affiche le même jeu de données jusqu’à ce que l’entrée reprend ou jusqu’à ce que continuer l’entrée soit activée (ce qui viderait les données plus anciennes pour rendre place aux nouvelles données).
Lorsque l’entrée reprend :
- Flux de données dans l’ordre dans lequel il a été reçu par la source d’événement
- Les événements sont indexés en fonction de leur horodatage, sauf si vous avez dépassé les stratégies de rétention sur votre source d’événements. Pour plus d’informations sur la configuration de la rétention des sources d’événements, FAQ Event Hubs
Important
Vous devez définir des alertes pour fournir une notification pour éviter l’interruption de l’entrée. La perte de données est possible, car la rétention par défaut est de 1 jour pour les sources d’événements Azure. Par conséquent, une fois l’entrée suspendue, vous perdez probablement les données les plus récentes, sauf si une action supplémentaire est effectuée. Vous devez augmenter la capacité ou choisir de purger les anciennes données pour éviter le risque de perte de données.
Dans les hubs d’événements impactés, envisagez d’ajuster la propriété rétention des messages afin de réduire la perte de données lors de la suspension de l’entrée dans Azure Time Series Insights.
Si aucune propriété n’est configurée sur la source d’événement (timeStampPropertyName
), Azure Time Series Insights est défini par défaut sur l’horodatage de l’arrivée au hub d’événements comme axe X. Si timeStampPropertyName
est configuré pour être autre chose, l’environnement recherche le timeStampPropertyName
configuré dans le paquet de données lorsque les événements sont analysés.
Lisez Comment mettre à l’échelle votre environnement Azure Time Series Insights pour mettre à l’échelle votre environnement pour prendre en charge une capacité supplémentaire ou augmenter la durée de rétention.
Étapes suivantes
Pour plus d’informations sur la configuration ou la modification des paramètres de rétention des données, consultez Configuration de la rétention dans Azure Time Series Insights.
Découvrez atténuation de la latence dans Azure Time Series Insights.