Partager via


Actualisation du flux de données

Les dataflows vous permettent de vous connecter, de transformer, de combiner et de charger des données dans le stockage pour une consommation en aval. Un élément clé dans les dataflows est le processus d’actualisation, qui applique les étapes de transformation définies lors de la création pour extraire, transformer et charger des données dans le stockage cible.

Capture d’écran montrant un exemple de flux de données.

L’actualisation d’un flux de données peut être déclenchée d’un des deux façons, soit à la demande, soit en configurant un calendrier d’actualisation. Une actualisation planifiée est exécutée en fonction des jours et heures spécifiques que vous spécifiez.

Prérequis

Voici les conditions préalables à l’actualisation d’un flux de données :

Actualisation à la demande

Pour actualiser un flux de données à la demande, sélectionnez l’icône Actualiser trouvée dans la liste de l’espace de travail ou les vues de traçabilité.

Capture d’écran montrant où sélectionner l’actualisation dans l’affichage liste de l’espace de travail.

Il existe d’autres façons de déclencher une actualisation de flux de données à la demande. Lorsqu’une publication de flux de données se termine correctement, une actualisation à la demande est démarrée. L’actualisation à la demande peut également être déclenchée via un pipeline qui contient une activité de flux de données.

Actualisation planifiée

Pour actualiser automatiquement un flux de données selon une planification, sélectionnez l’icône Actualisation planifiée trouvée en mode liste d’espace de travail :

Capture d’écran montrant où sélectionner actualisation planifiée dans l’affichage liste de l’espace de travail.

Dans la section d’actualisation, vous pouvez définir la fréquence et les plages horaires pour l’actualisation d’un flux de données, jusqu’à 48 fois par jour. La capture d’écran suivante montre une planification d’actualisation quotidienne sur un intervalle de 12 heures.

Capture d’écran montrant un exemple de paramètre d’actualisation de planification quotidienne de 12 heures.

Annuler l’actualisation

Annuler l’actualisation du flux de données est utile lorsque vous souhaitez arrêter une actualisation pendant les heures de pointe, si une capacité approche de ses limites ou si l’actualisation prend plus de temps que prévu. Utilisez la fonctionnalité d’annulation d’actualisation pour arrêter l’actualisation des flux de données.

Pour annuler une actualisation du flux de données, sélectionnez l’icône Annuler trouvée dans la liste de l’espace de travail ou les vues de traçabilité d’un flux de données avec actualisation en cours.

Capture d’écran montrant où configurer la planification de l’actualisation du flux de données dans la page des paramètres du flux de données.

Une fois qu’une actualisation du flux de données est annulée, l’état de l’historique des actualisations du flux de données est mis à jour pour refléter l’état d’annulation :

Capture d’écran montrant l’affichage de l’historique d’actualisation des flux de données pour une actualisation de flux de données annulée.

Limites de l’actualisation

Pour les actualisations de flux de données, quelques limitations sont en place :

  1. Vous ne pouvez effectuer que 150 actualisations par 24 heures (fenêtre glissante) pour chaque flux de données. Lorsque vous dépassez cette limite, vous recevez une erreur dans votre historique d’actualisation et les actualisations reprendront une fois que vous êtes au-dessous de la limite.
  2. Si l’actualisation planifiée du flux de données échoue consécutivement, nous suspendons votre planification d’actualisation du flux de données et envoyons un e-mail au propriétaire du flux de données. Dans ce cas, les règles suivantes s'appliquent :
    • 72 heures (3 jours)
      • Taux d’échec de 100 % sur 72 heures
      • Minimum de 6 actualisations (2 actualisations par jour)
    • 168 heures (1 semaine)
      • Taux d’échec de 100 % sur 168 heures
      • Minimum de 5 actualisations (1 actualisation par jour)
  3. Une évaluation unique d'une requête est limitée à 8 heures.
  4. Le temps d’actualisation total d'un flux de données est limité à 24 heures au maximum.
  5. Par flux de données, vous pouvez avoir un maximum de 50 requêtes simulées, ou des requêtes avec une destination de sortie, ou une combinaison des deux.

Actualiser les implications de l’annulation pour les données de production

Une actualisation du flux de données peut être arrêtée par le biais d’une fonctionnalité d’actualisation d’annulation ou si une défaillance s’est produite pendant le traitement des requêtes du flux de données. Différents résultats peuvent être observés en fonction du type de destination et de l’arrêt de l’actualisation. Voici les résultats possibles pour les deux types de destination de données pour une requête :

  • La requête charge les données en préproduction : les données de la dernière actualisation réussie sont disponibles.
  • La requête charge des données dans une destination de données : les données écrites jusqu’au point d’annulation sont disponibles.

Toutes les requêtes d’un flux de données ne sont pas traitées en même temps, par exemple si un flux de données contient de nombreuses requêtes ou certaines requêtes dépendent d’autres. Si une actualisation est annulée avant l’évaluation d’une requête qui charge les données vers une destination a commencé, aucune modification n’est apportée aux données dans la destination de cette requête.