Partager via


Vue d’ensemble des ressources de capture de données modifiées

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

L’adaptation au monde du Big Data axé sur le cloud peut être incroyablement difficile pour les ingénieurs données qui sont chargés de créer des pipelines ETL et d’intégration de données complexes.

Azure Data Factory introduit un nouveau mécanisme pour faciliter la vie d’un ingénieur données.

En détectant automatiquement les modifications de données à la source sans nécessiter de conception ou de codage complexe, ADF facilite la mise à l’échelle de ces processus. La capture de données modifiées existe désormais en tant que nouvelle ressource native de niveau supérieur dans le Azure Data Factory Studio, où les ingénieurs données peuvent configurer rapidement des travaux en cours d’exécution continue pour traiter le Big Data à grande échelle avec une efficacité extrême.

La nouvelle ressource De capture de données modifiées dans ADF permet une capture de données modifiées de fidélité totale qui s’exécute en continu en quasi temps réel via une expérience de configuration guidée.

Capture d’écran de la nouvelle ressource de niveau supérieur dans le panneau Ressources d’usine.

Remarque

La ressource de capture de données modifiées dans Azure Data Factory est en préversion publique

Sources de données prises en charge

  • Avro
  • Azure Cosmos DB (API SQL)
  • Azure SQL Database
  • Azure SQL Managed Instance
  • Texte délimité
  • JSON
  • ORC
  • Parquet
  • SQL Server
  • XML
  • Snowflake

Cibles prises en charge

  • Avro
  • Azure SQL Database
  • Instance managée SQL
  • Texte délimité
  • Delta
  • JSON
  • ORC
  • Parquet
  • Azure Synapse Analytics

Limitations connues

  • Actuellement, lors de la création de mappages source/cible, chaque source et cible n’est autorisé à être utilisé qu’une seule fois.
  • Les types complexes ne sont actuellement pas pris en charge.
  • Le runtime d’intégration auto-hébergé (SHIR) n’est pas actuellement pris en charge.

Pour plus d’informations sur les limitations connues et l’aide à la résolution des problèmes, reportez-vous à ce guide de résolution des problèmes.

Azure Synapse Analytics en tant que cible

Lorsque vous utilisez Azure Synapse Analytics comme cible, les paramètres de mise en lots sont disponibles sur le canevas de table principale. L’activation de la mise en lots est obligatoire lorsque vous sélectionnez Azure Synapse Analytics comme cible. Cela améliore considérablement les performances d’écriture en utilisant des fonctionnalités de chargement en bloc performantes comme la commande COPY INTO. Les paramètres de mise en lots peuvent être configurés de deux manières : en utilisant les paramètres de fabrique ou en optant pour des paramètres personnalisés. Les paramètres de fabrique s’appliquent au niveau de la fabrique. La première fois, si ces paramètres ne sont pas configurés, vous êtes dirigé vers la section relative aux paramètres de mise en lots globaux pour la configuration. Une fois définies, toutes les ressources CDC de niveau supérieur adoptent cette configuration. Les paramètres personnalisés sont étendus pour la ressource CDC pour laquelle ils sont configurés et écrasent les paramètres de fabrique.

Remarque

Comme nous utilisons la commande COPY INTO pour transférer des données de l’emplacement de mise en lots vers Azure Synapse Analytics, il est conseillé de vérifier que toutes les autorisations requises sont préconfigurées dans Azure Synapse Analytics.

Remarque

Nous utilisons toujours la dernière configuration publiée lors du démarrage d’une capture des changements de données (CDC). Pour l’exécution de CDCs, pendant le traitement de vos données, vous serez facturé 4 cœurs virtuels de usage général flux de données.