Processus d’ingestion avec analytique à l’échelle du cloud dans Azure
Azure fournit plusieurs services pour ingérer et publier des données sur des plateformes natives et tierces. Différents services peuvent être utilisés, en fonction du volume, de la vélocité, de la variété et de la direction. Voici quelques-uns des services suivants :
- Azure Data Factory est un service conçu pour tous les besoins et niveaux de compétence de toutes les applications de données (alignées sur la source). Écrivez votre propre code ou construisez, extrayez, chargez et transformez des processus au sein de l’environnement visuel intuitif et sans code. Avec plus de 90 connecteurs natifs intégrés et sans maintenance, intégrez visuellement des sources de données sans coût supplémentaire. Les ingénieurs peuvent utiliser des points de terminaison privés et lier des services pour se connecter en toute sécurité aux ressources PaaS (Platform as a Service) Azure sans utiliser les points de terminaison publics de la ressource PaaS. Les ingénieurs peuvent utiliser des runtimes d’intégration pour étendre des pipelines à des environnements tiers tels que des sources de données locales et d’autres clouds.
Certains de ces connecteurs prennent en charge l’utilisation en tant que source (lecture) ou en tant que récepteur (écriture). Les services natifs Azure, Oracle, SAP et d’autres peuvent être utilisés comme source ou récepteur, mais tous les connecteurs ne le prennent pas en charge. Dans ce cas, vous pouvez utiliser des connecteurs génériques tels que Open Database Connectivity (ODBC), le système de fichiers ou les connecteurs SFTP (Ssh File Transfer Protocol).
azure Databricks est un service d’analytique rapide, facile et collaboratif basé sur Apache-Spark. Pour un pipeline Big Data, vous pouvez ingérer les données (brutes ou structurées) dans Azure via Data Factory par lots ou diffusées en temps quasi réel avec Apache Kafka, Azure Event Hubs ou IoT Hub. Ces données atterrissent dans un lac de données pour un stockage à long terme et persistant dans Azure Data Lake Storage. Azure Databricks peut lire des données à partir de plusieurs sources de données dans le cadre du flux de travail.
Microsoft Power Platform fournit des connecteurs à des centaines de services qui peuvent être pilotés par des événements, une planification ou un push. Microsoft Power Automate peut agir sur les événements et déclencher des flux de travail optimisés pour des enregistrements uniques ou de petits volumes de données.
Les outils natifs et tiers propriétaires offrent des fonctionnalités de niche pour s’intégrer à des systèmes spécialisés et à une réplication quasi-en temps réel.
- Azure Data Share prend en charge les organisations pour partager en toute sécurité des données avec plusieurs clients et partenaires externes. Après avoir créé un compte de partage de données et ajouté des produits de données, les clients et les partenaires peuvent être invités au partage de données. Les fournisseurs de données contrôlent toujours les données qu’ils ont partagées. Azure Data Share facilite la gestion et la surveillance des données partagées, lorsqu’elles ont été partagées et qui l’ont partagée.
Important
Chaque zone d’atterrissage de données peut avoir un groupe de ressources d’ingestion des données qui existe pour les entreprises avec un moteur d’ingestion agnostique de données. Si vous n’avez pas ce moteur d’infrastructure, la seule ressource recommandée consiste à déployer un espace de travail d’analytique Azure Databricks, qui serait utilisé par les intégrations de données pour exécuter une ingestion complexe. Consultez le moteur d'ingestion indépendant des données pour les modèles d'automatisation potentiels.
Considérations en matière d’ingestion pour Azure Data Factory
Si vous disposez d’un moteur d’ingestion indépendant des données, vous devez déployer une fabrique de données unique pour chaque zone d’atterrissage de données dans le groupe de ressources d’ingestion de données. L’espace de travail Data Factory doit être verrouillé pour les utilisateurs, et seules les identités managées et les principaux de service auront accès au déploiement. Les opérations de zone d’atterrissage de données doivent disposer d’un accès en lecture pour permettre le débogage de pipeline.
L’application de données peut avoir une fabrique de données propre pour le déplacement des données. Le fait d’avoir une fabrique de données dans chaque groupe de ressources d’application de données prend en charge une expérience d’intégration continue complète (CI) et de déploiement continu (CD) en autorisant uniquement le déploiement de pipelines à partir d’Azure DevOps ou gitHub.
Tous les espaces de travail Data Factory utilisent principalement la fonctionnalité de réseau virtuel managé (VNet) dans Data Factory ou le runtime d’intégration auto-hébergé pour leur zone d’atterrissage de données au sein de la zone d’atterrissage de gestion des données. Les ingénieurs sont encouragés à utiliser la fonctionnalité de réseau virtuel managé pour se connecter en toute sécurité à la ressource PaaS Azure.
Toutefois, il est possible de créer davantage de runtimes d’intégration pour ingérer à partir de clouds locaux, tiers et de sources de données SaaS (software-as-a-service) tierces.
Considérations en matière d’ingestion pour Azure Databricks
Ces conseils s’expliquent sur les informations contenues dans les éléments suivants :
Sécurisation de l’accès à Azure Data Lake Storage Gen2 à partir d’Azure Databricks
Pour le développement, les opérations d’intégration doivent avoir leurs propres environnements Azure Databricks avant de vérifier le code à déployer sur l’espace de travail Azure Databricks unique pendant les tests et la production.
Data Factory dans le groupe de ressources d’application de données (alignée sur la source) doit fournir l’infrastructure pour appeler des travaux Azure Databricks.
Les équipes d’applications de données peuvent déployer des travaux courts et automatisés sur Azure Databricks et s’attendre à ce que leurs clusters démarrent rapidement, exécutent le travail et se terminent. Il est recommandé de configurer des pools Azure Databricks pour réduire le temps nécessaire au démarrage des clusters pour les tâches.
Nous recommandons aux organisations d’utiliser Azure DevOps pour implémenter une infrastructure de déploiement pour les nouveaux pipelines. L’infrastructure sera utilisée pour créer les dossiers de jeux de données, affecter des listes de contrôle d’accès et créer une table avec ou sans appliquer les contrôles d’accès aux tables Databricks.
Ingestion de flux
Les organisations peuvent avoir besoin de prendre en charge des scénarios dans lesquels les éditeurs génèrent des flux d’événements à grande vitesse. Pour ce modèle, une file d’attente de messages est recommandée, par exemple, Event Hubs ou IoT Hub, pour ingérer ces flux.
Event Hubs et IoT Hub sont des services de traitement d’événements évolutifs qui peuvent ingérer et traiter de grands volumes d’événements et de données avec une faible latence et une fiabilité élevée. Event Hubs est conçu comme un service de diffusion en continu big data et d’ingestion d’événements. IoT Hub est un service géré qui sert de hub de messages central pour la communication bidirectionnelle entre une application IoT et les appareils qu’il gère. À partir de là, les données peuvent être exportées vers un lac de données à intervalles réguliers (lots) et traitées avec Azure Databricks en quasi-temps réel via Apache Spark Streaming, Azure Data Explorer, Stream Analytics ou Time Series Insights.
La dernière zone d’atterrissage Event Hubs ou Apache Kafka à l’intérieur de la zone d’atterrissage spécifique du cas d’usage doit envoyer ses données agrégées à la couche brute du lac de données dans l’une des zones d’atterrissage de données et aux hubs d’événements liés au groupe de ressources d’application de données (aligné sur la source) dans la zone d’atterrissage des données.
Surveiller l’ingestion
La surveillance de pipeline Azure Data Factory prête à l’emploi permet de surveiller et de résoudre les problèmes des exceptions des pipelines Data Factory. Elle réduit l’effort de développement d’une solution de supervision et de création de rapports personnalisée.
La supervision intégrée est l’une des principales raisons d’utiliser Azure Data Factory comme outil d’orchestration principal, et Azure Policy peut vous aider à automatiser cette configuration.
Étapes suivantes
Ingestion SAP avec l’analytique à l’échelle du cloud dans Azure