Comment ingérer des données dans Fabric à l’aide de l’activité Copy d’Azure Data Factory
Le connecteur Microsoft Fabric Lakehouse dans Azure Data Factory (ADF) et Azure Synapse Analytics permet d’effectuer des opérations de lecture et d’écriture dans Microsoft Fabric Lakehouse (à la fois pour les tables et les fichiers). Ce connecteur vous permet d’utiliser vos pipelines ADF et Synapse et vos flux de données de mappage existants pour interagir avec Fabric Lakehouses. Cet article vous aide à configurer Microsoft Fabric pour autoriser l’authentification du principal de service, puis présente le connecteur Lakehouse pour la lecture et l’écriture dans Fabric Lakehouse.
Pour plus d’informations sur Microsoft Fabric Lakehouse, consultez Qu’est-ce qu’un lakehouse ?.
Connecteur Azure Data Factory Lakehouse
Un nouveau connecteur de service lié Lakehouse et deux nouveaux jeux de données sont désormais disponibles pour les clients qui souhaitent commencer à lire et à écrire dans Microsoft Fabric Lakehouse. Pour obtenir un guide complet sur le connecteur Lakehouse, reportez-vous à Copier et transformer des données dans Microsoft Fabric Lakehouse Files (préversion).
Authentification
Service lié Azure Data Factory
Le connecteur Microsoft Fabric Lakehouse nécessite un principal de service (SPN)/une inscription d’application pour l’authentification. Pour commencer, vous devez créer un nouveau SPN ou utiliser un SPN existant. Microsoft Fabric permet l’accès aux SPN à des groupes de sécurité spécifiques ou à l’ensemble de l’organisation. Si un groupe de sécurité spécifique est l’option utilisée par votre entreprise, le SPN utilisé dans le connecteur Lakehouse doit appartenir à un groupe de sécurité ajouté à la liste d’autorisation.
Remarque
Les autorisations API Power BI (déléguées) ne sont pas nécessaires
Accès aux API Power BI
Dans le portail d’administration Power BI, l’admin client doit activer l’option Autoriser les principaux de service à utiliser les APIs Power BI. Les groupes de sécurité doivent être spécifiés sous le paramètre Autoriser les principaux de service à utiliser les API Power BI ou vous pouvez l’activer pour l’ensemble de l’organisation.
Pour un guide complet, consultez Incorporer du contenu Power BI dans une application d’analytique incorporée avec un principal de service et un secret d’application.
Remarque
Lors de l’affectation du groupe de sécurité à l’espace de travail, il peut y avoir un délai pour que le principal de service soit autorisé à accéder à l’espace de travail en raison de la mise en cache des autorisations dans Azure. Si vous avez besoin d’un accès immédiat, vous pouvez utiliser PowerShell pour forcer l’actualisation des autorisations de l’utilisateur. Pour ce faire, ouvrez Windows PowerShell en tant qu’administrateur, puis exécutez les commandes suivantes :
Install-Module -Name MicrosoftPowerBIMgmt
Connect-PowerBIServiceAccount -Tenant '<TENANT ID>' -ServicePrincipal -Credential (Get-Credential)
Get-PowerBIWorkspace
Invoke-PowerBIRestMethod -URL 'https://api.powerbi.com/v1.0/myorg/RefreshUserPermissions' -Method Post -Body ''
Get-PowerBIWorkspace
Accès à l’espace de travail
Une fois le groupe de sécurité ajouté, le groupe de sécurité ou le principal de service doivent également être ajoutés à chaque espace de travail en tant que membre, contributeur ou administrateur. Pour plus d’informations, reportez-vous à Donner aux utilisateurs l’accès aux espaces de travail.
Démonstration : Configurer l’authentification
Principal du service d’inscription d’application
Créez ou utilisez un principal de service existant d’une inscription d’application (SPN). Suivez les étapes dans Inscrire une application auprès de Microsoft Entra ID et créer un principal de service.
Remarque
Il n’est pas nécessaire d’attribuer un URI de redirection.
Groupe de sécurité
Créez un nouveau groupe de sécurité Microsoft Entra ou utilisez-en un existant, puis ajoutez-y le SPN. Suivez les étapes dans Créer un groupe de base et ajouter des membres pour créer un groupe de sécurité Microsoft Entra.
Portail d’administration Power BI
Dans le portail d’administration Power BI, accédez aux paramètres de développement et sélectionnez Autoriser les principaux de service à utiliser les API Power BI, puis activez cette option. Ajoutez ensuite le groupe de sécurité de l’étape précédente. Pour plus d’informations sur les paramètres du locataire du portail d’administration Power BI, consultez Paramètres du locataire.
Remarque
Veuillez vous assurer que le paramètre Les utilisateurs peuvent accéder aux données stockées dans OneLake avec des applications externes à Fabric est activé. Consultez la section Autoriser les applications s’exécutant en dehors de Fabric à accéder aux données via OneLake.
Espace de travail
Ajoutez le SPN ou le groupe de services à l’espace de travail avec un accès Membre, Contributeur ou Administrateur.
Azure Data Factory : service lié
Depuis Azure Data Factory, créez un service lié Microsoft Fabric Lakehouse.
Remarque
Pour rechercher l’ID de l’espace de travail et du lakehouse, accédez à votre Fabric Lakehouse et identifiez-le à partir de l’URL. Par exemple : https ://.../groups/<ID de l’espace de travail>>/lakehouses/<ID du lakehouse>
Azure Data Factory : jeu de données
Créez un jeu de données qui référence le service lié Microsoft Fabric Lakehouse.
Remarque
Sélectionnez Aucun pour l’option Importer un schéma si la table n’existe pas encore et que vous spécifiez manuellement un nouveau nom de table.
Démonstration : Écrire dans une table Fabric Lakehouse avec un pipeline ADF
Source
Créez un pipeline et ajoutez une activité Copy au canevas du pipeline. Sous l’onglet Source de l’activité Copy, sélectionnez un jeu de données source que vous souhaitez déplacer dans une table Lakehouse. Dans cet exemple, nous référençons un fichier .csv à partir d’un compte Azure Data Lake Storage (ADLS) Gen2.
Section sink
Accédez à l’onglet Récepteur de l’activité Copy et sélectionnez le jeu de données Fabric Lakehouse créé précédemment.
Exécuter le pipeline
Exécutez le pipeline pour déplacer les données .csv dans la table Fabric Lakehouse.
Démonstration : Lire une table Fabric Lakehouse avec un pipeline ADF
Dans la section ci-dessus, nous avons montré comment utiliser ADF pour écrire dans une table Fabric Lakehouse. À présent, lisons une table Fabric Lakehouse et écrivons dans un fichier Parquet dans Azure Data Lake Stockage (ADLS) Gen2 avec un pipeline similaire.
Source
Créez un pipeline et ajoutez une activité Copy au canevas du pipeline. Depuis l’onglet Source de l’activité Copy, sélectionnez le jeu de données Fabric Lakehouse créé précédemment.
Section sink
Accédez à l’onglet Récepteur de l’activité Copy et sélectionnez le jeu de données de destination. Dans cet exemple, la destination est Azure Data Lake Stockage (Gen2), en tant que fichier Parquet.
Exécuter le pipeline
Exécutez le pipeline pour déplacer les données de la table Fabric Lakehouse dans le fichier Parquet dans ADLS Gen2.
Inspecter le fichier Parquet dans ADLS Gen2
Les données de la table Fabric Lakehouse sont désormais disponibles dans ADLS Gen2 en tant que fichier Parquet.
Résumé
Dans cette section, nous avons exploré les conditions requises pour le connecteur Lakehouse à l’aide de l’authentification du principal de service auprès d’un Microsoft Fabric Lakehouse, puis nous avons parcouru un exemple pour lire et écrire dans Lakehouse à partir d’un pipeline Azure Data Factory. Ce connecteur et ces fonctionnalités sont également disponibles dans les flux de données de mappage Azure Data Factory, dans Azure Synapse Analytics et dans les flux de données de mappage Azure Synapse Analytics.