Tutoriel : écrire dans une table Delta stockée dans Azure Data Lake Storage Gen2
Ce tutoriel montre comment créer un travail Stream Analytics pour écrire dans une table Delta dans Azure Data Lake Storage Gen2. Dans ce tutoriel, vous allez apprendre à :
- Déployer un générateur d’événements qui envoie des exemples de données à votre hub d’événements
- Création d’un travail Stream Analytics
- Configurer Azure Data Lake Storage Gen2 avec une table delta
- Exécuter la tâche Stream Analytics
Prérequis
Avant de commencer, suivez les étapes suivantes :
- Si vous n’avez pas d’abonnement Azure, créez un compte gratuit.
- Déployez le générateur d’événements TollApp dans Azure en utilisant ce lien vers l’article Déployer un modèle Azure TollApp. Définissez le paramètre « interval » sur 1. Créez et utilisez un nouveau groupe de ressources pour cette étape.
- Créez un compte Data Lake Storage Gen2.
Création d’un travail Stream Analytics
Connectez-vous au portail Azure.
Sélectionnez Tous les services dans le menu de gauche.
Déplacez la souris sur les Travaux Stream Analytics dans la section Analytics, puis sélectionnez + (plus).
Sélectionnez Créer une ressource dans le coin supérieur gauche du portail Azure.
Dans la liste des résultats, sélectionnez Analytics>Travail Stream Analytics.
Sur la page Nouveau travail Stream Analytics, procédez comme suit :
- Pour Abonnement, sélectionnez votre abonnement Azure.
- Dans le champ Groupe de ressources, sélectionnez la même ressource que celle que vous avez utilisée précédemment dans ce déploiement de TollApp.
- Dans le champ Nom, attribuez un nom à la clé. Le nom d’un travail Stream Analytics peut contenir uniquement des caractères alphanumériques, des traits d’union et des traits de soulignement, et doit avoir entre 3 et 63 caractères.
- Dans le champ Environnement d’hébergement, vérifiez que Cloud est sélectionné.
- Dans le champ Unités de streaming, sélectionnez 1. Les unités de streaming sont les ressources de calcul requises pour exécuter un travail. Pour en savoir plus sur la mise à l’échelle des unités de streaming, consultez l’article Understanding and adjusting streaming units (Présentation et réglage des unités de streaming).
Au bas de la page, sélectionnez Examiner et créer.
Sur la page Examiner et créer, examinez les paramètres, puis sélectionnez Créer pour créer une page Stream Analytics.
Sur la page de déploiement, sélectionnez Accéder à la ressource pour accéder à la page Travail Stream Analytics.
Configurer les entrées du travail
L’étape suivante consiste à définir une source d’entrée pour le travail, afin de pouvoir lire les données à l’aide de l’Event Hub que vous avez créé dans le déploiement de TollApp.
Recherchez le travail Stream Analytics créé dans la section précédente.
Dans la section Topologie de la tâche de la tâche Stream Analytics, sélectionnez Entrées.
Sélectionnez + Ajouter une entrée et Event Hub.
Remplissez le formulaire d’entrée avec les valeurs suivantes créées via le modèle Azure TollApp :
Dans Alias d’entrée, entrez entrystream.
Choisissez Sélectionner un hub d’événements dans vos abonnements.
Pour Abonnement, sélectionnez votre abonnement Azure.
Pour Espace de noms Event Hub, sélectionnez l’espace de noms du hub d’événements que vous avez créé dans la section précédente.
Utilisez les options par défaut pour les autres paramètres, puis sélectionnez Créer.
Configurer la sortie du travail
L’étape suivante consiste à définir un récepteur de sortie dans lequel le travail peut écrire des données. Dans ce didacticiel, vous écrivez la sortie dans une table Delta dans Azure Data Lake Storage Gen2.
Dans la section Topologie de la tâche de la tâche Stream Analytics, sélectionnez l’option Sorties.
Sélectionnez + Ajouter une sortie>Stockage blob/ADLS Gen2.
Remplissez le formulaire de sortie avec les valeurs suivantes, puis sélectionnez Enregistrer :
Pour Alias de sortie, entrez DeltaOutput.
Choisissez Sélectionner un stockage blob/ADLS Gen2 dans vos abonnements.
Pour Abonnement, sélectionnez votre abonnement Azure.
Pour le Compte de stockage, choisissez le compte ADLS Gen2 (celui qui commence par tollapp) que vous avez créé.
Pour le conteneur, sélectionnez Créer nouveau et fournissez un nom de conteneur unique.
Pour Format de sérialisation d’événement, sélectionnez Delta Lake. Bien que Delta lake soit répertorié comme l’une des options ici, il ne s’agit pas d’un format de données. Delta Lake utilise des fichiers Parquet avec versions pour stocker vos données. Pour plus d’informations sur Delta Lake.
Pour Chemin d’accès à la table Delta, entrez le dossier du tutoriel/la table delta.
Utilisez les options par défaut pour les autres paramètres, puis sélectionnez Créer.
Créer des requêtes
À ce stade, vous disposez d’un travail Stream Analytics configuré pour lire un flux de données entrantes. L’étape suivante consiste à créer une requête qui analysera les données en temps réel. Les requêtes utilisent un langage de type SQL dont certaines extensions sont propres à Stream Analytics.
Sélectionnez maintenant Requête sous Topologie du travail dans le menu de gauche.
Entrez la requête suivante dans la fenêtre de requête. Dans cet exemple, la requête lit les données d’Event Hubs et copie les valeurs sélectionnées dans une table Delta dans ADLS Gen2.
SELECT State, CarModel.Make, TollAmount INTO DeltaOutput FROM EntryStream TIMESTAMP BY EntryTime
Sélectionnez Enregistrer la requête sur la barre d’outils.
Démarrer le travail Stream Analytics et observer le résultat
Revenez à la page Vue d’ensemble du travail sur le portail Azure, et sélectionnez Démarrer.
Sur la page Démarrer le travail, vérifiez que Maintenant est sélectionné comme Heure de début de la sortie du travail, puis sélectionnez Démarrer en bas de la page.
Au bout de quelques minutes, sur le portail, recherchez le compte de stockage et le conteneur que vous avez configuré comme sortie pour le travail. Vous pouvez maintenant voir la table Delta dans le dossier spécifié dans le conteneur. La première fois, le démarrage du travail prend quelques minutes. Une fois celui-ci démarré, il continuera à s’exécuter tant que des données arriveront.
Nettoyer les ressources
Lorsque vous n’en avez plus besoin, supprimez le groupe de ressources, le travail Stream Analytics et toutes les ressources associées. La suppression du travail évite la facturation des unités de streaming consommées par le travail. Si vous envisagez d’utiliser le travail à l’avenir, vous pouvez l’arrêter et le redémarrer plus tard lorsque vous en avez besoin. Si vous ne pensez pas continuer à utiliser ce travail, supprimez toutes les ressources créées au cours de ce tutoriel en procédant comme suit :
- Dans le menu de gauche du portail Azure, cliquez sur Groupes de ressources, puis sur le nom de la ressource que vous avez créée.
- Sur la page de votre groupe de ressources, sélectionnez Supprimer, saisissez le nom de la ressource à supprimer dans la zone de texte, puis sélectionnez Supprimer.
Étapes suivantes
Dans ce tutoriel, vous avez créé un travail Stream Analytics simple, filtré les données entrantes et écrit des résultats dans une table Delta dans un compte ADLS Gen2. Pour en savoir plus sur les travaux Stream Analytics, consultez :