Tutoriel : Capturer des données Event Hubs au format Parquet et les analyser avec Azure Synapse Analytics
Ce tutoriel vous montre comment utiliser l’éditeur no code Stream Analytics pour créer un travail qui capture les données Event Hubs dans Azure Data Lake Storage Gen2 au format Parquet.
Ce tutoriel vous montre comment effectuer les opérations suivantes :
- Déployer un générateur d'événements qui envoie des exemples d'événements à un hub d'événements
- Créer un travail Stream Analytics à l’aide de l’éditeur sans code
- Vérifier les données d’entrée et le schéma
- Configurer une ressource Azure Data Lake Storage Gen2 sur laquelle les données du hub d’événements seront capturées
- Exécuter la tâche Stream Analytics
- Utiliser Azure Synapse Analytics pour interroger les fichiers Parquet
Prérequis
Avant de commencer, vous devez avoir suivi les étapes ci-dessous :
- Si vous n’avez pas d’abonnement Azure, créez un compte gratuit.
- Déployez l’application de générateur d’événements TollApp sur Azure. Définissez le paramètre « interval » sur 1 et utilisez un nouveau groupe de ressources pour cette étape.
- Créez un espace de travail Azure Synapse Analytics avec un compte Data Lake Storage Gen2.
Créer un travail Stream Analytics sans éditeur de code
Recherchez le groupe de ressources dans lequel le générateur d’événements TollApp a été déployé.
Sélectionnez l’espace de noms Azure Event Hubs. Vous souhaiterez peut-être l’ouvrir dans un onglet ou une fenêtre distincts.
Dans la page Espace de noms Event Hubs, sélectionnez Event Hubs sous Entités dans le menu de gauche.
Sélectionnez l’instance
entrystream
.Dans la page Instance Event Hubs, sélectionnez Traiter les données sous la section Fonctionnalités du menu de gauche.
Sélectionnez Démarrer sur la vignette Capturer des données dans ADLS Gen2 au format Parquet.
Nommez votre travail
parquetcapture
, puis sélectionnez Créer.Dans la page de configuration Event Hub, procédez comme suit :
Pour Groupe de consommateurs, sélectionnez Use existing (Utiliser existant).
Vérifiez que
$Default
groupe de consommateurs est sélectionné.Vérifiez que Sérialisation est définie sur JSON.
Vérifiez que Méthode d’authentification est définie sur Chaîne de connexion.
Vérifiez que Nom de clé d’accès partagé de Event Hub est défini sur RootManageSharedAccessKey.
Sélectionnez Se connecter au bas de la fenêtre.
Dans quelques secondes, vous verrez s’afficher des exemples de données d’entrée ainsi que le schéma. Vous pouvez choisir de supprimer des champs, de les renommer ou de modifier le type de données.
Sélectionnez la vignette Azure Data Lake Storage Gen2 sur votre canevas et configurez-la en spécifiant
L’abonnement dans lequel se trouve votre compte Azure Data Lake Gen2
Le nom du compte de stockage, qui doit être le même compte ADLS Gen2 que celui utilisé avec votre espace de travail Azure Synapse Analytics dans la section Conditions préalables.
Le conteneur à l’intérieur duquel les fichiers Parquet seront créés.
Pour Chemin d'accès de la table delta, spécifiez un nom pour la table.
Les valeurs du modèle de date et d’heure par défaut doivent être aaaa-mm-jj et HH.
Sélectionnez Se connecter.
Sélectionnez Enregistrer dans le ruban supérieur pour enregistrer votre travail, puis Démarrer pour exécuter votre tâche. Une fois le travail démarré, sélectionnez X dans le coin droit pour fermer la page du travail Stream Analytics.
Vous verrez ensuite la liste de tous les travaux Stream Analytics créés à l’aide de l’éditeur sans code. Et au bout de deux minutes, votre travail passe à l’état En cours d’exécution. Sélectionnez le bouton Actualiser sur la page pour voir l’état passer de Création -> Démarrage -> En cours d’exécution.
Afficher la sortie dans votre compte Azure Data Lake Storage Gen2
Recherchez le compte Azure Data Lake Storage Gen2 que vous avez utilisé à l’étape précédente.
Accédez au conteneur que vous avez utilisé à l’étape précédente. Vous verrez les fichiers Parquet créés dans le dossier que vous avez spécifié précédemment.
Interroger des données capturées au format Parquet avec Azure Synapse Analytics
Interroger avec Azure Synapse Spark
Recherchez votre espace de travail Azure Synapse Analytics et ouvrez Synapse Studio.
Créez un pool Apache Spark serverless dans votre espace de travail s’il n’en existe pas déjà un.
Dans Synapse Studio, accédez au hub Développer et créez un Notebook.
Créez une cellule de code et collez-y le code suivant. Remplacez conteneur et adlsname par le nom du conteneur et du compte ADLS Gen2 utilisé à l’étape précédente.
%%pyspark df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet') display(df.limit(10)) df.count() df.printSchema()
Pour Attacher à dans la barre d’outils, sélectionnez votre pool Spark dans la liste déroulante.
Sélectionnez Exécuter tout pour afficher les résultats
Interroger avec Azure Synapse SQL serverless
Dans le hub Développer, créez un script SQL.
Collez le script suivant et exécutez-le à l’aide du point de terminaison SQL serverless intégré. Remplacez conteneur et adlsname par le nom du conteneur et du compte ADLS Gen2 utilisé à l’étape précédente.
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet', FORMAT='PARQUET' ) AS [result]
Nettoyer les ressources
- Recherchez votre instance Event Hubs et consultez la liste des travaux Stream Analytics dans la section Traitement des données. Arrêtez tous les travaux en cours d’exécution.
- Accédez au groupe de ressources que vous avez utilisé lors du déploiement du générateur d’événements TollApp.
- Sélectionnez Supprimer le groupe de ressources. Tapez le nom du groupe de ressources pour confirmer la suppression.
Étapes suivantes
Dans ce tutoriel, vous avez appris à créer un travail Stream Analytics sans éditeurs de code pour capturer des flux de données Event Hubs au format Parquet. Vous avez ensuite utilisé Azure Synapse Analytics pour interroger les fichiers Parquet à l’aide de Synapse Spark et de Synapse SQL.