Intégration et ingestion des données

7 minutes

L’intégration et l’ingestion des données forment la couche de base d’un traitement efficace des données dans Delta Live Tables (DLT) dans Azure Databricks. Cela garantit que les données provenant de différentes sources sont chargées avec précision et efficacité dans le système pour une analyse et un traitement supplémentaires.

DLT facilite l’intégration et l’ingestion des données via les éléments suivants :

Ingestion multi source : vous permet de collecter des données à partir de différentes sources.
Traitement de données de diffusion en continu et par lots : vous permet de traiter des données en continu ou dans des intervalles groupés.
Gestion des schémas : garantit que vos données sont bien structurées et faciles à gérer.
Qualité des données et gouvernance : vous aide à maintenir l’intégrité et la conformité de vos données
Automatisation et orchestration des pipelines : simplifie et contrôle la séquence de vos tâches de traitement des données
Intégration à l’écosystème Azure : vous permet d’interagir en transparence avec différents outils et services Azure
Optimisation des performances : améliore votre capacité à traiter les données rapidement et efficacement
Surveillance et suivi de la traçabilité : vous aide à suivre le parcours des données et à surveiller son déplacement dans le système.

Ingérer et intégrer des données dans Delta Lake

Pour commencer à ingérer des données dans Delta Lake, l’exemple ci-dessous décrit l’ingestion et l’intégration de données à partir d’un exemple de source dans Delta Lake à l’aide de DLT avec les étapes suivantes :

Configuration de votre environnement Azure Databricks.
Création de tables Delta.
Ingestion de données à partir de fichiers CSV et JSON.
Transformation et intégration de données.
Interrogation des données intégrées.

Configuration de votre environnement Azure Databricks

Vérifiez que votre environnement Azure Databricks est configuré pour utiliser Delta Live Tables. La configuration implique de préparer les clusters appropriés et de s’assurer que DLT est activé dans votre espace de travail.

Création des tables Delta

Pour créer des tables Delta, vous pouvez utiliser l’instruction SQL CREATE TABLE, comme illustré dans l’exemple suivant.

-- Create Delta table for customer data
CREATE TABLE customer_data (
    customer_id INT,
    customer_name STRING,
    email STRING
);

-- Create Delta table for transaction data
CREATE TABLE transaction_data (
    transaction_id INT,
    customer_id INT,
    transaction_date DATE,
    amount DOUBLE
);

Ingestion de données à partir de fichiers CSV et JSON

Vous pouvez utiliser Databricks SQL pour lire des données à partir d’un fichier CSV et d’un fichier JSON, puis les insérer dans des tables Delta.

-- Load customer data from CSV
CREATE OR REPLACE TEMPORARY VIEW customer_data_view AS
SELECT * FROM csv.`/path/to/customer_data.csv`
OPTIONS (header "true", inferSchema "true");

-- Insert data into customer Delta table
INSERT INTO customer_data
SELECT * FROM customer_data_view;

-- Load transaction data from JSON
CREATE OR REPLACE TEMPORARY VIEW transaction_data_view AS
SELECT * FROM json.`/path/to/transaction_data.json`;

-- Insert data into transaction Delta table
INSERT INTO transaction_data
SELECT * FROM transaction_data_view;

Transformation et intégration de données

Vous pouvez effectuer des transformations et joindre des données à partir de plusieurs tables pour créer une vue unifiée.

-- Create a unified view of customer transactions
CREATE OR REPLACE TEMPORARY VIEW customer_transactions AS
SELECT
    t.transaction_id,
    t.customer_id,
    c.customer_name,
    c.email,
    t.transaction_date,
    t.amount
FROM
    transaction_data t
JOIN
    customer_data c
ON
    t.customer_id = c.customer_id;

-- Create a Delta table for the integrated data
CREATE TABLE integrated_data USING DELTA AS
SELECT * FROM customer_transactions;

Interrogation des données intégrées

Vous pouvez ensuite interroger les données intégrées à des fins d’analyse.

-- Query the integrated data
SELECT
    customer_name,
    SUM(amount) AS total_spent
FROM
    integrated_data
GROUP BY
    customer_name
ORDER BY
    total_spent DESC;

En suivant ces étapes, vous pouvez ingérer, transformer et intégrer efficacement des données à partir de différentes sources dans Azure Databricks à l’aide de SQL. Ce processus garantit que vos données sont stockées dans un format structuré et interrogeable, ce qui permet une analyse et des insights puissants sur les données.