Ingesta e integración de datos

7 minutos

La ingesta e integración de datos forman la capa fundamental para el procesamiento eficaz de datos en Delta Live Tables (DLT) dentro de Azure Databricks. Esto garantiza que los datos procedentes de diversas fuentes se cargan en el sistema de forma precisa y eficaz para su posterior análisis y procesamiento.

DLT facilita la ingesta e integración de datos mediante:

Ingesta multi origen: permite recopilar datos de varias fuentes.
Procesamiento de datos en flujo y por lotes: permite tratar los datos de forma continua o en intervalos agrupados.
Administración de esquemas: garantiza que sus datos estén bien estructurados y sean fáciles de administrar.
Calidad y gobernanza de los datos: le ayuda a mantener la integridad y la conformidad de sus datos
Automatización y orquestación de canalizaciones: agiliza y controla la secuencia de sus tareas de procesamiento de datos
Integración con el ecosistema Azure: permite interactuar sin problemas con diversas herramientas y servicios Azure
Optimización del rendimiento: mejora su capacidad para procesar datos con rapidez y eficacia
Supervisión y seguimiento del linaje: le ayuda a seguir el recorrido de los datos y controlar su movimiento a través del sistema.

Ingesta e integración de datos en Delta Lake

Para iniciar la ingesta de datos en Delta Lake, el siguiente ejemplo muestra cómo ingerir e integrar datos de una fuente de muestra en Delta Lake mediante DLT by:

Configuración de su entorno Azure Databricks.
Creación de tablas Delta.
Ingesta de datos a partir de archivos CSV y JSON.
Transformación e integración de datos.
Consulta de datos integrados.

Configuración de su entorno Azure Databricks

Asegúrese de que su entorno Azure Databricks está configurado para utilizar Delta Live Tables. La configuración implica preparar los clústeres adecuados y asegurarse de que DLT está habilitado en su área de trabajo.

Creación de tablas Delta

Para crear Tablas Delta puede utilizar la instrucción CREATE TABLE SQL, como se muestra en el siguiente ejemplo.

-- Create Delta table for customer data
CREATE TABLE customer_data (
    customer_id INT,
    customer_name STRING,
    email STRING
);

-- Create Delta table for transaction data
CREATE TABLE transaction_data (
    transaction_id INT,
    customer_id INT,
    transaction_date DATE,
    amount DOUBLE
);

Ingesta de datos a partir de archivos CSV y JSON

Puede usar Databricks SQL para leer datos de un archivo CSV y un archivo JSON, y luego insertarlos en tablas Delta.

-- Load customer data from CSV
CREATE OR REPLACE TEMPORARY VIEW customer_data_view AS
SELECT * FROM csv.`/path/to/customer_data.csv`
OPTIONS (header "true", inferSchema "true");

-- Insert data into customer Delta table
INSERT INTO customer_data
SELECT * FROM customer_data_view;

-- Load transaction data from JSON
CREATE OR REPLACE TEMPORARY VIEW transaction_data_view AS
SELECT * FROM json.`/path/to/transaction_data.json`;

-- Insert data into transaction Delta table
INSERT INTO transaction_data
SELECT * FROM transaction_data_view;

Transformación e integración de datos

Puede realizar transformaciones y unir datos de varias tablas para crear una vista unificada.

-- Create a unified view of customer transactions
CREATE OR REPLACE TEMPORARY VIEW customer_transactions AS
SELECT
    t.transaction_id,
    t.customer_id,
    c.customer_name,
    c.email,
    t.transaction_date,
    t.amount
FROM
    transaction_data t
JOIN
    customer_data c
ON
    t.customer_id = c.customer_id;

-- Create a Delta table for the integrated data
CREATE TABLE integrated_data USING DELTA AS
SELECT * FROM customer_transactions;

Consulta de los datos integrados

A continuación, puede consultar los datos integrados para su análisis.

-- Query the integrated data
SELECT
    customer_name,
    SUM(amount) AS total_spent
FROM
    integrated_data
GROUP BY
    customer_name
ORDER BY
    total_spent DESC;

Siguiendo estos pasos, puedes ingerir, transformar e integrar datos de varias fuentes en Azure Databricks utilizando SQL. Este proceso garantiza que los datos se almacenan en un formato estructurado y consultable, lo que permite realizar análisis de datos y obtener información de gran alcance.