Compartir a través de


¿Qué es la ingeniería de datos en Microsoft Fabric?

La ingeniería de datos en Microsoft Fabric permite a los usuarios diseñar, compilar y mantener infraestructuras y sistemas que permiten a sus organizaciones recopilar, almacenar, procesar y analizar grandes volúmenes de datos.

Microsoft Fabric proporciona diversas funcionalidades de ingeniería de datos para asegurarse de que los datos son fácilmente accesibles, bien organizados y de alta calidad. Desde la página principal de ingeniería de datos, puede hacer lo siguiente:

  • Cree y gestione sus datos utilizando un lakehouse

  • Diseñar canalizaciones para copiar datos en el almacén de lago

  • Uso de definiciones de trabajos de Spark para enviar trabajos por lotes o streaming al clúster de Spark

  • Uso de cuadernos para escribir código para la ingesta, preparación y transformación de datos

    Captura de pantalla que muestra objetos de ingeniería de datos.

Lakehouse

Lakehouses son arquitecturas de datos que permiten a las organizaciones almacenar y administrar datos estructurados y no estructurados en una sola ubicación, usando diversas herramientas y marcos para procesar y analizar esos datos. Estas herramientas y marcos pueden incluir consultas y análisis basados en SQL, así como aprendizaje automático y otras técnicas de análisis avanzados.

Definición de trabajo de Apache Spark

Las definiciones de trabajos de Spark son un conjunto de instrucciones que definen cómo ejecutar un trabajo en un clúster de Spark. Incluye información como los orígenes de datos de entrada y salida, las transformaciones y las opciones de configuración de la aplicación Spark. La definición de trabajo de Spark permite enviar trabajo por lotes o streaming al clúster de Spark, aplicar una lógica de transformación diferente a los datos hospedados en lakehouse junto con muchas otras cosas.

Notebook

Los cuadernos son un entorno informático interactivo que permite a los usuarios crear y compartir documentos que contienen código dinámico, ecuaciones, visualizaciones y texto narrativo. Permiten a los usuarios escribir y ejecutar código en varios lenguajes de programación, como Python, R y Scala. Puede usar cuadernos para la ingesta, preparación, análisis y otras tareas relacionadas con los datos.

Canalización de datos

Las canalizaciones de datos son una serie de pasos que pueden recopilar, procesar y transformar datos desde su forma original a un formato que pueda utilizar para el análisis y la toma de decisiones. Son un componente crítico de la ingeniería de datos, ya que proporcionan una manera de mover datos de su origen a su destino de forma confiable, escalable y eficaz.

Puede usar la ingeniería de datos en Microsoft Fabric de forma gratuita al registrarse para obtener la versión de prueba de Fabric. También puede comprar una capacidad de Microsoft Fabric o una capacidad reservada de Fabric

Introducción a La ingeniería de datos: