¿Qué es la ingeniería de datos en Microsoft Fabric?
La ingeniería de datos en Microsoft Fabric permite a los usuarios diseñar, compilar y mantener infraestructuras y sistemas que permiten a sus organizaciones recopilar, almacenar, procesar y analizar grandes volúmenes de datos.
Microsoft Fabric proporciona diversas funcionalidades de ingeniería de datos para asegurarse de que los datos son fácilmente accesibles, bien organizados y de alta calidad. Desde la página principal de ingeniería de datos, puede hacer lo siguiente:
Cree y gestione sus datos utilizando un lakehouse
Diseñar canalizaciones para copiar datos en el almacén de lago
Uso de definiciones de trabajos de Spark para enviar trabajos por lotes o streaming al clúster de Spark
Uso de cuadernos para escribir código para la ingesta, preparación y transformación de datos
Lakehouse
Lakehouses son arquitecturas de datos que permiten a las organizaciones almacenar y administrar datos estructurados y no estructurados en una sola ubicación, usando diversas herramientas y marcos para procesar y analizar esos datos. Estas herramientas y marcos pueden incluir consultas y análisis basados en SQL, así como aprendizaje automático y otras técnicas de análisis avanzados.
Definición de trabajo de Apache Spark
Las definiciones de trabajos de Spark son un conjunto de instrucciones que definen cómo ejecutar un trabajo en un clúster de Spark. Incluye información como los orígenes de datos de entrada y salida, las transformaciones y las opciones de configuración de la aplicación Spark. La definición de trabajo de Spark permite enviar trabajo por lotes o streaming al clúster de Spark, aplicar una lógica de transformación diferente a los datos hospedados en lakehouse junto con muchas otras cosas.
Notebook
Los cuadernos son un entorno informático interactivo que permite a los usuarios crear y compartir documentos que contienen código dinámico, ecuaciones, visualizaciones y texto narrativo. Permiten a los usuarios escribir y ejecutar código en varios lenguajes de programación, como Python, R y Scala. Puede usar cuadernos para la ingesta, preparación, análisis y otras tareas relacionadas con los datos.
Canalización de datos
Las canalizaciones de datos son una serie de pasos que pueden recopilar, procesar y transformar datos desde su forma original a un formato que pueda utilizar para el análisis y la toma de decisiones. Son un componente crítico de la ingeniería de datos, ya que proporcionan una manera de mover datos de su origen a su destino de forma confiable, escalable y eficaz.
Puede usar la ingeniería de datos en Microsoft Fabric de forma gratuita al registrarse para obtener la versión de prueba de Fabric. También puede comprar una capacidad de Microsoft Fabric o una capacidad reservada de Fabric
Contenido relacionado
Introducción a La ingeniería de datos:
- Para obtener más información sobre lakehouses, consulte ¿Qué es un lago en Microsoft Fabric?
- Para empezar a trabajar con un almacén de lago de datos, vea Creación de un almacén de lago de datos en Microsoft Fabric.
- Para más información sobre las definiciones de trabajos de Apache Spark, consulte ¿Qué es una definición de trabajo de Apache Spark?
- Para empezar a trabajar con una definición de trabajo de Apache Spark, consulte Creación de una definición de trabajo de Apache Spark en Fabric.
- Más información sobre los cuadernos, vea Creación y ejecución del cuaderno.
- Para empezar a trabajar con la actividad de copia de Canalizaciones, vea Cómo copiar datos mediante la actividad de copia.