Descripción de los flujos de datos Gen2 en Microsoft Fabric

Completado

En nuestro escenario, debe desarrollar un modelo semántico que pueda estandarizar los datos y proporcionar acceso a la empresa. Con los flujos de datos Gen2, puede conectarse a los distintos orígenes de datos y, a continuación, preparar y transformar los datos. Puede colocar los datos directamente en el almacén de lago o usar una canalización de datos para otros destinos.

¿Qué es un flujo de datos?

Los flujos de datos son un tipo de herramienta ETL (extracción, transformación y carga de datos) basada en la nube para crear y ejecutar procesos de transformación de datos escalables.

Los flujos de datos Gen2 permiten extraer datos de varios orígenes, transformarlos mediante una amplia variedad de operaciones de transformación y cargarlos en un destino. El uso de Power Query en línea también permite que una interfaz visual realice estas tareas.

Fundamentalmente, un flujo de datos incluye todas las transformaciones para reducir el tiempo de preparación de datos y, a continuación, puede cargarse en una nueva tabla, incluirse en una canalización de datos o usarse como origen de datos por parte de analistas de datos.

Uso de flujos de datos Gen2

Tradicionalmente, los ingenieros de datos dedican mucho tiempo a extraer, transformar y cargar datos en un formato consumible para análisis de bajada. El objetivo de los flujos de datos Gen2 es proporcionar una manera fácil y reutilizable de realizar tareas de ETL mediante Power Query en línea.

Si solo decide usar una canalización de datos, copie los datos y, a continuación, utilice su lenguaje de codificación preferido para extraer, transformar y cargar los datos. Como alternativa, puede crear primero un flujo de datos Gen2 para extraer y transformar los datos. También puede cargar los datos en un almacén de lago y otros destinos. Ahora la empresa puede consumir fácilmente el modelo semántico mantenido.

Agregar un destino de datos al flujo de datos es opcional y el flujo de datos conserva todos los pasos de transformación. Para realizar otras tareas o cargar datos en un destino diferente después de la transformación, cree una canalización de datos y agregue la actividad de flujo de datos Gen2 a la orquestación.

Otra opción podría ser usar una canalización de datos y un flujo de datos Gen2 para el proceso ELT (Extracción, Carga, Transformación). En este pedido, usaría una canalización para extraer y cargar los datos en su destino preferido, como el almacén de lago. A continuación, crearía un flujo de datos Gen2 para conectarse a los datos del almacén de lago para limpiar y transformar los datos. En este caso, ofrecería el flujo de datos como modelo semántico mantenido para que los analistas de datos desarrollaran informes.

Los flujos de datos también se pueden particionar horizontalmente. Una vez creado un flujo de datos global, los analistas de datos pueden usar flujos de datos para crear modelos semánticos especializados para necesidades específicas.

Los flujos de datos permiten promover la lógica ETL reutilizable que evita la necesidad de crear más conexiones al origen de datos. Los flujos de datos ofrecen una amplia variedad de transformaciones y se pueden ejecutar manualmente, según una programación de actualización, o como parte de una orquestación de canalizaciones de datos.

Sugerencia

Haga que el flujo de datos sea reconocible, para que los analistas de datos también puedan conectarse al flujo de datos a través de Power BI Desktop. Esto reduce la preparación de los datos para el desarrollo de informes.

Beneficios y limitaciones

Hay más de una forma de extraer, transformar y cargar datos en Microsoft Fabric. Tenga en cuenta las ventajas y limitaciones para usar flujos de datos Gen2.

Ventajas:

  • Amplíe los datos con datos coherentes, como una tabla de dimensiones de fecha estándar.
  • Permita a los usuarios de autoservicio tener acceso a un subconjunto de almacenamiento de datos por separado.
  • Optimice el rendimiento con flujos de datos. De este modo se extraen datos una vez para su reutilización, lo que reduce el tiempo de actualización de los datos para orígenes más lentos.
  • Simplifique la complejidad del origen de datos. Para ello, solo tiene que exponer los flujos de datos a grupos de analistas más grandes.
  • Garantice la coherencia y calidad de los datos al permitir que los usuarios limpien y transformen los datos antes de cargarlos en un destino.
  • Simplifique la integración de datos. Para ello, proporcione una interfaz de código bajo que ingiera datos de distintos orígenes.

Limitaciones:

  • Los flujos de datos no sustituyen a un almacenamiento de datos.
  • No se admite la seguridad de nivel de fila.
  • Se requiere un área de trabajo de capacidad de Fabric.