Compartir vía


¿Qué son los flujos de datos en Azure Synapse Analytics?

Los flujos de datos son transformaciones de datos diseñada visualmente en Azure Synapse Analytics. Los flujos de datos permiten a los ingenieros de datos desarrollar lógica de transformación de datos sin necesidad de escribir código. Los flujos de datos resultantes se ejecutan como actividades en las canalizaciones de Azure Synapse Analytics que usan clústeres de Apache Spark con escalabilidad horizontal. Las actividades de flujo de datos pueden ponerse en marcha mediante las funcionalidades de programación, control, flujo y supervisión existentes de Azure Synapse Analytics.

Los flujos de datos proporcionan una experiencia completamente visual que no requiere programación. Los flujos de datos se ejecutan en clústeres de ejecución administrados por Synapse durante el procesamiento de datos de escalabilidad horizontal. Asimismo, Azure Synapse Analytics controla toda la traducción de código, la optimización de rutas de acceso y la ejecución de los trabajos de flujo de datos.

Introducción

Los flujos de datos se crean desde el panel Desarrollar de Synapse Studio. Para crear un flujo de datos, seleccione el signo más junto a Desarrollar y luego Data Flow.

Nuevo flujo de datos

Con esta acción, accederá al lienzo de flujo de datos, donde podrá crear la lógica de transformación. Seleccione Agregar origen para comenzar a configurar la transformación de origen. Para más información, consulte Transformación de origen.

Creación de flujos de datos

El flujo de datos tiene un lienzo de creación único diseñado para facilitar la creación de lógica de transformación. El lienzo de flujo de datos está dividido en tres partes: la barra superior, el gráfico y el panel de configuración.

Captura de pantalla que muestra el lienzo del flujo de datos con la barra superior, el gráfico y el panel de configuración marcados.

Grafo

En el gráfico se muestra el flujo de transformación. Muestra el linaje de los datos de origen a medida que fluyen hacia uno o varios receptores. Para agregar un nuevo origen, seleccione Agregar origen. Para agregar una nueva transformación, seleccione el signo más situado en la parte inferior derecha de una transformación existente. Obtenga más información sobre cómo administrar el gráfico de flujo de datos.

Captura de pantalla que muestra la parte del gráfico del lienzo con un cuadro de texto de búsqueda.

Panel de configuración

En el panel configuración se muestra la configuración específica de la transformación seleccionada actualmente. Si no se ha seleccionado ninguna transformación, se muestra el flujo de datos. En la configuración de flujo de datos general, puede agregar parámetros a través de la pestaña Parámetros. Para obtener más información, consulte Parámetros de Data Flow.

Cada transformación contiene al menos cuatro pestañas de configuración.

Configuración de la transformación

La primera pestaña del panel de configuración de cada transformación contiene los valores específicos de esa transformación. Para más información, consulte la página de documentación de la transformación.

Pestaña de configuración de origen

Optimización

La pestaña Optimizar contiene valores opcionales para configurar los esquemas de partición. Para obtener más información sobre cómo optimizar los flujos de datos, consulte la guía de rendimiento de flujos de datos de asignación.

Captura de pantalla que muestra la pestaña Optimizar

Inspeccionar

La pestaña Inspeccionar proporciona una vista de los metadatos del flujo de datos que se está transformando. Puede ver el número de columnas, las columnas que han cambiado, las columnas que se han agregado, los tipos de datos, el orden de las columnas y las referencias de las columnas. Inspeccionar es una vista de solo lectura de los metadatos. Para ver los metadatos en el panel Inspeccionar, no es preciso que el modo de depuración esté habilitado.

Pestaña Inspeccionar

Al cambiar la forma de los datos mediante transformaciones, verá que los cambios de los metadatos fluyen por el panel Inspeccionar. Si no hay un esquema definido en su transformación de origen, los metadatos no estarán visibles en el panel Inspeccionar. La falta de metadatos es habitual en escenarios de desviación en el esquema.

Vista previa de datos

Si el modo de depuración está activado, en la pestaña Vista previa de los datos, podrá ver una instantánea interactiva de los datos en cada transformación. Para más información, consulte Vista previa de los datos en modo de depuración.

Barra superior

La barra superior contiene acciones que afectan a todo el flujo de datos, como la configuración de validación y depuración. También puede ver el código JSON subyacente y el script de flujo de datos de la lógica de transformación.

Transformaciones disponibles

Vea Introducción a las transformaciones en el flujo de datos de asignación para obtener una lista de las transformaciones disponibles.

Actividad de los flujos de datos

Los flujos de datos se han operado dentro de las canalizaciones de Azure Synapse Analytics mediante la actividad de flujo de datos. Todo lo que tiene que hacer el usuario es especificar qué entorno de ejecución de integración usar y pasar valores de parámetro. Para obtener más información, vea el entorno de ejecución de integración de Azure.

Modo de depuración

El modo de depuración permite ver de forma interactiva los resultados de cada paso de transformación mientras compila y depura flujos de datos. La sesión de depuración se puede usar al compilar la lógica de flujo de datos y al ejecutar series de depuración de canalización con actividades de flujo de datos. Para obtener más información, vea la documentación del modo de depuración.

Supervisión de flujos de datos

El flujo de datos se integra con las funcionalidades de supervisión existentes de Azure Synapse Analytics. Para obtener información para comprender la salida de la supervisión de flujos de datos, vea Supervisión de flujos de datos de asignación.

El equipo de Azure Synapse Analytics ha creado una Guía para la optimización del rendimiento para ayudar a optimizar el tiempo de ejecución de los flujos de datos después de compilar la lógica de negocios.