Compartir a través de


Inicio rápido: Creación del primer flujo de datos para obtener y transformar datos

Los flujos de datos son una tecnología de preparación de datos basada en la nube y de autoservicio. En este artículo, creará su primer flujo de datos, obtendrá datos para este y, después, transformará los datos y publicará el flujo de datos.

Requisitos previos

Antes de empezar, es preciso cumplir los siguientes requisitos previos:

Crear un flujo de datos

En esta sección, creará su primer flujo de datos.

  1. Cambiar a la experiencia de la Data factory.

  2. Vaya al área de trabajo de Microsoft Fabric.

    Captura de pantalla de la ventana de áreas de trabajo en la que se navega hasta el área de trabajo.

  3. Seleccione Nuevo y, a continuación, seleccione Flujo de datos Gen2.

    Captura de pantalla con la selección de Dataflow Gen2 resaltada.

Obtención de datos

Vamos a obtener algunos datos. En este ejemplo, obtendrá datos de un servicio de OData. Siga estos pasos para obtener datos en el flujo de datos.

  1. En el editor de flujos de datos, seleccione Obtener datos y, a continuación, seleccione Más.

    Captura de pantalla con la opción Obtener datos seleccionada y Más resaltado en el cuadro desplegable.

  2. En Elegir origen de datos, seleccione Ver más.

    Captura de pantalla de Obtener origen de datos con la opción Ver más resaltada.

  3. En Nuevo origen, seleccione Otros>OData como origen de datos.

    Captura de pantalla de Obtener origen de datos con la categoría Otro y el conector OData resaltados.

  4. Escriba la dirección URL https://services.odata.org/v4/northwind/northwind.svc/ y, a continuación, seleccione Siguiente.

    Captura de pantalla del origen de datos de OData donde se escribe la URL de los datos.

  5. Seleccione las tablas Orders (Pedidos) y Customers (Clientes), y después seleccione Crear.

    Captura de pantalla del navegador de Power Query con las tablas Customers y Orders resaltadas.

Puede obtener más información sobre la experiencia y las funciones de la obtención de datos en Información general sobre la obtención de datos.

Aplicación de transformaciones y publicación

Ha cargado los datos en su primer flujo de datos, enhorabuena. Ahora es el momento de aplicar un par de transformaciones para dar a estos datos la forma deseada.

Realizará esta tarea desde el editor de Power Query. Puede encontrar información general detallada del editor de Power Query en La interfaz de usuario de Power Query.

Siga estos pasos para aplicar transformaciones y publicar:

  1. Asegúrese de que las herramientas de Generación de perfiles de datos estén habilitadas; para ello, vaya a Inicio>Opciones>Opciones globales.

    Captura de pantalla de las opciones globales con las selecciones de perfil de columna resaltadas.

    Asegúrese también de que ha habilitado la vista de diagrama mediante las opciones de la pestaña Ver en la cinta de opciones del editor de Power Query o seleccionando el icono de la vista de diagrama en el lado inferior derecho de la ventana de Power Query.

    Captura de pantalla del aspecto general de la vista de diagrama de Power Query.

  2. En la tabla Orders, calcule el número total de pedidos por cliente. Para lograr este objetivo, seleccione la columna CustomerID en la vista previa de datos y, a continuación, seleccione Agrupar por en la pestaña Transformar de la cinta de opciones.

    Captura de pantalla que muestra la tabla de Orders seleccionada y Agrupar por resaltado en la pestaña Transformar.

  3. Realice un recuento de filas como agregación dentro de Agrupar por. Puede obtener más información sobre las funcionalidades de Agrupar por en Agrupación o resumen de filas.

    Captura de pantalla de Agrupar por, con la operación Contar filas seleccionada.

  4. Después de agrupar los datos en la tabla Orders, obtendremos una tabla de dos columnas con CustomerID y Count como columnas.

    Captura de pantalla de la tabla de dos columnas.

  5. A continuación, querrá combinar los datos de la tabla Customers con el Count de Orders por cliente. Para combinar datos, seleccione la consulta Customers en la Vista de diagrama y use el menú "⋮" para acceder a la transformación Combinar consultas como una nueva.

    Captura de pantalla del editor de flujo de datos, con los puntos suspensivos verticales de la tabla Customers y Combinar consultas como una nueva resaltado.

  6. Configure la operación Combinar como se muestra en la siguiente captura de pantalla seleccionando CustomerID como la columna coincidente en ambas tablas. Después, seleccione Aceptar.

    Captura de pantalla de la ventana de dispositivos.

    Captura de pantalla de la ventana Combinar, con la tabla izquierda para combinar establecida en la tabla Customers y la tabla derecha para combinar establecida en la tabla Orders. La columna CustomerID está seleccionada para las tablas Customers y Orders. Además, el tipo de combinación se establece en Externa izquierda. Todas las demás selecciones se establecen en su valor predeterminado.

  7. Al realizar la operación Combinar consultas como nuevas, obtendrá una nueva consulta con todas las columnas de la tabla Customers y una columna con datos anidados de la tabla Orders.

    Captura de pantalla del editor de flujos de datos con la nueva consulta Combinar agregada a la derecha de las tablas Customers y Orders.

  8. En este ejemplo, solo le interesa un subconjunto de columnas de la tabla Customers. Puede seleccionar esas columnas mediante la vista de esquema. Habilite la vista de esquema dentro del botón de alternancia en la esquina inferior derecha del editor de flujos de datos.

    Captura de pantalla del editor de flujos de datos con el botón de vista de esquema resaltado en la esquina inferior derecha.

  9. La vista de esquema proporciona una vista centrada en la información de esquema de una tabla, incluidos los nombres de columna y los tipos de datos. La vista de esquema tiene un conjunto de herramientas de esquema disponibles a través de una ficha de cinta contextual. En este caso, seleccione las columnas CustomerID, CompanyName (Nombre de empresa), y Orders (2), después, seleccione el botón Quitar columnas y después seleccione Quitar otras columnas en la pestaña Herramientas de esquema.

    Captura de pantalla de la vista de esquema que muestra todos los nombres de columna disponibles, con las columnas CustomerID, CompanyName y Orders (2) resaltadas.

    Captura de pantalla del menú de herramientas de esquema con Eliminar otras columnas resaltado.

  10. La columna Orders (2) contiene información anidada resultante de la operación de combinación que ha realizado hace unos pasos. Ahora, vuelva a la vista de datos seleccionando el botón Mostrar vista de datos situado junto al botón Mostrar vista de esquema en la esquina inferior derecha de la interfaz de usuario. Use la transformación Ampliar columna en el encabezado de columna Orders (2) para seleccionar la columna Count.

    Captura de pantalla para usar la vista de datos.

  11. Como operación final, quiere clasificar a los clientes en función de su número de pedidos. Seleccione la columna Count y después seleccione el botón Clasificar columna de la pestaña Añadir columna de la cinta.

    Captura de pantalla del editor de flujos de datos con la columna Count seleccionada.

  12. Mantenga la configuración predeterminada en Clasificar columna. A continuación, seleccione Aceptar para aplicar esta transformación.

    Captura de pantalla de la ventana de Clasificación con todas las configuraciones predeterminadas mostradas.

  13. Ahora cambie el nombre de la consulta resultante a Ranked Customers (Clientes clasificados) usando el panel Configuración de consulta de la parte derecha de la pantalla.

    Captura de pantalla del editor de flujos de datos con el nombre de Ranked Customers resaltado bajo las propiedades de configuración de la consulta.

  14. Ha terminado de transformar y combinar los datos. Por lo tanto, ahora puede configurar sus opciones de destino de salida. Seleccione Elegir destino de datos en la parte inferior del panel Configuración de consulta.

    Captura de pantalla del editor de flujos de datos con la ubicación de la selección de Destino de datos resaltada.

  15. En este paso, puede configurar una salida en el lago si tiene una disponible u omitir este paso si no es así. En esta experiencia, puede configurar el lago de destino y la tabla para los resultados de la consulta, además del método de actualización (Anexar o Reemplazar).

    Captura de pantalla de la ventana Conectar con destino de datos con el almacén de lago de datos seleccionado.

    Captura de pantalla de la ventana de Elegir configuración de destino.

  16. El flujo de datos ya está listo para publicarse. Revise las consultas en la vista de diagrama y, a continuación, seleccione Publicar.

    Captura de pantalla del editor de flujos de datos con el botón Publicar en la parte inferior derecha resaltado.

    Ahora se le devolverá al área de trabajo. Un icono giratorio junto al nombre de su flujo de datos indica que la publicación está en curso. Una vez completada la publicación, el flujo de datos está listo para actualizarse.

    Importante

    Cuando se crea el primer Flujo de datos Gen2 en un área de trabajo, se aprovisionan los elementos de almacén de lago y almacén junto con sus modelos semánticos y puntos de conexión de análisis SQL relacionados. Todos los flujos de datos del área de trabajo comparten estos elementos, que son necesarios para el funcionamiento de Flujo de datos Gen2, no deben eliminarse y los usuarios no deben utilizarlos directamente. Los elementos son un detalle de implementación de Flujo de datos Gen2. Los elementos no son visibles en el área de trabajo, pero pueden ser accesibles en otras experiencias como Notebook, punto de conexión de análisis SQL, almacén de lago y almacén. Puede reconocer los elementos por su prefijo en el nombre. El prefijo de los elementos es "DataflowsStaging".

  17. En el área de trabajo, seleccione el icono Programar actualización.

    Captura de pantalla del área de trabajo con el icono de Programar actualización resaltado.

  18. Active la actualización programada, seleccione Agregar otra hora y configure la actualización como se muestra en la captura de pantalla siguiente.

    Captura de pantalla que muestra cómo seleccionar otra hora.

    Captura de pantalla de las opciones de actualización programadas, con la actualización programada activada, la frecuencia de actualización establecida en Diaria, la zona horaria establecida en hora universal coordinada y la hora establecida en 4:00 a. m. El botón de encendido, la selección Agregar otra hora, el propietario del flujo de datos y el botón Aplicar están resaltados.

Limpieza de recursos

Si no va a seguir usando este flujo de datos, elimínelo siguiendo los pasos siguientes:

  1. Vaya al área de trabajo de Microsoft Fabric.

    Captura de pantalla de la ventana de áreas de trabajo en la que se navega hasta el área de trabajo.

  2. Seleccione los puntos suspensivos verticales junto al nombre del flujo de datos y, a continuación, seleccione Eliminar.

    Captura de pantalla con los tres puntos verticales y la opción de eliminar en el menú desplegable resaltada.

  3. Seleccione Eliminar para confirmar la eliminación del flujo de datos.

    Captura de pantalla de la ventana Eliminar flujo de datos, con el botón Eliminar resaltado.

El flujo de datos de este ejemplo le muestra cómo cargar y transformar datos en el flujo de datos Gen2. Ha aprendido a:

  • Cree un flujo de datos Gen2.
  • Transformar los datos.
  • Configure los valores de destino para los datos transformados.
  • Ejecute y programe la canalización de datos.

Avance hasta el siguiente artículo para obtener información sobre cómo crear su primera canalización de datos.