Inicio rápido: Creación del primer flujo de datos para obtener y transformar datos
Los flujos de datos son una tecnología de preparación de datos basada en la nube y de autoservicio. En este artículo, creará su primer flujo de datos, obtendrá datos para este y, después, transformará los datos y publicará el flujo de datos.
Requisitos previos
Antes de empezar, es preciso cumplir los siguientes requisitos previos:
- Una cuenta de inquilino de Microsoft Fabric con una suscripción activa. Crear una cuenta gratuita.
- Asegúrese de que tiene un área de trabajo habilitada para Microsoft Fabric: Crear un área de trabajo.
Crear un flujo de datos
En esta sección, creará su primer flujo de datos.
Cambiar a la experiencia de la Data factory.
Vaya al área de trabajo de Microsoft Fabric.
Seleccione Nuevo y, a continuación, seleccione Flujo de datos Gen2.
Obtención de datos
Vamos a obtener algunos datos. En este ejemplo, obtendrá datos de un servicio de OData. Siga estos pasos para obtener datos en el flujo de datos.
En el editor de flujos de datos, seleccione Obtener datos y, a continuación, seleccione Más.
En Elegir origen de datos, seleccione Ver más.
En Nuevo origen, seleccione Otros>OData como origen de datos.
Escriba la dirección URL
https://services.odata.org/v4/northwind/northwind.svc/
y, a continuación, seleccione Siguiente.Seleccione las tablas Orders (Pedidos) y Customers (Clientes), y después seleccione Crear.
Puede obtener más información sobre la experiencia y las funciones de la obtención de datos en Información general sobre la obtención de datos.
Aplicación de transformaciones y publicación
Ha cargado los datos en su primer flujo de datos, enhorabuena. Ahora es el momento de aplicar un par de transformaciones para dar a estos datos la forma deseada.
Realizará esta tarea desde el editor de Power Query. Puede encontrar información general detallada del editor de Power Query en La interfaz de usuario de Power Query.
Siga estos pasos para aplicar transformaciones y publicar:
Asegúrese de que las herramientas de Generación de perfiles de datos estén habilitadas; para ello, vaya a Inicio>Opciones>Opciones globales.
Asegúrese también de que ha habilitado la vista de diagrama mediante las opciones de la pestaña Ver en la cinta de opciones del editor de Power Query o seleccionando el icono de la vista de diagrama en el lado inferior derecho de la ventana de Power Query.
En la tabla Orders, calcule el número total de pedidos por cliente. Para lograr este objetivo, seleccione la columna CustomerID en la vista previa de datos y, a continuación, seleccione Agrupar por en la pestaña Transformar de la cinta de opciones.
Realice un recuento de filas como agregación dentro de Agrupar por. Puede obtener más información sobre las funcionalidades de Agrupar por en Agrupación o resumen de filas.
Después de agrupar los datos en la tabla Orders, obtendremos una tabla de dos columnas con CustomerID y Count como columnas.
A continuación, querrá combinar los datos de la tabla Customers con el Count de Orders por cliente. Para combinar datos, seleccione la consulta Customers en la Vista de diagrama y use el menú "⋮" para acceder a la transformación Combinar consultas como una nueva.
Configure la operación Combinar como se muestra en la siguiente captura de pantalla seleccionando CustomerID como la columna coincidente en ambas tablas. Después, seleccione Aceptar.
Captura de pantalla de la ventana Combinar, con la tabla izquierda para combinar establecida en la tabla Customers y la tabla derecha para combinar establecida en la tabla Orders. La columna CustomerID está seleccionada para las tablas Customers y Orders. Además, el tipo de combinación se establece en Externa izquierda. Todas las demás selecciones se establecen en su valor predeterminado.
Al realizar la operación Combinar consultas como nuevas, obtendrá una nueva consulta con todas las columnas de la tabla Customers y una columna con datos anidados de la tabla Orders.
En este ejemplo, solo le interesa un subconjunto de columnas de la tabla Customers. Puede seleccionar esas columnas mediante la vista de esquema. Habilite la vista de esquema dentro del botón de alternancia en la esquina inferior derecha del editor de flujos de datos.
La vista de esquema proporciona una vista centrada en la información de esquema de una tabla, incluidos los nombres de columna y los tipos de datos. La vista de esquema tiene un conjunto de herramientas de esquema disponibles a través de una ficha de cinta contextual. En este caso, seleccione las columnas CustomerID, CompanyName (Nombre de empresa), y Orders (2), después, seleccione el botón Quitar columnas y después seleccione Quitar otras columnas en la pestaña Herramientas de esquema.
La columna Orders (2) contiene información anidada resultante de la operación de combinación que ha realizado hace unos pasos. Ahora, vuelva a la vista de datos seleccionando el botón Mostrar vista de datos situado junto al botón Mostrar vista de esquema en la esquina inferior derecha de la interfaz de usuario. Use la transformación Ampliar columna en el encabezado de columna Orders (2) para seleccionar la columna Count.
Como operación final, quiere clasificar a los clientes en función de su número de pedidos. Seleccione la columna Count y después seleccione el botón Clasificar columna de la pestaña Añadir columna de la cinta.
Mantenga la configuración predeterminada en Clasificar columna. A continuación, seleccione Aceptar para aplicar esta transformación.
Ahora cambie el nombre de la consulta resultante a Ranked Customers (Clientes clasificados) usando el panel Configuración de consulta de la parte derecha de la pantalla.
Ha terminado de transformar y combinar los datos. Por lo tanto, ahora puede configurar sus opciones de destino de salida. Seleccione Elegir destino de datos en la parte inferior del panel Configuración de consulta.
En este paso, puede configurar una salida en el lago si tiene una disponible u omitir este paso si no es así. En esta experiencia, puede configurar el lago de destino y la tabla para los resultados de la consulta, además del método de actualización (Anexar o Reemplazar).
El flujo de datos ya está listo para publicarse. Revise las consultas en la vista de diagrama y, a continuación, seleccione Publicar.
Ahora se le devolverá al área de trabajo. Un icono giratorio junto al nombre de su flujo de datos indica que la publicación está en curso. Una vez completada la publicación, el flujo de datos está listo para actualizarse.
Importante
Cuando se crea el primer Flujo de datos Gen2 en un área de trabajo, se aprovisionan los elementos de almacén de lago y almacén junto con sus modelos semánticos y puntos de conexión de análisis SQL relacionados. Todos los flujos de datos del área de trabajo comparten estos elementos, que son necesarios para el funcionamiento de Flujo de datos Gen2, no deben eliminarse y los usuarios no deben utilizarlos directamente. Los elementos son un detalle de implementación de Flujo de datos Gen2. Los elementos no son visibles en el área de trabajo, pero pueden ser accesibles en otras experiencias como Notebook, punto de conexión de análisis SQL, almacén de lago y almacén. Puede reconocer los elementos por su prefijo en el nombre. El prefijo de los elementos es "DataflowsStaging".
En el área de trabajo, seleccione el icono Programar actualización.
Active la actualización programada, seleccione Agregar otra hora y configure la actualización como se muestra en la captura de pantalla siguiente.
Captura de pantalla de las opciones de actualización programadas, con la actualización programada activada, la frecuencia de actualización establecida en Diaria, la zona horaria establecida en hora universal coordinada y la hora establecida en 4:00 a. m. El botón de encendido, la selección Agregar otra hora, el propietario del flujo de datos y el botón Aplicar están resaltados.
Limpieza de recursos
Si no va a seguir usando este flujo de datos, elimínelo siguiendo los pasos siguientes:
Vaya al área de trabajo de Microsoft Fabric.
Seleccione los puntos suspensivos verticales junto al nombre del flujo de datos y, a continuación, seleccione Eliminar.
Seleccione Eliminar para confirmar la eliminación del flujo de datos.
Contenido relacionado
El flujo de datos de este ejemplo le muestra cómo cargar y transformar datos en el flujo de datos Gen2. Ha aprendido a:
- Cree un flujo de datos Gen2.
- Transformar los datos.
- Configure los valores de destino para los datos transformados.
- Ejecute y programe la canalización de datos.
Avance hasta el siguiente artículo para obtener información sobre cómo crear su primera canalización de datos.