Escenarios de uso de Power BI: Preparación de datos avanzada
Nota
Este artículo forma parte de la serie de artículos sobre el planeamiento de la implementación de Power BI. Esta serie se centra principalmente en la experiencia de Power BI en Microsoft Fabric. Para acceder a una introducción a la serie, consulte el planeamiento de la implementación de Power BI.
Las actividades de preparación de datos (a veces denominadas ETL, por el acrónimo en inglés de extracción, transformación y carga [Extract, Transform and Load]) suelen implicar un gran esfuerzo. El tiempo, la aptitud y el esfuerzo destinados a la recopilación, limpieza, combinación y enriquecimiento de los datos depende de la calidad y la estructura de los datos de origen.
Dedicar tiempo y esfuerzo a la preparación centralizada de los datos ayuda a lo siguiente:
- Mejorar la reutilización y obtener el máximo valor de los esfuerzos de preparación de datos.
- Mejorar la capacidad para proporcionar datos coherentes a varios equipos.
- Reducir el nivel de esfuerzo requerido por otros creadores de contenido.
- Lograr la escalabilidad y el rendimiento.
El escenario de uso de preparación de datos avanzada se expande en el escenario de preparación de datos de autoservicio. La preparación de datos avanzada consiste en incrementar la reutilización de los flujos de datos por parte de múltiples usuarios en diversos equipos y para varios casos de uso.
Las áreas de trabajo independientes, organizadas por propósito de flujo de datos, son útiles cuando la salida del flujo de datos se proporciona a varios creadores de modelos semánticos, especialmente cuando se encuentran en diferentes equipos de la organización. También son útiles para administrar los roles de seguridad cuando las personas que crean y administran los flujos de datos son distintas de las personas que los consumen.
Nota
El escenario de preparación de datos avanzada es el segundo de los escenarios de preparación de datos. Este escenario se basa en las acciones que se pueden realizar con los flujos de datos centralizados, como se describe en el escenario de preparación de datos de autoservicio.
El escenario de preparación de datos avanzada es uno de los escenarios de BI de autoservicio. Sin embargo, un miembro del equipo centralizado puede usar las técnicas de forma similar a la descrita en el escenario de BI de autoservicio administrada. Para obtener una lista completa de los escenarios de autoservicio, consulte el artículo Escenarios de uso de Power BI.
Por motivos de brevedad, algunos aspectos descritos en el tema Escenarios de colaboración y entrega de contenido no se tratan en este artículo. Si quiere obtener una cobertura completa, lea primero esos artículos.
Diagrama del escenario
Sugerencia
Se recomienda revisar el escenario de uso de preparación de datos de autoservicio si no está familiarizado con él. El escenario de preparación avanzada de datos de autoservicio se basa en él.
Este escenario de preparación de datos avanzada se centra en:
- El uso de flujos de datos independientes en función de su finalidad: almacenamiento provisional, transformación o final. Se recomienda usar bloques de creación que admitan composición a fin de poder reutilizarlos más y en distintas combinaciones para satisfacer requisitos específicos de los usuarios. Los bloques de creación que admiten composición se describen más adelante en este artículo.
- El uso de áreas de trabajo independientes que admitan creadores de flujos de datos o consumidores de estos. Los modeladores de datos, que consumen flujos de datos, pueden estar en diferentes equipos o tener casos de uso diferentes.
- El uso de tablas vinculadas (también conocidas como entidades vinculadas), tablas calculadas (también conocidas como entidades calculadas) y el motor de proceso mejorado.
Nota:
A veces, los términos modelo semántico y modelo de datos se usan indistintamente. En general, desde una perspectiva del servicio Power BI, se usa el término modelo semántico. Desde una perspectiva de desarrollo, se conoce como modelo de datos (o modelo para abreviar). En este artículo, ambos términos tienen el mismo significado. Del mismo modo, el significado de creador de modelos semánticos y modelador de datos es el mismo.
En el diagrama siguiente se muestra información general de alto nivel de las acciones de usuario más comunes y los componentes de Power BI que admiten el escenario de preparación de datos avanzada.
Sugerencia
Le recomendamos que descargue el diagrama de escenariossi desea insertarlo en su presentación, documentación o entrada de blog, o imprimirlo como un póster de pared. Dado que es una imagen de gráficos vectoriales escalables (SVG), puede escalarla o reducirla verticalmente sin pérdida de calidad.
En el diagrama de escenario se muestran las siguientes acciones de usuario, herramientas y características:
Elemento | Descripción |
---|---|
El creador del flujo de datos desarrolla una colección de tablas dentro de un flujo de datos. En el caso de un flujo de datos destinado a su reutilización, es habitual (pero no necesario) que el creador pertenezca a un equipo centralizado que admita usuarios en toda la organización (como TI, BI empresarial o el Centro de excelencia). | |
El flujo de datos conecta con los datos de uno o más orígenes de datos. | |
Algunos orígenes de datos pueden requerir una puerta de enlace de datos local o una puerta de enlace de red virtual para la actualización de datos, como las que residen dentro de una red organizativa privada. Estas puertas de enlace se usan para crear el flujo de datos en Power Query Online y actualizar el flujo de datos. | |
Todas las áreas de trabajo implicadas tienen el modo de licencia establecido en Capacidad de tejido, Capacidad Premium, Premium por usuario o Insertado. Estos modos de licencia permiten el uso de tablas vinculadas y tablas calculadas entre áreas de trabajo, lo cual es necesario en este escenario. | |
Los creadores de flujos de datos desarrollan flujos de datos con Power Query Online, que es una versión de Power Query basada en web. | |
Se crea un flujo de datos de almacenamiento provisional en un área de trabajo dedicada a la administración centralizada de los flujos de datos. Un flujo de datos de almacenamiento provisional copia los datos sin procesar tal cual desde el origen. Se aplican pocas transformaciones, en caso de hacerlo. | |
Se crea un flujo de datos de transformación (también conocido como flujo de datos limpio) en la misma área de trabajo. Obtiene datos mediante el uso de tablas vinculadas al flujo de datos de almacenamiento provisional. Las tablas calculadas incluyen pasos de transformación que preparan, limpian y vuelven a dar forma a los datos. | |
Los creadores de flujos de datos tienen acceso para administrar el contenido del área de trabajo dedicada a la administración centralizada de los flujos de datos. | |
Existen una o varias áreas de trabajo destinadas a proporcionar acceso al flujo de datos final, que ofrece datos listos para la producción a los modelos de datos. | |
El flujo de datos final se crea en un área de trabajo disponible para los modeladores de datos. Obtiene datos mediante el uso de tablas vinculadas al flujo de datos de transformación. Las tablas calculadas representan la salida preparada visible para los modeladores de datos a los que se les concede el rol de visor del área de trabajo. | |
Los creadores de modelos semánticos (que consumen la salida del flujo de datos) tienen acceso de visor al área de trabajo que contiene la salida del flujo de datos final. Los creadores de flujos de datos también tienen acceso para administrar y publicar contenido en el área de trabajo (lo cual no se representa en el diagrama de escenarios). | |
Los creadores de modelos semánticos usan el flujo de datos final como origen de datos al desarrollar un modelo de datos en Power BI Desktop. Cuando está listo, el creador del modelo semántico publica el archivo de Power BI Desktop (.pbix) que contiene el modelo de datos en el servicio Power BI (que no se representa en el diagrama de escenarios). | |
Los administradores de Fabric administran la configuración en el portal de administración. | |
En el portal de administración, los administradores de Power BI pueden configurar conexiones de Azure para almacenar los datos de los flujos de datos en su cuenta de Azure Data Lake Storage Gen2 (ADLS Gen2). La configuración incluye la asignación de una cuenta de almacenamiento de nivel de inquilino y la habilitación de permisos de almacenamiento de nivel de área de trabajo. | |
De forma predeterminada, los flujos de datos almacenan datos mediante el almacenamiento interno administrado por el servicio Power BI. De forma opcional, la salida de datos del flujo de datos se puede almacenar en la cuenta de ADLS Gen2 de la organización. | |
Los administradores de Fabric supervisan la actividad en el portal de Fabric. |
Puntos clave
A continuación, se muestran algunos puntos clave que se deben destacar sobre el escenario de preparación de datos avanzada.
Flujos de datos
Un flujo de datos consta de una colección de tablas (también conocidas como entidades). Cada tabla se define mediante una consulta, que contiene los pasos de preparación de datos necesarios para cargar la tabla con datos. Todo el trabajo de creación de un flujo de datos se realiza en Power Query Online. Para crear un flujo de datos se pueden usar varios productos, como Power Apps, Dynamics 365 Customer Insights y Power BI.
Nota
No se pueden crear flujos de datos en un área de trabajo personal en el servicio Power BI.
Tipos de flujos de datos
El uso de bloques de creación que admiten composición es un principio de diseño que le permite administrar, implementar y proteger los componentes de un sistema y combinarlos de diversas formas para su uso. La creación de flujos de datos modulares y autónomos para una finalidad específica es un procedimiento recomendado. Ayudan a lograr la reutilización de los datos y su escala empresarial. Los flujos de datos modulares también son más fáciles de administrar y de probar.
En el diagrama de escenarios se muestran tres tipos de flujos de datos: flujo de datos de almacenamiento provisional, flujo de datos de transformación y flujo de datos final.
Flujo de datos de almacenamiento provisional
Un flujo de datos de almacenamiento provisional (a veces denominado flujo de datos de extracción de datos) copia los datos sin procesar tal cual desde el origen. Si los datos sin procesar se extraen con una transformación mínima significa que los flujos de datos de transformación de bajada (descritos a continuación) pueden usar el flujo de datos de almacenamiento provisional como origen. Esta modularidad resulta útil cuando:
- El acceso a un origen de datos está restringido a ventanas de tiempo limitadas o a unos pocos usuarios.
- Se quiere mantener la coherencia temporal para garantizar que todos los flujos de datos de bajada (y los modelos semánticos relacionados) entreguen los datos extraídos del origen de datos al mismo tiempo.
- Se necesita reducir el número de consultas enviadas al origen de datos debido a restricciones del sistema de origen o a su capacidad para admitir consultas analíticas.
- Es útil contar con una copia de los datos de origen para los procesos de conciliación y las comprobaciones de calidad de los datos.
Flujo de datos de transformación
Un flujo de datos de transformación (a veces denominado flujo de datos limpio) tiene como origen de sus datos tablas vinculadas que se conectan al flujo de datos de almacenamiento provisional. Separar las transformaciones del proceso de extracción de datos es un procedimiento recomendado.
Un flujo de datos de transformación incluye todos los pasos de transformación necesarios para preparar y reestructurar los datos. Sin embargo, esta capa también se centra en la reutilización para garantizar que el flujo de datos sea adecuado para diversos fines y casos de uso.
Flujo de datos final
Un flujo de datos final representa la salida preparada. Algunas transformaciones adicionales podrían producirse en función del caso de uso y el propósito. El diseño preferido del flujo de datos final con fines de análisis es una tabla de esquema de estrella (dimensión o hecho).
Las tablas calculadas son visibles para los modeladores de datos a los que se les concede el rol de visor del área de trabajo. Este tipo de tabla se describe en el tema de tipos de tablas de flujo de datos, a continuación.
Nota
Los lagos de datos suelen tener zonas, como bronce, plata y oro. Los tres tipos de flujos de datos representan un patrón de diseño similar. Para tomar las mejores decisiones posibles respecto a la arquitectura de los datos, piense en quién mantendrá los datos, el uso que se espera que se haga de ellos y el nivel de aptitud requerido por los usuarios que acceden a los datos.
Áreas de trabajo para flujos de datos
Si se crean todos los flujos de datos en una única área de trabajo, se limitaría significativamente el alcance de la reutilización. El uso de una sola área de trabajo también limita las opciones de seguridad disponibles al admitir varios tipos de usuarios entre los equipos o para distintos casos de uso. Se recomienda usar varias áreas de trabajo. Ofrecen mayor flexibilidad cuando es necesario admitir creadores de autoservicio de varias áreas de la organización.
Los dos tipos de áreas de trabajo que se muestran en el diagrama de escenarios son:
- Área de trabajo 1: almacena flujos de datos administrados centralmente (lo que a veces se denomina área de trabajo de back-end). Contiene tanto flujos de datos de almacenamiento provisional como de transformación porque los administran los mismos usuarios. Los creadores de flujos de datos suelen pertenecer a un equipo centralizado, como TI, BI o el Centro de excelencia. Deben tener asignado el rol de administrador, miembro o colaborador del área de trabajo.
- Área de trabajo 2: almacena y entrega la salida del flujo de datos final a los consumidores de los datos (a veces denominada área de trabajo de usuario). Los creadores de modelos semánticos suelen ser analistas de autoservicio, usuarios avanzados o ingenieros de datos ciudadanos. Deben asignarse al rol de visor del área de trabajo porque solo necesitan consumir la salida del flujo de datos final. To support semantic model creators from various areas of the organization, you can create numerous workspaces like this one, based on use case and security needs.
Sugerencia
Se recomienda revisar las formas de admitir creadores de modelos semánticos descritas en el escenario de uso de preparación de datos de autoservicio. Es importante comprender que los creadores de modelos semánticos también pueden usar todas las funcionalidades de Power Query en Power BI Desktop. Pueden optar por agregar pasos de consulta a fin de transformar aún más los datos del flujo de datos o bien combinar la salida del flujo de datos con otros orígenes.
Tipos de tablas de flujo de datos
En el diagrama de escenarios se muestran tres tipos de tablas de flujo de datos (también conocidas como entidades).
- Tabla estándar: consulta un origen de datos externo, como una base de datos. En el diagrama de escenarios, las tablas estándar se muestran en el flujo de datos de almacenamiento provisional.
- Tabla vinculada: hace referencia a una tabla de otro flujo de datos. Una tabla vinculada no duplica los datos. En su lugar, permite la reutilización de una tabla estándar varias veces con distintos fines. Los visores del área de trabajo no visualizan las tablas vinculadas, ya que heredan los permisos del flujo de datos original. En el diagrama de escenarios, las tablas vinculadas se muestran dos veces:
- En el flujo de datos de transformación, para acceder a los datos del flujo de datos de almacenamiento provisional.
- En el flujo de datos final, para acceder a los datos del flujo de datos de transformación.
- Tabla calculada: realiza cálculos adicionales al usar un flujo de datos diferente como origen. Las tablas calculadas permiten personalizar la salida según convenga para los casos de uso individuales. En el diagrama de escenarios, las tablas calculadas se muestran dos veces:
- En el flujo de datos de transformación, para realizar transformaciones comunes.
- En el flujo de datos final, para entregar la salida a los creadores de modelos semánticos. Dado que las tablas calculadas vuelven a conservar los datos (después de la actualización del flujo de datos), los modeladores de datos pueden acceder a las tablas calculadas en el flujo de datos final. En este caso, debe concederse acceso a los modeladores de datos con el rol de visor del área de trabajo.
Nota
Hay muchas técnicas, patrones y procedimientos recomendados de diseño que pueden hacer que los flujos de datos pasen del autoservicio a estar listos para la empresa. Además, los flujos de datos de un área de trabajo con el modo de licencia establecido en Premium por usuario o Premium por capacidad pueden beneficiarse de características avanzadas. Las tablas vinculadas y las tablas calculadas (también conocidas como entidades) son dos características avanzadas esenciales para incrementar la reutilización de los flujos de datos.
Motor de proceso mejorado
El motor de proceso mejorado es una característica avanzada disponible con Power BI Premium.
Importante
En ocasiones, este artículo hace referencia a Power BI Premium o a sus suscripciones de capacidad (SKU P). Tenga en cuenta que Microsoft está consolidando actualmente las opciones de compra y retirando las SKU de Power BI Premium por capacidad. Los clientes nuevos y existentes deben considerar la posibilidad de comprar suscripciones de capacidad de Fabric (SKU F) en su lugar.
Para obtener más información, consulte Actualización importante sobre las licencias de Power BI Premium y Preguntas más frecuentes sobre Power BI Premium.
Este motor mejora el rendimiento de las tablas vinculadas (dentro del mismo área de trabajo) que hacen referencia (se vinculan) al flujo de datos. Para obtener la máxima ventaja del motor de proceso mejorado, haga lo siguiente:
- Divida los flujos de datos de almacenamiento provisional y de transformación.
- Use la misma área de trabajo para almacenar los flujos de datos de almacenamiento provisional y de transformación.
- Aplique operaciones complejas que puedan plegar las consultas al principio de los pasos de consulta. Clasificar por orden de prioridad las operaciones plegables puede ayudar a lograr el mejor rendimiento de actualización.
- Use la actualización incremental para reducir la duración de las actualizaciones y el consumo de recursos.
- Realice las pruebas de forma anticipada y frecuente durante la fase de desarrollo.
Actualización del modelo semántico y del flujo de datos
Un flujo de datos es un origen de datos para los modelos semánticos. En la mayoría de los casos, hay varias programaciones de actualización de datos implicadas: una para cada flujo de datos y otra para cada modelo semántico. Como alternativa, se puede usar DirectQuery desde el modelo semántico al flujo de datos, lo cual requiere Power BI Premium y el motor de proceso mejorado (que no se representa en el diagrama de escenarios).
Azure Data Lake Storage Gen2
Una cuenta de ADLS Gen2 es un tipo específico de cuenta de almacenamiento de Azure que tiene habilitado el espacio de nombres jerárquico. ADLS Gen2 tiene ventajas de rendimiento, administración y seguridad para operar cargas de trabajo analíticas. De forma predeterminada, los flujos de datos de Power BI usan el almacenamiento interno, que es una cuenta integrada de lago de datos administrada por el servicio Power BI. Opcionalmente, las organizaciones pueden traer su propio lago de datos mediante la conexión a una cuenta de ADLS Gen2 en su organización.
Estas son algunas de las ventajas de usar su propio lago de datos:
- Los usuarios (o procesos) pueden acceder directamente a los datos de flujo de datos almacenados en el lago de datos. Esto es útil cuando el flujo de datos se reutiliza fuera de Power BI. Por ejemplo, Azure Data Factory puede acceder a los datos del flujo de datos.
- Otras herramientas o sistemas pueden administrar los datos en el lago de datos. En este caso, Power BI puede consumir los datos en lugar de administrarlos (lo cual no se representa en el diagrama de escenarios).
Al usar tablas vinculadas o calculadas, asegúrese de que cada área de trabajo esté asignada a la misma cuenta de almacenamiento de ADLS Gen2.
Nota
Los datos de flujo de datos de ADLS Gen2 se almacenan en un contenedor específico de Power BI. Este contenedor se representa en el diagrama del escenario de uso de preparación de datos de autoservicio.
Configuración del portal de administración
Hay dos valores importantes que se administran en el portal de administración:
- Conexiones de Azure: la sección Conexiones de Azure del portal de administración incluye un valor para configurar una conexión a una cuenta de ADLS Gen2. Este valor permite que un administrador de Power BI traiga su propio lago de datos a los flujos de datos. Una vez configurado, las áreas de trabajo pueden usar esa cuenta de lago de datos para el almacenamiento.
- Almacenamiento de nivel de área de trabajo: un administrador de Power BI puede establecer permisos de almacenamiento de nivel de área de trabajo. Cuando se habilita, la configuración permite que los administradores del área de trabajo usen una cuenta de almacenamiento distinta a la establecida en el nivel de inquilino. Habilitar esta configuración resulta útil para las unidades de negocio descentralizadas que administran su propio lago de datos en Azure.
Instalación de la puerta de enlace
Normalmente, se requiere una puerta de enlace de datos local para conectarse a los orígenes de datos que residan en una red de organización privada o una red virtual.
Se requiere una puerta de enlace de datos en los casos siguientes:
- Para crear un flujo de datos en Power Query Online que se conecte a los datos privados de una organización.
- Para actualizar un flujo de datos que se conecte a los datos privados de una organización.
Sugerencia
Los flujos de datos requieren una puerta de enlace de datos centralizada en modo estándar. Al trabajar con flujos de datos, no se admite una puerta de enlace en modo personal.
Supervisión del sistema
El registro de actividad registra las actividades del usuario que se producen en el servicio Power BI. Los administradores de Power BI pueden usar los datos del registro de actividad recopilados para realizar auditorías que les ayuden a comprender los patrones de uso y adopción. El registro de actividad también es muy útil para respaldar los esfuerzos de gobernanza, las auditorías de seguridad y los requisitos de cumplimiento. En el escenario de preparación de datos avanzada, los datos del registro de actividad son útiles para realizar un seguimiento de la administración y el uso de los flujos de datos.
Contenido relacionado
Para ver otros escenarios útiles que le ayuden con las decisiones de implementación de Power BI, consulte el artículo Escenarios de uso de Power BI.