Principios rectores del almacén de lago
Los principios rectores son reglas de nivel inicial que definen e influyen en la arquitectura. Para crear una instancia de almacén de lago de datos que ayude a su empresa a tener éxito ahora y en el futuro, el consenso entre las partes interesadas de su organización es fundamental.
Mantener los datos y ofrecer datos como productos de confianza
La selección de datos es esencial para crear un lago de datos de alto valor para BI y ML/IA. Trate los datos como un producto con una definición, un esquema y un ciclo de vida claros. Asegúrese de que la coherencia semántica y que la calidad de los datos mejore de capa a capa, para que los usuarios empresariales puedan confiar plenamente en los datos.
La selección de datos mediante el establecimiento de una arquitectura en capas (o de varios saltos) es un procedimiento recomendado crítico para el almacén de lago, ya que permite a los equipos de datos estructurar los datos según los niveles de calidad y definir roles y responsabilidades por capa. Un enfoque de estructura en capas común es:
- Capa de ingesta: los datos de origen se ingieren en el almacén de lago en la primera capa y deben conservarse allí. Cuando todos los datos descendentes se crean a partir de la capa de ingesta, es posible volver a generar las capas subsiguientes a partir de esta capa si es necesario.
- Capa mantenida: el propósito de la segunda capa es contener datos limpios, refinados, filtrados y agregados. El objetivo de esta capa es proporcionar una base sólida y confiable para análisis e informes en todos los roles y funciones.
- Capa final: la tercera capa se crea en torno a las necesidades empresariales o del proyecto; proporciona una vista diferente en forma de productos de datos a otras unidades de negocio o proyectos, y prepara los datos en torno a las necesidades de seguridad (por ejemplo, datos anónimos) u optimiza el rendimiento (con vistas agregadas previamente). Los productos de datos de esta capa se consideran la verdad para la empresa.
Las canalizaciones en todas las capas deben garantizar que se cumplen las restricciones de calidad de los datos, lo cual significa que los datos son precisos, completos, accesibles y coherentes en todo momento, incluso durante las lecturas y escrituras simultáneas. La validación de nuevos datos se produce en el momento de la entrada de datos en la capa mantenida y los siguientes pasos de ETL funcionan para mejorar la calidad de estos datos. La calidad de los datos debe mejorar a medida que avanzan los datos a través de las capas y, de este modo, la confianza en los datos aumenta exponencialmente desde un punto de vista empresarial.
Eliminación de silos de datos y minimización del movimiento de datos
No cree copias de un conjunto de datos con procesos empresariales que se basen en estas copias diferentes. Las copias pueden convertirse en silos de datos que queden fuera de la sincronización, lo cual conduce a una menor calidad del lago de datos y, por último, a información obsoleta o incorrecta. Además, para compartir datos con asociados externos, use un mecanismo de uso compartido empresarial que permita el acceso directo a los datos de forma segura.
Para distinguir claramente una copia de datos de un silo de datos: una copia independiente o desasignada de los datos no es perjudicial por sí misma. A veces es necesaria para aumentar la agilidad, la experimentación y la innovación. Sin embargo, si estas copias se vuelven operativas con productos de datos empresariales descendentes que dependen de ellos, se convierten en silos de datos.
Para evitar silos de datos, los equipos de datos suelen intentar crear un mecanismo o una canalización de datos para mantener todas las copias sincronizadas con el original. Dado que es poco probable que esto suceda de forma coherente, la calidad de los datos se degrada. Esto también puede provocar mayores costos y una pérdida significativa de confianza por parte de los usuarios. Por otro lado, varios casos de uso empresarial requieren el uso compartido de datos con asociados o proveedores.
Un aspecto importante es compartir de forma segura y confiable la versión más reciente del conjunto de datos. Las copias del conjunto de datos a menudo no son suficientes, ya que pueden quedar fuera de la sincronización rápidamente. Alternativamente, los datos se deben compartir mediante herramientas de uso compartido de datos empresariales.
Democratización de la creación de valor mediante autoservicio
El mejor lago de datos no puede proporcionar un valor suficiente si los usuarios no pueden acceder fácilmente a la plataforma ni a los datos de sus tareas de BI y ML/IA fácilmente. Reduzca las barreras para acceder a datos y plataformas para todas las unidades de negocio. Considere la posibilidad de unos procesos de administración de datos sencillos y proporcione acceso de autoservicio para la plataforma y los datos subyacentes.
Las empresas que hayan pasado correctamente a una cultura controlada por los datos saldrán adelante. Esto significa que cada unidad de negocio deriva sus decisiones de los modelos analíticos o del análisis de sus propios datos proporcionados centralmente. Para los consumidores, los datos deben ser fácilmente reconocibles y accesibles de forma segura.
Un buen concepto para los productores de datos es pensar en “los datos como un producto”: los datos se ofrecen y mantienen mediante una unidad de negocio o un socio empresarial como un producto y los consumen otras partes con un control de permisos adecuado. En lugar de confiar en un equipo central y en procesos de solicitud potencialmente lentos, estos productos de datos deben crearse, ofrecerse, detectarse y consumirse en una experiencia de autoservicio.
Sin embargo, no es solo los datos lo que importa. La democratización de los datos requiere disponer de las herramientas adecuadas para permitir que todos los usuarios produzcan o consuman y comprendan los datos. Para ello, necesita que el almacén de lago de datos sea una plataforma moderna de datos e inteligencia artificial que proporcione la infraestructura y las herramientas para crear productos de datos sin duplicar el esfuerzo de configurar otra pila de herramientas.
Adopción de una estrategia de gobernanza de datos para toda la organización
Los datos son un recurso crítico de cualquier organización, pero no se puede conceder a todos los usuarios acceso a todos los datos. El acceso a datos debe administrarse activamente. El control de acceso, la auditoría y el seguimiento del linaje son clave para el uso correcto y seguro de los datos.
La gobernanza de datos es un tema amplio. El almacén de datos cubre las siguientes dimensiones:
Calidad de los datos
El requisito previo más importante para disponer de informes correctos y significativos, resultados de análisis y modelos son unos datos de alta calidad. La garantía de calidad (QA) debe integrarse en todos los pasos de la canalización. Algunos ejemplos de cómo implementarlo incluyen tener contratos de datos, acuerdos de nivel de servicio para reuniones, mantener los esquemas estables y evolucionarlos de forma controlada.
Catálogo de datos
Otro aspecto importante es la detección de datos: los usuarios de todas las áreas empresariales, especialmente en un modelo de autoservicio, deben ser capaces de detectar los datos relevantes fácilmente. Por lo tanto, una instancia de almacén de lago requiere un catálogo de datos que abarque todos los datos relevantes para la empresa. Los objetivos principales de un catálogo de datos son los siguientes:
- Garantizar que se llama y declara uniformemente el mismo concepto empresarial en toda la empresa. Puede pensar en ello como un modelo semántico en la capa seleccionada y final.
- Realizar un seguimiento preciso del linaje de los datos para que los usuarios puedan explicar cómo llegaron estos datos a su forma y diseño actuales.
- Mantener unos metadatos de alta calidad, lo cual es tan importante como los propios datos para el uso adecuado de los datos.
Control de acceso
A medida que la creación de valores a partir de los datos del almacén de datos se produce en todas las áreas empresariales, el almacén de datos debe construirse con seguridad como ciudadano de primera clase. Las empresas pueden tener una directiva de acceso a datos más abierta o seguir estrictamente el principio de privilegios mínimos. Independientemente de ello, los controles de acceso a datos deben estar en vigor en cada capa. Es importante implementar esquemas de permisos ajustados desde el principio (control de acceso de nivel de columna y fila, control de acceso basado en roles o basado en atributos). Las empresas pueden empezar con reglas menos estrictas. Pero a medida que crece la plataforma de almacén de lago, todos los mecanismos y procesos para un régimen de seguridad más sofisticado ya deberían estar en vigor. Además, todos los accesos a los datos del almacén de lago deben regirse mediante los registros de auditoría desde el principio.
Fomento de interfaces abiertas y formatos abiertos
Las interfaces abiertas y los formatos de datos son cruciales para la interoperabilidad entre el almacén de lago y otras herramientas. Simplifican la integración con sistemas existentes y también abren un ecosistema de asociados que han integrado sus herramientas con la plataforma.
Las interfaces abiertas son fundamentales para habilitar la interoperabilidad y evitar la dependencia de cualquier proveedor único. Tradicionalmente, los proveedores creaban tecnologías propias e interfaces cerradas que limitaban a las empresas la manera de poder almacenar, procesar y compartir datos.
La creación de interfaces abiertas ayuda a crear para el futuro:
- Aumenta la longevidad y la portabilidad de los datos para poder usarlos con más aplicaciones y para más casos de uso.
- Abre un ecosistema de asociados que pueden aprovechar rápidamente las interfaces abiertas para integrar sus herramientas en la plataforma de almacén de lago.
Por último, al estandarizar los formatos abiertos para los datos, los costos totales serán significativamente menores; puede acceder a los datos directamente en el almacenamiento en la nube sin necesidad de canalizarlos a través de una plataforma propia que pueda suponer altos costos de cálculo y salida.
Compilación para escalar y optimizar el rendimiento y el costo
Los datos inevitablemente continúan creciendo y se vuelven más complejos. Para equipar a su organización para futuras necesidades, su almacén de lago debe ser escalable. Por ejemplo, debe poder agregar nuevos recursos fácilmente a petición. Los costos deben limitarse al consumo real.
Los procesos de ETL estándar, los informes empresariales y los paneles suelen tener necesidad de recursos predecibles en términos de memoria y proceso. Sin embargo, los nuevos proyectos, las tareas estacionales o los enfoques modernos, como el entrenamiento del modelo (renovación, previsión, mantenimiento) generan picos de necesidad de recursos. Para que una empresa pueda realizar todas estas cargas de trabajo, se necesita una plataforma escalable para la memoria y el cálculo. Los nuevos recursos se deben agregar fácilmente a petición y solo el consumo real debe generar costos. Una vez que se supera el pico, los recursos se pueden liberar de nuevo y los costes se reducen en consecuencia. A menudo, esto se conoce como escalado horizontal (más o menos nodos) y escalado vertical (nodos más grandes o más pequeños).
El escalado también permite a las empresas mejorar el rendimiento de las consultas seleccionando nodos con más recursos o clústeres con más nodos. Pero en lugar de proporcionar de forma permanente máquinas y clústeres grandes, solo se pueden aprovisionar a petición durante el tiempo necesario para optimizar el rendimiento general a la relación de costos. Otro aspecto de la optimización es el almacenamiento frente a los recursos de proceso. Dado que no hay ninguna relación clara entre el volumen de los datos y las cargas de trabajo que usan estos datos (por ejemplo, usar solo partes de los datos o realizar cálculos intensivos en datos pequeños), es recomendable definir una plataforma de infraestructura que separe los recursos de proceso y almacenamiento.