Democratización de datos con la invención digital
El carbón, el aceite y el potencial humano fueron los tres recursos más importantes durante la revolución industrial. Estos recursos creaban compañías, movían los mercados y, en última instancia, cambiaban países. En la economía digital, hay tres recursos igualmente importantes para la innovación: datos, dispositivos y potencial humano. Estos recursos presentan un fantástico potencial de innovación. En cualquier trabajo de innovación de la era moderna, los datos son el nuevo aceite.
En todas las empresas hay datos que se pueden utilizar para detectar y satisfacer las necesidades del cliente. Desafortunadamente, el proceso de minería con esos datos para impulsar la innovación puede ser costoso y lento, por lo que no se detectan las necesidades y no se crean soluciones. La democratización de datos puede resolver este problema.
¿Qué es la democratización de datos? Es el proceso de poner estos datos en las manos adecuadas para impulsar la innovación. Esta democratización puede tener varias formas, pero generalmente incluye soluciones para datos sin procesar ingeridos o integrados, centralización de datos, uso compartido de datos y protección de datos. Cuando los datos se democratizan, los expertos de la empresa pueden usarlos para formar y probar hipótesis. En muchos casos, los equipos de adopción de la nube pueden crear con empatía con el cliente usando solo datos, lo que permite satisfacer rápidamente las necesidades de los clientes.
Formas de democratizar los datos
Hay varias maneras de democratizar los datos, pero la mayoría incluyen métodos de recopilación, centralización, gobernanza y uso compartido de los datos. En las secciones siguientes se describen algunos de estos métodos. Al crear una solución para una hipótesis de cliente, debe evaluar si se deben democratizar los datos, hasta qué punto y cómo hacerlo.
Compartir datos
Cuando crea con empatía con el cliente, son las necesidades de este las que sirven de guía para la solución. Si la necesidad son datos, la solución permite al cliente interrogar, analizar e informar sobre los datos directamente, sin necesidad de ninguna ayuda del personal de TI.
Muchas innovaciones de gran éxito comienzan como un producto mínimo viable que proporciona datos al cliente. Un producto mínimo viable es una versión del producto que tiene únicamente las suficientes características para que el cliente la pueda usar. Muestra el posible potencial del producto para recopilar comentarios del cliente. En este modelo, un empleado es el consumidor de los datos. Ese empleado utiliza datos para ayudar al cliente. Cada vez que el cliente se pone en contacto con el soporte manual, se puede probar y validar una hipótesis. Este enfoque suele ser un medio rentable de probar una hipótesis centrada en el cliente antes de realizar grandes inversiones en soluciones integradas.
Las principales herramientas para compartir datos directamente con los consumidores de datos incluyen informes de autoservicio o datos insertados en otras experiencias mediante herramientas como Power BI.
Nota:
Antes de compartir datos, asegúrese de haber leído las secciones siguientes. El uso compartido de datos puede requerir gobernanza para proteger los datos. Además, si los datos se distribuyen en varias nubes, podría requerir centralización. Si los datos residen en aplicaciones, debe recopilarlos para compartirlos.
Gobernanza de los datos
El uso compartido de datos puede generar rápidamente un producto viable mínimo que puede usar en las conversaciones con los clientes. No obstante, para convertir los datos compartidos en conocimientos procesables, suele hacer falta algo más.
Una vez que se ha validado una hipótesis mediante el uso compartido de datos, la siguiente fase de desarrollo suele ser la gobernanza de los datos.
La gobernanza de los datos es un tema amplio que podría requerir su propio marco dedicado. Un tema que cae fuera del ámbito de Cloud Adoption Framework.
Hay varios aspectos de la gobernanza de datos que se deben tener en cuenta en cuanto valide la hipótesis del cliente. Por ejemplo:
- ¿Son los datos compartidos confidenciales? Los datos se deben clasificar antes de hacer cualquier uso compartido público para proteger los intereses de los clientes y de la empresa.
- Si los datos son confidenciales, ¿se han protegido? La protección de los datos confidenciales es imprescindible para los datos democratizados. La carga de trabajo del ejemplo que se analiza en Soluciones de protección de datos proporciona algunas referencias para proteger los datos.
- ¿Los datos están catalogados? Identificar la naturaleza de los datos compartidos ayuda en la administración de datos a largo plazo. Las herramientas para documentar datos, como Azure Data Catalog, hacen que este proceso sea mucho más fácil en la nube. El asesoramiento sobre la anotación de los datos y la documentación de los orígenes de datos puede acelerar el proceso.
Si la democratización de los datos es importante para una hipótesis centrada en el cliente, asegúrese de que la gobernanza de los datos compartidos esté en el plan de lanzamiento. Esto protege a los clientes, los consumidores de datos y la empresa.
Centralización de los datos
La centralización de datos conduce a informes más significativos, garantiza que los mismos datos estén disponibles en toda la organización y aumenta la rentabilidad de la inversión. Cuando los datos están dispersos en un entorno de TI, las oportunidades de innovación pueden ser muy limitadas, costosas y lentas. La nube proporciona nuevas oportunidades para centralizar los datos. Cuando es necesario centralizar varios orígenes de datos para crear con empatía con el cliente, la nube puede acelerar la prueba de las hipótesis.
Precaución
La centralización de los datos representa un punto de riesgo en cualquier proceso de innovación. Cuando la centralización de datos supone una demanda técnica, y no una fuente de valor del cliente, se recomienda retrasar la centralización hasta que se hayan validado las hipótesis del cliente.
Para centralizar, necesita un almacén de datos adecuado para los datos centralizados. El procedimiento recomendado es establecer un almacenamiento de datos en la nube. Esta opción escalable proporciona una ubicación central para todos los datos. Este tipo de solución está disponible en las opciones de procesamiento analítico en línea (OLAP) o de macrodatos.
Las arquitecturas de referencia de las soluciones OLAP y de macrodatos pueden ayudarle a elegir la solución de centralización más adecuada en Azure. Si se requiere una solución híbrida, la arquitectura de referencia para la extensión de los datos locales también puede ayudar a acelerar el desarrollo de soluciones.
Importante
Para algunas necesidades y soluciones de los clientes, un enfoque simple podría ser suficiente. El arquitecto de la nube debe desafiar al equipo para que considere soluciones de menor costo para validar las hipótesis del cliente, especialmente durante las primeras fases del desarrollo. En esta sección sobre la recopilación de datos se tratan algunos escenarios que podrían sugerir una solución diferente para su situación.
Recopilación de datos
Existen principalmente dos maneras de recopilar datos: integración e ingesta.
Integración: los datos existentes que ya residen en un almacén de datos se pueden integrar en el almacén de datos centralizado mediante técnicas tradicionales de movimiento de datos. Esto es especialmente frecuente en escenarios que implican el almacenamiento de datos en varias nubes. Estas técnicas implican la extracción de los datos del almacén de datos existente y su carga posterior en el almacén de datos central. En algún momento de este proceso, los datos suelen transformarse para facilitar su uso y para que sean más pertinentes en el almacén central.
Las herramientas basadas en la nube han convertido estas técnicas en herramientas de pago por uso, lo que reduce las barreras iniciales para la centralización y recopilación de los datos. Herramientas como Azure Database Migration Service y Azure Data Factory son dos ejemplos. La arquitectura de referencia para una factoría de datos con un almacén de datos OLAP es un ejemplo de este tipo de solución.
Ingesta: algunos datos no residen en un almacén de datos existente. Cuando estos datos transitorios son una fuente principal de innovación, se deben tener en cuenta enfoques alternativos. Los datos transitorios se pueden encontrar en diversos orígenes, tales como aplicaciones, API, flujos de datos, dispositivos IoT, cadenas de bloques, caché de aplicaciones, contenido multimedia o incluso archivos planos.
Puede integrar estas diversas formas de datos en un almacén de datos central en una solución OLAP o de macrodatos. Sin embargo, en las primeras iteraciones del ciclo de creación-medición-aprendizaje, una solución de procesamiento transaccional en línea (OLTP) puede ser suficiente para validar la hipótesis de un cliente. Las soluciones OLTP no son la mejor opción en todos los escenarios de informes. Sin embargo, al crear con empatía con el cliente, es más importante centrarse en las necesidades del cliente que en las decisiones sobre herramientas técnicas. Una vez validada la hipótesis del cliente a escala, puede ser necesaria una plataforma más adecuada. La arquitectura de referencia de los almacenes de datos OLTP puede ayudar a determinar qué almacén de datos es el más adecuado para la solución.
Virtualización: La integración y la ingesta de datos a veces pueden ralentizar la innovación. Si ya hay disponible una solución de virtualización de datos, podría representar un enfoque más razonable. La ingesta y la integración pueden duplicar los requisitos de almacenamiento y desarrollo, agregar latencia de datos, aumentar el área expuesta a ataques, desencadenar problemas de calidad y aumentar el trabajo de gobernanza. La virtualización de los datos es una alternativa más actual que deja los datos originales en una ubicación única y crea consultas de paso a través o almacenadas en caché de los datos de origen.
SQL Server 2017 y Azure SQL Data Warehouse admiten PolyBase, que es el enfoque de virtualización de datos que se usa con más frecuencia en Azure.
Pasos siguientes
Cuando ya se disponga de una estrategia de democratización de los datos, lo siguiente es evaluar los enfoques relacionados con el desarrollo de la aplicación.