Compartir a través de


Operacionalización de la malla de datos para la ingeniería de características controladas por dominios de inteligencia artificial y aprendizaje automático

La malla de datos ayuda a las organizaciones a pasar de un lago de datos o almacenamiento de datos centralizado a una descentralización de los datos de análisis controlada por un dominio y basada en cuatro principios: Propiedad del dominio, Datos como producto, Plataforma de datos de autoservicio y Gobernanza computacional federada. La malla de datos proporciona las ventajas de la propiedad de datos distribuida y una calidad y gobernanza mejoradas de los datos que acelera el valor empresarial y el tiempo para obtener rentabilidad para las organizaciones.

Implementación de la malla de datos

Una implementación típica de malla de datos incluye equipos de dominio con ingenieros de datos que crean canalizaciones de datos. El equipo mantiene almacenes de datos operativos y analíticos, como lagos de datos, almacenamiento de datos o almacén de lago de datos. Publican canalizaciones como productos de datos para que otros equipos de dominio o equipos de ciencia de datos las usen. Otros equipos usan los productos de datos mediante una plataforma central de gobernanza de datos, como se muestra en el diagrama siguiente.

Diagrama de la arquitectura que muestra una implementación de malla de datos.

La malla de datos es clara sobre cómo ayudan los productos de datos a los conjuntos de datos transformados y agregados para la inteligencia empresarial. Sin embargo, no es explícito sobre el enfoque que las organizaciones deben adoptar para crear modelos de inteligencia artificial y aprendizaje automático. Tampoco hay instrucciones sobre cómo estructurar sus equipos de ciencia de datos, la gobernanza del modelo de IA/ML y cómo compartir modelos o características de IA/ML entre equipos de dominio.

En la sección siguiente se describen un par de estrategias que las organizaciones pueden usar para desarrollar funcionalidades de inteligencia artificial y aprendizaje automático dentro de la malla de datos. Y puede ver una propuesta para una estrategia en la ingeniería de características o malla de características controladas por dominios.

Estrategias de inteligencia artificial y aprendizaje automático para la malla de datos

Una estrategia común es que la organización adopte equipos de ciencia de datos como consumidores de datos. Estos equipos acceden a varios productos de datos de dominio en la malla de datos según el caso de uso. Realizan la exploración de datos y la ingeniería de características para desarrollar y crear modelos de inteligencia artificial y aprendizaje automático. En algunos casos, los equipos de dominio también desarrollan sus propios modelos de inteligencia artificial y aprendizaje automático mediante el uso de sus datos y el producto de datos de otros equipos para ampliar y derivar nuevas características.

La ingeniería de características es el núcleo de la creación de modelos y suele ser compleja y requiere conocimientos especializados. La estrategia anterior puede llevar mucho tiempo, ya que los equipos de ciencia de datos necesitan analizar varios productos de datos. Es posible que no tengan conocimientos especializados completos para crear características de alta calidad. La falta de conocimientos especializados puede dar lugar a esfuerzos duplicados de ingeniería de características entre los equipos de dominio. También hay problemas como la reproducibilidad del modelo de IA/ML debido a conjuntos de características incoherentes entre equipos. Los equipos de ciencia de datos o de dominio deben actualizar continuamente las características a medida que se publican nuevas versiones de productos de datos.

Otra estrategia es que los equipos de dominio publiquen modelos de inteligencia artificial y aprendizaje automático en un formato como Open Neural Network Exchange (ONNX), pero estos resultados son cajas negras y la combinación de inteligencia artificial y modelos o características entre dominios sería compleja.

¿Hay alguna manera de descentralizar la creación de un modelo de inteligencia artificial y aprendizaje automático en los equipos de ciencia de datos y dominios para hacer frente a los desafíos? La estrategia de ingeniería de características o malla de características propuesta controlada por dominios es una opción.

Ingeniería de características o malla de características controladas por dominio

La estrategia de ingeniería de características o malla de características controlada por dominio ofrece un enfoque descentralizado para la creación de modelos de inteligencia artificial y aprendizaje automático en una configuración de malla de datos. En el diagrama siguiente se muestra la estrategia y cómo aborda los cuatro principios principales de la malla de datos.

Diagrama de una arquitectura que muestra la estrategia de malla de características e ingeniería de características controladas por dominios.

Ingeniería de características de propiedad del dominio por equipos de dominio

En esta estrategia, la organización empareja a científicos de datos con ingenieros de datos de un equipo de dominio para ejecutar una exploración de datos en datos limpios y transformados de, por ejemplo, un lago de datos. La ingeniería genera características que se almacenan en un almacén de características. El almacén de características es un repositorio de datos que proporciona características para el entrenamiento y la inferencia, y ayuda a realizar un seguimiento de la versión de características, los metadatos y las estadísticas. Esta funcionalidad permite a los científicos de datos del equipo de dominio trabajar estrechamente con expertos del dominio y mantener las características actualizadas a medida que cambian los datos en el dominio.

Datos como producto: Conjuntos de características

Las características generadas por el equipo de dominio, denominadas características locales o de dominio, se publican en el catálogo de datos de la plataforma de gobernanza de datos como conjuntos de características. Estos conjuntos de características los pueden consumir los equipos de ciencia de datos u otros equipos de dominio para crear modelos de inteligencia artificial y aprendizaje automático. Durante el desarrollo de modelos de inteligencia artificial y aprendizaje automático, los equipos de ciencia de datos o de dominio pueden combinar características de dominio para generar nuevas características, denominadas características compartidas o globales. Estas características compartidas se publican de nuevo en el catálogo de conjuntos de características para su consumo.

Plataforma de datos de autoservicio y gobernanza de computacional federada: estandarización y calidad de características

Esta estrategia puede llevar a adoptar una pila de tecnología diferente para canalizaciones de ingeniería de características y definiciones de características incoherentes entre los equipos de dominio. Los principios de la plataforma de datos de autoservicio garantizan que los equipos de dominio usen herramientas y infraestructura comunes para crear las canalizaciones de ingeniería de características y aplicar el control de acceso. El principio de gobernanza computacional federada garantiza la interoperabilidad de los conjuntos de características a través de la estandarización global y las comprobaciones de la calidad de las características.

El uso de la estrategia de ingeniería de características o malla de características controladas por dominios ofrece un enfoque descentralizado de creación de modelos de inteligencia artificial y aprendizaje automático que permite a las organizaciones reducir el tiempo de desarrollo de estos modelos. Esta estrategia ayuda a mantener la coherencia de las características entre los equipos de dominio. Esto evita la duplicación de esfuerzos y da como resultado características de alta calidad para unos modelos de inteligencia artificial y aprendizaje automático más precisos, lo que aumenta el valor para la empresa.

Implementación de la malla de datos

En este artículo se describen los conceptos sobre la puesta en marcha de un modelo de inteligencia artificial y aprendizaje automático en una malla de datos y no se tratan las herramientas ni las arquitecturas para crear estas estrategias. Azure tiene ofertas de almacén de características como Azure Databricks y Feathr de LinkedIn. Puede desarrollar conectores personalizados de Microsoft Purview para administrar y controlar los almacenes de características.

Pasos siguientes