Operacionalización de la malla de datos para la ingeniería de características controlada por dominios de inteligencia artificial y aprendizaje automático
La malla de datos ayuda a las organizaciones a pasar de un lago de datos centralizado o un almacenamiento de datos a una descentralización impulsada por el dominio de datos analíticos basada en cuatro principios: Propiedad de dominios, Datos como producto, Plataforma de datos de autoservicio y Gobernanza computacional federalizada. La malla de datos proporciona las ventajas de la propiedad de datos distribuida y una calidad y gobernanza mejoradas de los datos que acelera el valor empresarial y el tiempo para obtener rentabilidad para las organizaciones.
Implementación de malla de datos
Una implementación típica de malla de datos incluye equipos de dominio con ingenieros de datos que crean canalizaciones de datos. El equipo mantiene almacenes de datos operativos y analíticos, como lagos de datos, almacenes de datos o almacenes de lago de datos. Publican canalizaciones como productos de datos para que otros equipos de dominio o de ciencia de datos las usen. Otros equipos consumen los productos de datos mediante una plataforma central de gobernanza de datos, como se muestra en el diagrama siguiente.
La malla de datos clarifica cómo los productos de datos proporcionan conjuntos de datos transformados y agregados para la inteligencia empresarial. Pero no es explícito sobre el enfoque que las organizaciones deben adoptar para crear modelos de INTELIGENCIA artificial y aprendizaje automático. Tampoco hay instrucciones sobre cómo estructurar sus equipos de ciencia de datos, la gobernanza del modelo de IA/ML y cómo compartir modelos o características de IA/ML entre los equipos de dominio.
En la sección siguiente se describen un par de estrategias que las organizaciones pueden usar para desarrollar funcionalidades de inteligencia artificial y aprendizaje automático dentro de la malla de datos. Y puede ver una propuesta para una estrategia en la ingeniería de características o malla de características controladas por dominios.
Estrategias de inteligencia artificial y aprendizaje automático para la malla de datos
Una estrategia común es que la organización adopte equipos de ciencia de datos como consumidores de datos. Estos equipos acceden a diversos productos de datos de dominio en la malla de datos de acuerdo con el caso de uso. Realizan la exploración de datos y la ingeniería de características para desarrollar y crear modelos de INTELIGENCIA ARTIFICIAL y APRENDIZAJE automático. En algunos casos, los equipos de dominio también desarrollan sus propios modelos de inteligencia artificial y aprendizaje automático mediante sus datos y los productos de datos de otros equipos para ampliar y derivar nuevas características.
Ingeniería de características es el núcleo de la creación de modelos y suele ser complejo y requiere experiencia en el dominio. Esta estrategia puede llevar mucho tiempo, ya que los equipos de ciencia de datos necesitan analizar varios productos de datos. Es posible que no tengan conocimientos completos de dominio para crear características de alta calidad. La falta de conocimiento del dominio puede provocar esfuerzos duplicados de ingeniería de características entre los equipos de dominio. Además, problemas como la reproducibilidad del modelo de AI/ML debido a conjuntos de características incoherentes entre equipos. Los equipos de ciencia de datos o dominio deben actualizar continuamente las características a medida que se publican nuevas versiones de productos de datos.
Otra estrategia es que los equipos de dominio publiquen modelos de INTELIGENCIA ARTIFICIAL y APRENDIZAJE automático en un formato como Open Neural Network Exchange (ONNX), pero estos resultados son cuadros negros y la combinación de modelos o características de IA/ML entre dominios sería difícil.
¿Hay alguna manera de descentralizar el modelo de inteligencia artificial y aprendizaje automático en los equipos de ciencia de datos y dominios para abordar los desafíos? La estrategia de ingeniería de características o malla de características propuesta controlada por dominios es una opción.
Ingeniería de características o malla de características controladas por dominio
La ingeniería de características controlada por dominio o la estrategia de malla de características ofrece un enfoque descentralizado para la creación de modelos de INTELIGENCIA ARTIFICIAL y APRENDIZAJE automático en una configuración de malla de datos. En el diagrama siguiente se muestra la estrategia y cómo aborda los cuatro principios principales de la malla de datos.
Ingeniería de funciones de propiedad de dominio por parte de los equipos de dominio
En esta estrategia, la organización empareja a los científicos de datos con ingenieros de datos de un equipo de dominio para ejecutar la exploración de datos en datos limpios y transformados, por ejemplo, un lago de datos. La ingeniería genera características que se almacenan en un almacén de características. Un almacén de características es un repositorio de datos que proporciona características para entrenamiento e inferencia y ayuda a realizar un seguimiento de las versiones, metadatos y estadísticas de características. Esta funcionalidad permite a los científicos de datos del equipo de dominio trabajar estrechamente con expertos en el dominio y mantener las características actualizadas a medida que cambian los datos en el dominio.
Datos como producto: conjuntos de características
Las características generadas por el equipo de dominio, conocidas como características locales o de dominio, se publican en el catálogo de datos de la plataforma de gobernanza de datos como conjuntos de características. Estos conjuntos de características los consumen los equipos de ciencia de datos u otros equipos de dominio para crear modelos de INTELIGENCIA ARTIFICIAL y APRENDIZAJE automático. Durante el desarrollo de modelos de inteligencia artificial y aprendizaje automático, los equipos de ciencia de datos o dominio pueden combinar características de dominio para generar nuevas características, denominadas características compartidas o globales. Estas características compartidas se publican de nuevo en el catálogo de conjuntos de características para su consumo.
Plataforma de datos de autoservicio y gobernanza de cálculo federado: estandarización de características y calidad
Esta estrategia puede dar lugar a la adopción de un stack tecnológico diferente para procesos de ingeniería de características y definiciones de funcionalidades incoherentes entre los equipos de dominio. Los principios de la plataforma de datos de autoservicio garantizan que los equipos de dominio usen herramientas y infraestructura comunes para crear las canalizaciones de ingeniería de características y aplicar el control de acceso. El principio de gobernanza computacional federada garantiza la interoperabilidad de los conjuntos de características a través de la normalización global y las comprobaciones sobre la calidad de las características.
El uso de la ingeniería de características controlada por dominio o la estrategia de malla de características ofrece un enfoque de creación de modelos descentralizados de inteligencia artificial y aprendizaje automático para las organizaciones a fin de ayudar a reducir el tiempo en el desarrollo de modelos de INTELIGENCIA artificial y aprendizaje automático. Esta estrategia ayuda a mantener las características coherentes entre los equipos de dominio. Evita la duplicación de esfuerzos y da como resultado características de alta calidad para modelos de INTELIGENCIA ARTIFICIAL/ML más precisos, lo que aumenta el valor para la empresa.
Implementación de malla de datos en Azure
En este artículo se describen los conceptos sobre la operacionalización de la inteligencia artificial o el aprendizaje automático en una malla de datos y no se tratan las herramientas ni las arquitecturas para crear estas estrategias. Azure tiene ofertas de almacén de características como Azure Databricks y Feathr de LinkedIn. Puede desarrollar conectores personalizados de Microsoft Purview para administrar y controlar los almacenes de características.