Compartir a través de


¿Qué es el almacén de características gestionado?

Para el almacén de funciones gestionado, queremos que profesionales del aprendizaje automático como usted desarrollen y produzcan funciones de forma independiente. Proporcione una especificación del conjunto de características. El sistema se encarga de servir, asegurar y supervisar las funciones. Esto le libera de la sobrecarga de configuración y gestión de la canalización de ingeniería de funciones subyacente.

Gracias a la integración con nuestro almacén de características en todo el ciclo de vida de aprendizaje automático, podrás experimentar y enviar modelos más rápidamente, aumentar la fiabilidad de los modelos y reducir los costes operativos. La redefinición de la experiencia de aprendizaje automático proporciona estas ventajas.

Para obtener más información sobre las entidades de nivel superior en el almacén de características, incluidas las especificaciones del conjunto de características, consulte Descripción de las entidades de nivel superior en el almacén de características gestionado.

¿Qué son las características?

Una característica actúa como los datos de entrada del modelo. Para los casos de uso basados en datos en un contexto empresarial, las características suelen ser transformaciones de datos históricos (agregados simples, agregados de ventana, transformaciones de nivel de fila, etc.). Por ejemplo, imagine un modelo de aprendizaje automático sobre el abandono de clientes. Las entradas del modelo podrían incluir datos de interacción con el cliente como 7day_transactions_sum (número de transacciones en los últimos 30 días) o 7day_complaints_sum (número de reclamaciones en los últimos 7 días). Ambas funciones de agregado se procesan en los datos anteriores de siete días.

Problemas resueltos por el almacén de características

Para comprender mejor el almacén de características gestionado, primero se deben comprender los problemas que puede resolver el almacén de características.

  • El almacén de características permite buscar y reutilizar características creadas por el equipo para evitar el trabajo redundante y ofrecer predicciones coherentes.

  • Puedes crear nuevas características con la capacidad de las transformaciones, para abordar los requisitos de ingeniería de características de una manera ágil y dinámica.

  • El sistema pone en funcionamiento y administra las canalizaciones de ingeniería de características necesarias para la transformación y la materialización, de modo que el equipo se libere de los aspectos operativos.

  • Puedes usar la misma canalización de características, que se usó originalmente para la generación de datos de entrenamiento, para un nuevo uso con fines de inferencia para proporcionar coherencia en línea o sin conexión y evitar el sesgo de entrenamiento o servicio.

Compartir el almacén de características gestionado

Diagrama que muestra cómo compartir el almacén de características entre varios usuarios y áreas de trabajo

El almacén de características es un nuevo tipo de área de trabajo que pueden usar varias áreas de trabajo del proyecto. Puede consumir características de entornos basados en Spark que no sean Azure Machine Learning, como Azure Databricks. También puede llevar a cabo el desarrollo local y pruebas de características.

Introducción al almacén de características

Diagrama que representa una arquitectura conceptual de Azure Machine Learning

En el caso del almacén de características gestionado, se proporciona una especificación del conjunto de características. A continuación, el sistema controla el servicio, la protección y la supervisión de las características. Una especificación del conjunto de características contiene definiciones de características y lógica de transformación opcional. También puede proporcionar mediante declaración la configuración de materialización para materializar a un almacén sin conexión (ADLS Gen2). El sistema genera y administra las canalizaciones de materialización de características subyacentes. Puede usar el catálogo de características para buscar, compartir y reutilizar características. Con la API de servicio, los usuarios pueden buscar características para generar datos para el entrenamiento y la inferencia. La API de servicio puede extraer los datos directamente desde el origen o desde un almacén de materialización sin conexión para la inferencia por lotes o de entrenamiento. El sistema también proporciona funcionalidades para supervisar trabajos de materialización de características.

Ventajas de usar el almacén de características gestionado de Azure Machine Learning

  • Aumenta la agilidad en el envío del modelo (creación de prototipos a la operacionalización):
    • Descubrir y reutilizar características en lugar de crear desde cero
    • Experimentación más rápida con desarrollo y pruebas locales de nuevas características con compatibilidad con la transformación y uso de especificaciones de recuperación de características como un tejido conectivo en el flujo de MLOps
    • Materialización declarativa y reposición
    • Construcciones precompiladas: componente de recuperación de características y especificación de recuperación de características
  • Mejora la fiabilidad de los modelos de ML
    • Definir características coherente entre la unidad de negocio u organización
    • Los conjuntos de características tienen versiones e inmutables: la versión más reciente de los modelos puede usar versiones de características más recientes sin interrumpir la versión anterior del modelo
    • Configurar la materialización del conjunto de características
    • La materialización evita el sesgo de entrenamiento o servicio
    • La recuperación de características admite combinaciones temporales puntuales (también conocidas como viajes en el tiempo) para evitar la pérdida de datos.
  • Reduce el coste
    • La reutilización de características creadas por otros usuarios de la organización
    • La materialización y la supervisión son administradas por el sistema: se evita el coste de ingeniería

Descubrimiento y administración de características

El almacén de características gestionado proporciona estas funcionalidades para la detección y administración de características:

  • Características de búsqueda y reutilización: puedes buscar y reutilizar características en los almacenes de características
  • Compatibilidad con el control de versiones: los conjuntos de características son versionables e inmutables, lo que permite administrar de forma independiente el ciclo de vida del conjunto de características. Puedes implementar nuevas versiones de modelo con diferentes versiones de características y evitar interrupciones de la versión anterior del modelo
  • Ver el coste a nivel de almacén de características: el coste principal asociado al uso del almacén de características son los trabajos de materialización de Spark administrados. Puedes ver el coste a nivel de almacén de características
  • Uso del conjunto de características: puede ver la lista de modelos registrados que utilizan los conjuntos de características.

Transformación de características

Transformar características implica modificar las características de un conjunto de datos para mejorar el rendimiento del modelo. El código de transformación, definido en una especificación de características, controla la transformación de las características. Para una experimentación más rápida, el código de transformación realiza cálculos sobre los datos de origen y permite el desarrollo local y las pruebas de transformaciones.

El almacén de características gestionado proporciona estas funcionalidades de transformación de características:

  • Soporte para transformaciones personalizadas: puedes escribir un transformador de Spark para desarrollar características con transformaciones personalizadas, como agregados basados en ventanas, por ejemplo
  • Compatibilidad con características precalculadas: puedes incluir características precalculadas en el almacén de características y servirlas sin escribir código
  • Desarrollo y pruebas locales: con un entorno de Spark, puede desarrollar y probar completamente conjuntos de características localmente

Materialización de características

La materialización implica el cálculo de valores de características para una ventana de características determinada y la persistencia de esos valores en un almacén de materialización. Ahora, los datos de características se pueden recuperar de forma más rápida y fiable para fines de entrenamiento e inferencia.

  • Canalizar materialización de características administradas: especifica mediante declaración la programación de materialización y el sistema se encarga de programar, precalcular y materializar los valores en el almacén de materialización
  • Compatibilidad con reposición: puede realizar la materialización a petición de conjuntos de características para una ventana de características determinada
  • Compatibilidad de Spark administrada para materialización: el Spark administrado por Azure Machine Learning (en instancias de proceso sin servidor) ejecuta los trabajos de materialización. Libera la configuración y la administración de la infraestructura de Spark.

Nota:

Actualmente se admite la materialización de la tienda sin conexión (ADLS Gen2) y la tienda en línea (Redis).

Recuperación de características

Azure Machine Learning incluye un componente integrado que controla la recuperación de características sin conexión. Permite el uso de las características de los pasos de inferencia por lotes y entrenamiento de un trabajo de canalización de Azure Machine Learning.

El almacén de características gestionado proporciona estas funcionalidades de recuperación de características:

  • Generación declarativa de datos de entrenamiento: mediante el componente de recuperación de características integrado, se pueden generar datos de entrenamiento en las canalizaciones sin escribir ningún código
  • Generación declarativa de datos de inferencia por lotes: con el mismo componente de recuperación de características integrado, se pueden generar datos de inferencia por lotes
  • Recuperación de características mediante programación: también se puede usar el SDK de Python get_offline_features()para generar los datos de entrenamiento o inferencia

Supervisión

El almacén de características gestionado proporciona las siguientes funcionalidades de supervisión:

  • Estado de los trabajos de materialización: puede ver el estado de los trabajos de materialización mediante la interfaz de usuario, la CLI o el SDK
  • Notificación sobre trabajos de materialización: puede configurar notificaciones por correo electrónico sobre los distintos estados de los trabajos de materialización

Seguridad

El almacén de características gestionado proporciona las siguientes funcionalidades de seguridad:

  • RBAC: control de acceso basado en rol para el almacén de características, el conjunto de características y las entidades.
  • Consulta entre almacenes de características: se pueden crear varios almacenes de características con diferentes accesos para los usuarios, pero no permitir consultas (por ejemplo, generar datos de entrenamiento) desde varios almacenes de características

Pasos siguientes