Reconocimiento de las entidades de nivel superior en el almacén de características gestionado
En este documento se describen las entidades de nivel superior del almacén de características gestionado.
Para obtener más información sobre el almacén de características gestionado, visite el recurso ¿Qué es almacén de características gestionado?
Almacén de características
Puede crear y administrar conjuntos de características a través de un almacén de características. Un conjunto de características es una colección de características. De forma opcional, puede asociar un almacén de materialización (conexión de almacén sin conexión) a un almacén de características para precalcular y conservar periódicamente las características. Este enfoque puede hacer que la recuperación de características durante el entrenamiento o la inferencia sea más rápida y fiable.
Para obtener más información sobre la configuración, visite el recurso Esquema YAML del almacén de características de la CLI (v2).
Entidades
Una entidad encapsula las columnas de índice para las entidades lógicas de una empresa. Algunos ejemplos de entidades son la entidad de cuenta, la entidad de cliente, etc. Las entidades ayudan a aplicar, como procedimiento recomendado, el uso de las mismas definiciones de columna de índice en los conjuntos de características que usan las mismas entidades lógicas.
Normalmente, las entidades se crean una vez y luego se reutilizan en distintos conjuntos de características. Las entidades tienen versiones.
Para obtener más información sobre la configuración, visite el recurso Esquema YAML de la entidad de características de la CLI (v2).
Especificación del conjunto de características y recurso
Un conjunto de características es una colección de características generadas por la aplicación de una transformación en los datos del sistema de origen. Los conjuntos de características encapsulan un origen, la función de transformación y la configuración de materialización. Actualmente se admite el código de transformación de características de PySpark.
En primer lugar, cree una especificación del conjunto de características. Una especificación de conjunto de características es una definición de conjunto de características independiente que se puede desarrollar y probar localmente.
Normalmente, una especificación del conjunto de características consta de estos parámetros:
source
: ¿A qué orígenes se asigna esta característica?transformation
(opcional): la lógica de transformación, aplicada a los datos de origen, para crear características. En nuestro caso, usamos Spark como proceso admitido.- Los nombres de las columnas que representan el
index_columns
y eltimestamp_column
: estos nombres son necesarios cuando los usuarios intentan combinar datos de características con datos de observación (más adelante) materialization_settings
(opcional): obligatorio si desea almacenar en caché los valores de las características en un almacén de materialización para una recuperación eficaz.
Después de desarrollar y probar la especificación del conjunto de características en el entorno local o de desarrollo, puede registrar la especificación como un recurso de conjunto de características con el almacén de características. El recurso del conjunto de características proporciona funcionalidades administradas, como el control de versiones y la materialización.
Para obtener más información sobre la especificación YAML del conjunto de características, visite el recurso Esquema YAML de la especificación del conjunto de características de la CLI (v2).
Especificación de recuperación de características
Una especificación de recuperación de características es una definición portátil de una lista de características asociada a un modelo. Puede ayudar a simplificar el desarrollo y la operacionalización del modelo de aprendizaje automático. Normalmente, una especificación de recuperación de características es una entrada para la canalización de entrenamiento. Ayuda a generar los datos de entrenamiento. Se puede empaquetar con el modelo. Además, el paso de inferencia lo usa para buscar las características. Integra todas las fases del ciclo de vida de aprendizaje automático. Los cambios en la canalización de entrenamiento e inferencia se pueden minimizar a medida que experimente e implemente.
El uso de una especificación de recuperación de características y el componente de recuperación de características integrado son opcionales. Puede usar directamente la API get_offline_features()
si lo desea.
Para obtener más información sobre la especificación YAML de recuperación de características, visite el recurso Esquema YAML de la especificación de recuperación de características de la CLI (v2).