Interfaz de usuario del almacén de características del área de trabajo
Nota:
En esta documentación se describe el almacén de características del área de trabajo. Use esta página solo si el área de trabajo no está habilitada para el catálogo de Unity.
Databricks recomienda el uso de la ingeniería de características en Unity Catalog. El almacén de características del área de trabajo quedará en desuso en el futuro.
¿Por qué utilizar el almacén de características del espacio de trabajo?
El almacén de características del área de trabajo está totalmente integrado con otros componentes de Azure Databricks.
- Detectabilidad: La interfaz de usuario del almacén de características, a la que se puede acceder desde el área de trabajo de Databricks, le permite examinar y buscar características existentes.
- Linaje Al crear una tabla de características en Azure Databricks, los orígenes de datos usados para crear la tabla de características se guardan y son accesibles. Para cada característica de una tabla de características, también puede acceder a los modelos, cuadernos, trabajos y puntos de conexión que usan la característica.
- Integración con puntuación y servicio de modelos. Cuando se usan características del almacén de características para entrenar un modelo, el modelo se empaqueta con metadatos de características. Cuando se usa el modelo para la puntuación por lotes o la inferencia en línea, recupera automáticamente las características del almacén de características. El autor de la llamada no necesita conocerlos ni incluir lógica para buscar o combinar características para puntuar nuevos datos. Esto facilita mucho la implementación y las actualizaciones de modelo.
- Búsquedas a un momento dado. El almacén de características admite series temporales y casos de uso basados en eventos que requieren corrección en un momento dado.
¿Cómo funciona el almacén de características del área de trabajo?
El flujo de trabajo de aprendizaje automático típico que usa Feature Store sigue esta ruta:
- Escriba código para convertir datos sin procesar en características y crear un DataFrame de Spark que contenga las características deseadas.
- Escriba el DataFrame como una tabla de características del almacén de características del área de trabajo.
- Entrene un modelo mediante características del almacén de características. Al hacerlo, el modelo almacena las especificaciones de las características usadas para el entrenamiento. Cuando el modelo se usa para la inferencia, combina automáticamente las características de las tablas de características adecuadas.
- Registre el modelo en el registro de modelos.
Ya puede usar el modelo para realizar predicciones sobre los datos nuevos. En los casos de uso por lotes, el modelo recupera automáticamente las características que necesita del almacén de características.
Para casos de uso de servicio en tiempo real, publique las características en una tienda en línea. Consulte Almacenes en línea de terceros.
En el momento de la inferencia, el modelo lee las características calculadas previamente del almacén en línea y las une con los datos proporcionados en la solicitud de cliente para el punto de conexión de servicio del modelo.
Empezar a usar el almacén de características del área de trabajo
Para empezar, pruebe estos cuadernos de ejemplo. El cuaderno básico le mostrará cómo crear una tabla de características, usarla para entrenar un modelo y, a continuación, realizar la puntuación por lotes mediante la búsqueda automática de características. También le presenta la interfaz de usuario de ingeniería de características y muestra cómo se puede usar para buscar características y reconocer cómo se crean y usan las características.
Cuaderno de ejemplo del Almacén de características del área de trabajo básica
El cuaderno de ejemplo de impuestos ilustra el proceso de creación de características, su actualización y su uso para el entrenamiento del modelo y la inferencia por lotes.
Cuaderno de ejemplo del impuesto del Almacén de características del área de trabajo
Tipos de datos admitidos
Para obtener una lista de tipos admitidos, consulte Tipos de datos admitidos.