Compartir a través de


Ingeniería de características y servicios

En esta página se describe la ingeniería de características y las funcionalidades de servicio de las áreas de trabajo habilitadas para Unity Catalog. Si el área de trabajo no está habilitada para Unity Catalog, consulte Almacén de características del área de trabajo (heredado).

¿Por qué usar Databricks como almacén de características?

Con la plataforma de Data Intelligence de Databricks, todo el flujo de trabajo de entrenamiento del modelo tiene lugar en una sola plataforma:

  • Canalizaciones de datos que ingieren datos sin procesar, crean tablas de características, entrenan modelos y realizan la inferencia por lotes. Al entrenar y registrar un modelo mediante la ingeniería de características en Unity Catalog, el modelo se empaqueta con metadatos de características. Cuando se usa el modelo para la puntuación por lotes o la inferencia en línea, se recuperan automáticamente los valores de características. El autor de la llamada no necesita conocerlos ni incluir lógica para buscar o combinar características para puntuar nuevos datos.
  • Los puntos de conexión de servicio de modelos y características que están disponibles con un solo clic y que proporcionan milisegundos de latencia.
  • Supervisión de datos y modelos.

Además, la plataforma proporciona lo siguiente:

  • Detección de características. Puede examinar y buscar características en la interfaz de usuario de Databricks.
  • Gobernanza. Las tablas de características, las funciones y los modelos se rigen por Unity Catalog. Al entrenar un modelo, hereda los permisos de los datos en los que se entrenó.
  • Linaje Al crear una tabla de características en Azure Databricks, los orígenes de datos usados para crear la tabla de características se guardan y son accesibles. Para cada característica de una tabla de características, también puede acceder a los modelos, cuadernos, trabajos y puntos de conexión que usan la característica.
  • Acceso entre áreas de trabajo. Las tablas de características, las funciones y los modelos están disponibles automáticamente en cualquier área de trabajo que tenga acceso al catálogo.

Requisitos

  • Su área de trabajo debe estar habilitada para Unity Catalog.
  • La ingeniería de características de Unity Catalog requiere Databricks Runtime 13.3 LTS o superior.

Si el área de trabajo no cumple estos requisitos, consulte Almacén de características del área de trabajo (heredado) para obtener información sobre cómo usar el almacén de características del área de trabajo.

¿Cómo funciona la ingeniería de características en Databricks?

El flujo de trabajo de aprendizaje automático típico mediante la ingeniería de características en Databricks sigue esta ruta:

  1. Escriba código para convertir datos sin procesar en características y crear un DataFrame de Spark que contenga las características deseadas.
  2. Crear una tabla Delta en Unity Catalog. Cualquier tabla Delta con una clave principal es automáticamente una tabla de características.
  3. Entrenamiento y registro de un modelo mediante la tabla de características. Al hacerlo, el modelo almacena las especificaciones de las características usadas para el entrenamiento. Cuando el modelo se usa para la inferencia, combina automáticamente las características de las tablas de características adecuadas.
  4. Registre el modelo en el registro de modelos.

Ya puede usar el modelo para realizar predicciones sobre los datos nuevos. En los casos de uso por lotes, el modelo recupera automáticamente las características que necesita del almacén de características.

Flujo de trabajo del almacén de características para casos de uso de aprendizaje automático por lotes.

Para casos de uso de entrega en tiempo real, publique las características en una tabla en línea. También se admiten las tiendas en línea de terceros. Consulte Almacenes en línea de terceros.

En el momento de la inferencia, el modelo lee las características calculadas previamente del almacén en línea y las une con los datos proporcionados en la solicitud de cliente para el punto de conexión de servicio del modelo.

Flujo del almacén de características para modelos de aprendizaje automático en servicio.

Empezar a usar cuadernos de ejemplo de ingeniería de características

Para empezar, pruebe estos cuadernos de ejemplo. El cuaderno básico le mostrará cómo crear una tabla de características, usarla para entrenar un modelo y, a continuación, realizar la puntuación por lotes mediante la búsqueda automática de características. También le presenta la interfaz de usuario de ingeniería de características y muestra cómo se puede usar para buscar características y reconocer cómo se crean y usan las características.

Cuaderno de ejemplo de ingeniería de características básicas en Unity Catalog

Obtener el cuaderno

El cuaderno de ejemplo de impuestos ilustra el proceso de creación de características, su actualización y su uso para el entrenamiento del modelo y la inferencia por lotes.

Cuaderno de ejemplo de ingeniería de características básicas en catálogo Unity

Obtener el cuaderno

Tipos de datos admitidos

La ingeniería de características en Unity Catalog y el Almacén de características del área de trabajo son compatibles con los siguientes tipos de datos de PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalType y MapType son compatibles en todas las versiones de Ingeniería de características en Unity Catalog y en el Almacén de características del área de trabajo v0.3.5 o superior. [2] StructType se admite en Feature Engineering v0.6.0 o superior.

Los tipos de datos enumerados anteriormente admiten tipos de características comunes en las aplicaciones de aprendizaje automático. Por ejemplo:

  • Puede almacenar vectores densos, tensores e inserciones como ArrayType.
  • Puede almacenar vectores dispersos, tensores e inserciones como MapType.
  • Puede almacenar texto como StringType.

Al publicarse en almacenes en línea, las características ArrayType y MapType se almacenan en formato JSON.

La interfaz de usuario del almacén de características muestra metadatos en los tipos de datos de características:

Ejemplos de tipos de datos complejos

Más información

Para obtener más información sobre los procedimientos recomendados, descargue la Guía completa sobre Feature Stores.