Esquema YAML del conjunto de características de la CLI (v2)
SE APLICA A: Extensión de ML de la CLI de Azure v2 (actual)
Nota:
La sintaxis de YAML que se detalla en este documento se basa en el esquema JSON de la versión más reciente de la extensión ML de la CLI v2. Se garantiza que esta sintaxis solo funciona con la versión más reciente de la extensión ML de la CLI v2. Dispone de los esquemas de las versiones de anteriores de la extensión en https://azuremlschemasprod.azureedge.net/.
Sintaxis de YAML
Clave | Tipo | Descripción | Valores permitidos | Valor predeterminado |
---|---|---|---|---|
$schema | string | Esquema de YAML. Si usa la extensión de VS Code de Azure Machine Learning para crear el archivo YAML, la inclusión del elemento $schema en la parte superior del archivo le permite invocar las finalizaciones de los recursos y el esquema. | ||
name | string | Necesario. Nombre del conjunto de características. | ||
version | string | Necesario. Versión del conjunto de características. | ||
description | string | Descripción del conjunto de características. | ||
specification | object | Necesario. Especificación del conjunto de características. | ||
specification.path | string | Obligatorio Ruta de acceso a la carpeta de especificación del conjunto de características local. | ||
entities | objeto (lista de cadenas) | Necesario. Las entidades a las que está asociado este conjunto de características. | ||
fase | string | Fase del conjunto de características. | Desarrollo, Producción, Archivado | Desarrollo |
etiquetas | object | Diccionario de etiquetas para el conjunto de características. | ||
materialization_settings | object | Configuración de materialización del conjunto de características. | ||
materialization_settings.offline_enabled | boolean | Indica si está habilitada la materialización de los valores de características en un almacenamiento sin conexión. | True, False | |
materialization_settings.schedule | object | Programación de la materialización. Consulte Esquema YAML de programación de la CLI (v2). | ||
materialization_settings.schedule.frequency | string | Obligatorio si está configurada la programación. Enumeración para describir la frecuencia de una programación de periodicidad. | Día, hora, minuto, semana, mes | Día |
materialization_settings.schedule.interval | integer | Obligatorio si está configurada la programación. Intervalo entre trabajos recurrentes. | ||
materialization_settings.schedule.time_zone | string | Zona horaria del desencadenador de la programación. | UTC | |
materialization_settings.schedule.start_time | string | Hora del desencadenador de la programación. | ||
materialization_settings.notification | object | Configuración de la notificación de materialización. | ||
materialization_settings.notification.email_on | objeto (lista de cadenas) | Obligatorio si está configurada la notificación. La notificación por correo electrónico se envía cuando el estado del trabajo coincide con esta configuración. | JobFailed, JobCompleted, JobCancelled. | |
materialization_settings.notification.emails | objeto (lista de cadenas) | Obligatorio si está configurada la notificación. Dirección de correo electrónico a la que se envía la notificación. | ||
materialization_settings.resource | object | Recurso de proceso de Spark de Azure Machine Learning que se usa para el trabajo de materialización. | ||
materialization_settings.resource.instance_type | string | Tipo de la instancia de proceso de Spark de Azure Machine Learning. | Standard_E4s_v3, Standard_E8s_v3, Standard_E16s_v3, Standard_E32s_v3, Standard_E64s_v3. Consulte Limpieza y transformación de datos interactiva con Apache Spark en Azure Machine Learning (versión preliminar) para obtener una lista actualizada de los tipos admitidos. | |
materialization_settings.spark_configuration | diccionario | Diccionario de configuración de Spark |
Observaciones
Se puede usar el comando az ml feature-set
para administrar el conjunto de características.
Ejemplos
Hay ejemplos disponibles en el repositorio de GitHub de ejemplos. A continuación se muestran varios.
YAML: básico
$schema: http://azureml/sdk-2-0/Featureset.json
name: transactions
version: "1"
description: 7-day and 3-day rolling aggregation of transactions featureset
specification:
path: ./spec # path to feature set specification folder. Can be local (absolute path or relative path to current location) or cloud uri. Contains FeatureSetSpec.yaml + transformation code
entities: # entities associated with this feature-set
- azureml:account:1
stage: Development
YAML: con configuración de materialización
name: transactions
version: "1"
description: 7-day and 3-day rolling aggregation of transactions featureset
specification:
path: ./spec # path to feature set specification folder. Can be local (absolute path or relative path to current location) or cloud uri. Contains FeatureSetSpec.yaml + transformation code
entities: # entities associated with this feature-set
- azureml:account:1
stage: Development
materialization_settings:
offline_enabled: True
schedule: # we use existing definition of schedule under job with some constraints. Recurrence pattern will not be supported.
type: recurrence # Only recurrence type would be supported
frequency: Day # Only support Day and Hour
interval: 1 #every day
time_zone: "Pacific Standard Time"
notification:
email_on:
- JobFailed
emails:
- alice@microsoft.com
resource:
instance_type: Standard_E8S_V3
spark_configuration:
spark.driver.cores: 4
spark.driver.memory: 36g
spark.executor.cores: 4
spark.executor.memory: 36g
spark.executor.instances: 2