Compartir a través de


Áreas de trabajo de Microsoft.MachineLearningServices/onlineEndpoints/deployments 2024-07-01-preview

Definición de recursos de Bicep

El tipo de recurso workspaces/onlineEndpoints/deployments se puede implementar con operaciones destinadas a:

Para obtener una lista de las propiedades modificadas en cada versión de API, consulte registro de cambios.

Formato de recurso

Para crear un recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments, agregue el siguiente bicep a la plantilla.

resource symbolicname 'Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments@2024-07-01-preview' = {
  parent: resourceSymbolicName
  identity: {
    type: 'string'
    userAssignedIdentities: {
      {customized property}: {}
    }
  }
  kind: 'string'
  location: 'string'
  name: 'string'
  properties: {
    appInsightsEnabled: bool
    codeConfiguration: {
      codeId: 'string'
      scoringScript: 'string'
    }
    dataCollector: {
      collections: {
        {customized property}: {
          clientId: 'string'
          dataCollectionMode: 'string'
          dataId: 'string'
          samplingRate: int
        }
      }
      requestLogging: {
        captureHeaders: [
          'string'
        ]
      }
      rollingRate: 'string'
    }
    description: 'string'
    egressPublicNetworkAccess: 'string'
    environmentId: 'string'
    environmentVariables: {
      {customized property}: 'string'
    }
    instanceType: 'string'
    livenessProbe: {
      failureThreshold: int
      initialDelay: 'string'
      period: 'string'
      successThreshold: int
      timeout: 'string'
    }
    model: 'string'
    modelMountPath: 'string'
    properties: {
      {customized property}: 'string'
    }
    readinessProbe: {
      failureThreshold: int
      initialDelay: 'string'
      period: 'string'
      successThreshold: int
      timeout: 'string'
    }
    requestSettings: {
      maxConcurrentRequestsPerInstance: int
      maxQueueWait: 'string'
      requestTimeout: 'string'
    }
    scaleSettings: {
      scaleType: 'string'
      // For remaining properties, see OnlineScaleSettings objects
    }
    endpointComputeType: 'string'
    // For remaining properties, see OnlineDeploymentProperties objects
  }
  sku: {
    capacity: int
    family: 'string'
    name: 'string'
    size: 'string'
    tier: 'string'
  }
  tags: {
    {customized property}: 'string'
  }
}

Objetos OnlineDeploymentProperties

Establezca la propiedad endpointComputeType para especificar el tipo de objeto.

Para kubernetes, use:

{
  containerResourceRequirements: {
    containerResourceLimits: {
      cpu: 'string'
      gpu: 'string'
      memory: 'string'
    }
    containerResourceRequests: {
      cpu: 'string'
      gpu: 'string'
      memory: 'string'
    }
  }
  endpointComputeType: 'Kubernetes'
}

Para managed, use:

{
  endpointComputeType: 'Managed'
}

Objetos OnlineScaleSettings

Establezca la propiedad scaleType para especificar el tipo de objeto.

Para predeterminado , use:

{
  scaleType: 'Default'
}

Para TargetUtilization, use:

{
  maxInstances: int
  minInstances: int
  pollingInterval: 'string'
  scaleType: 'TargetUtilization'
  targetUtilizationPercentage: int
}

Valores de propiedad

CodeConfiguration

Nombre Descripción Valor
codeId Identificador de recurso de ARM del recurso de código. cuerda
scoringScript [Obligatorio] Script que se va a ejecutar al iniciarse. Eg. "score.py" cuerda

Restricciones:
Longitud mínima = 1
Patrón = [a-zA-Z0-9_] (obligatorio)

Colección

Nombre Descripción Valor
clientId Identificador de cliente msi que se usa para recopilar el registro en Blob Storage. Si es null, el back-end elegirá una identidad de punto de conexión registrado para la autenticación. cuerda
dataCollectionMode Habilite o deshabilite la recopilación de datos. 'Deshabilitado'
'Habilitado'
dataId Identificador de recurso del arm del recurso de datos. El lado cliente garantizará que el recurso de datos apunte al almacenamiento de blobs y el back-end recopilará datos en el almacenamiento de blobs. cuerda
samplingRate Frecuencia de muestreo para la recopilación. La frecuencia de muestreo 1,0 significa que recopilamos 100% de datos de forma predeterminada. Int

ContainerResourceRequirements

Nombre Descripción Valor
containerResourceLimits Información de límite de recursos de contenedor: containerResourceSettings
containerResourceRequests Información de solicitud de recursos de contenedor: containerResourceSettings

ContainerResourceSettings

Nombre Descripción Valor
CPU Número de solicitudes o límites de vCPU para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda
Gpu Número de tarjetas gpu de Nvidia request/limit para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda
memoria Solicitud o límite de tamaño de memoria para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda

DataCollector

Nombre Descripción Valor
colecciones [Obligatorio] Configuración de la colección. Cada colección tiene su propia configuración para recopilar datos del modelo y el nombre de la colección puede ser una cadena arbitraria.
El recopilador de datos del modelo se puede usar para el registro de carga o para el registro personalizado o para ambos. La solicitud de recopilación y la respuesta están reservadas para el registro de carga, otras son para el registro personalizado.
DataCollectorCollections (obligatorio)
requestLogging La configuración de registro de solicitudes para mdc, incluye opciones de registro avanzadas para todas las colecciones. Es opcional. RequestLogging
rollingRate Cuando los datos del modelo se recopilan en Blob Storage, es necesario implementar los datos en una ruta de acceso diferente para evitar el registro de todos ellos en un solo archivo de blobs.
Si la velocidad gradual es de hora, todos los datos se recopilarán en la ruta de acceso del blob /yyyy/MM/dd/HH/.
Si es día, todos los datos se recopilarán en la ruta de acceso del blob /aaaa/MM/dd/.
La otra ventaja de la ruta de acceso gradual es que la interfaz de usuario de supervisión de modelos puede seleccionar un intervalo de tiempo de datos muy rápidamente.
'Día'
'Hora'
'Minuto'
'Mes'
'Año'

DataCollectorCollections

Nombre Descripción Valor

DefaultScaleSettings

Nombre Descripción Valor
scaleType [Obligatorio] Tipo de algoritmo de escalado de implementación 'Default' (obligatorio)

EndpointDeploymentPropertiesBaseEnvironmentVariables

Nombre Descripción Valor

EndpointDeploymentPropertiesBaseProperties

Nombre Descripción Valor

KubernetesOnlineDeployment

Nombre Descripción Valor
containerResourceRequirements Requisitos de recursos para el contenedor (cpu y memoria). containerResourceRequirements
endpointComputeType [Obligatorio] Tipo de proceso del punto de conexión. 'Kubernetes' (obligatorio)

ManagedOnlineDeployment

Nombre Descripción Valor
endpointComputeType [Obligatorio] Tipo de proceso del punto de conexión. "Administrado" (obligatorio)

ManagedServiceIdentity

Nombre Descripción Valor
tipo Tipo de identidad de servicio administrada (donde se permiten los tipos SystemAssigned y UserAssigned). 'Ninguno'
'SystemAssigned'
'SystemAssigned,UserAssigned'
'UserAssigned' (obligatorio)
userAssignedIdentities Conjunto de identidades asignadas por el usuario asociadas al recurso. Las claves de diccionario userAssignedIdentities serán identificadores de recursos de ARM con el formato: '/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.ManagedIdentity/userAssignedIdentities/{identityName}. Los valores del diccionario pueden ser objetos vacíos ({}) en las solicitudes. UserAssignedIdentities

Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments

Nombre Descripción Valor
identidad Identidad de servicio administrada (identidades asignadas por el sistema o asignadas por el usuario) managedServiceIdentity
amable Metadatos usados por el portal,herramientas/etcetera para representar experiencias de experiencia de usuario diferentes para los recursos del mismo tipo. cuerda
ubicación Ubicación geográfica donde reside el recurso string (obligatorio)
nombre El nombre del recurso cuerda

Restricciones:
Patrón = ^[a-zA-Z0-9][a-zA-Z0-9\-_]{0,254}$ (obligatorio)
padre En Bicep, puede especificar el recurso primario para un recurso secundario. Solo tiene que agregar esta propiedad cuando el recurso secundario se declara fuera del recurso primario.

Para obtener más información, consulte recurso secundario fuera del recurso primario.
Nombre simbólico del recurso de tipo: áreas de trabajo/onlineEndpoints
Propiedades [Obligatorio] Atributos adicionales de la entidad. OnlineDeploymentProperties (obligatorio)
Sku Detalles de SKU necesarios para el contrato arm para el escalado automático. Sku de
Etiquetas Etiquetas del recurso Diccionario de nombres y valores de etiqueta. Consulte etiquetas de en plantillas

OnlineDeploymentProperties

Nombre Descripción Valor
appInsightsEnabled Si es true, habilita el registro de Application Insights. Bool
codeConfiguration Configuración de código para la implementación del punto de conexión. CodeConfiguration
dataCollector La configuración de mdc, deshabilitamos mdc cuando es null. DataCollector
descripción Descripción de la implementación del punto de conexión. cuerda
egressPublicNetworkAccess Si está habilitado, permita el acceso a la red pública de salida. Si está deshabilitado, se creará una salida segura. Valor predeterminado: habilitado. 'Deshabilitado'
'Habilitado'
endpointComputeType Establezca en "Kubernetes" para el tipo KubernetesOnlineDeployment. Establezca en "Administrado" para el tipo ManagedOnlineDeployment. "Kubernetes"
"Administrado" (obligatorio)
environmentId Identificador de recurso de ARM o AssetId de la especificación del entorno para la implementación del punto de conexión. cuerda
environmentVariables Configuración de variables de entorno para la implementación. EndpointDeploymentPropertiesBaseEnvironmentVariables
instanceType Tipo de instancia de proceso. cuerda
livenessProbe El sondeo de ejecución supervisa periódicamente el estado del contenedor. probeSettings
modelo Ruta de acceso del URI al modelo. cuerda
modelMountPath Ruta de acceso para montar el modelo en un contenedor personalizado. cuerda
Propiedades Diccionario de propiedades. Se pueden agregar propiedades, pero no se pueden quitar ni modificar. EndpointDeploymentPropertiesBaseProperties
readinessProbe El sondeo de preparación valida si el contenedor está listo para atender el tráfico. Las propiedades y los valores predeterminados son los mismos que el sondeo de ejecución. probeSettings
requestSettings Configuración de la solicitud para la implementación. OnlineRequestSettings
scaleSettings Configuración de escalado para la implementación.
Si es null o no se proporciona,
el valor predeterminado es TargetUtilizationScaleSettings para KubernetesOnlineDeployment.
y a DefaultScaleSettings para ManagedOnlineDeployment.
OnlineScaleSettings

OnlineRequestSettings

Nombre Descripción Valor
maxConcurrentRequestsPerInstance Número de solicitudes simultáneas máximas por nodo permitidas por implementación. El valor predeterminado es 1. Int
maxQueueWait (en desuso para puntos de conexión en línea administrados) La cantidad máxima de tiempo que una solicitud permanecerá en la cola en formato ISO 8601.
El valor predeterminado es 500 ms.
(Ahora aumente request_timeout_ms para tener en cuenta los retrasos en las redes o colas).
cuerda
requestTimeout Tiempo de espera de puntuación en formato ISO 8601.
El valor predeterminado es 5000 ms.
cuerda

OnlineScaleSettings

Nombre Descripción Valor
scaleType Establezca en "Default" para el tipo DefaultScaleSettings. Establezca en "TargetUtilization" para el tipo TargetUtilizationScaleSettings. 'Valor predeterminado'
'TargetUtilization' (obligatorio)

ProbeSettings

Nombre Descripción Valor
failureThreshold Número de errores que se deben permitir antes de devolver un estado incorrecto. Int
initialDelay Retraso antes del primer sondeo en formato ISO 8601. cuerda
periodo El período de tiempo entre sondeos en formato ISO 8601. cuerda
successThreshold Número de sondeos correctos antes de devolver un estado correcto. Int
interrupción Tiempo de espera del sondeo en formato ISO 8601. cuerda

RequestLogging

Nombre Descripción Valor
captureHeaders Para el registro de carga, solo recopilamos la carga de forma predeterminada. Si los clientes también quieren recopilar los encabezados especificados, pueden establecerlos en captureHeaders para que el back-end recopile esos encabezados junto con la carga útil. string[]

Sku

Nombre Descripción Valor
capacidad Si la SKU admite el escalado horizontal o horizontal, se debe incluir el entero de capacidad. Si no es posible escalar horizontalmente o reducir horizontalmente el recurso, se puede omitir. Int
familia Si el servicio tiene diferentes generaciones de hardware, para la misma SKU, se puede capturar aquí. cuerda
nombre Nombre de la SKU. Por ejemplo, P3. Normalmente es un código de letra y número string (obligatorio)
tamaño Tamaño de la SKU. Cuando el campo de nombre es la combinación de nivel y otro valor, este sería el código independiente. cuerda
nivel El proveedor de recursos necesita implementar este campo si el servicio tiene más de un nivel, pero no es necesario en put. "Básico"
"Gratis"
'Premium'
'Estándar'

TargetUtilizationScaleSettings

Nombre Descripción Valor
maxInstances Número máximo de instancias a las que la implementación se puede escalar. La cuota se reservará para max_instances. Int
minInstances El número mínimo de instancias que siempre se van a presentar. Int
pollingInterval Intervalo de sondeo en formato ISO 8691. Solo admite la duración con una precisión tan baja como Segundos. cuerda
scaleType [Obligatorio] Tipo de algoritmo de escalado de implementación 'TargetUtilization' (obligatorio)
targetUtilizationPercentage Uso de CPU de destino para el escalador automático. Int

TrackedResourceTags

Nombre Descripción Valor

UserAssignedIdentities

Nombre Descripción Valor

UserAssignedIdentity

Nombre Descripción Valor

Definición de recursos de plantilla de ARM

El tipo de recurso workspaces/onlineEndpoints/deployments se puede implementar con operaciones destinadas a:

Para obtener una lista de las propiedades modificadas en cada versión de API, consulte registro de cambios.

Formato de recurso

Para crear un recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments, agregue el siguiente JSON a la plantilla.

{
  "type": "Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments",
  "apiVersion": "2024-07-01-preview",
  "name": "string",
  "identity": {
    "type": "string",
    "userAssignedIdentities": {
      "{customized property}": {
      }
    }
  },
  "kind": "string",
  "location": "string",
  "properties": {
    "appInsightsEnabled": "bool",
    "codeConfiguration": {
      "codeId": "string",
      "scoringScript": "string"
    },
    "dataCollector": {
      "collections": {
        "{customized property}": {
          "clientId": "string",
          "dataCollectionMode": "string",
          "dataId": "string",
          "samplingRate": "int"
        }
      },
      "requestLogging": {
        "captureHeaders": [ "string" ]
      },
      "rollingRate": "string"
    },
    "description": "string",
    "egressPublicNetworkAccess": "string",
    "environmentId": "string",
    "environmentVariables": {
      "{customized property}": "string"
    },
    "instanceType": "string",
    "livenessProbe": {
      "failureThreshold": "int",
      "initialDelay": "string",
      "period": "string",
      "successThreshold": "int",
      "timeout": "string"
    },
    "model": "string",
    "modelMountPath": "string",
    "properties": {
      "{customized property}": "string"
    },
    "readinessProbe": {
      "failureThreshold": "int",
      "initialDelay": "string",
      "period": "string",
      "successThreshold": "int",
      "timeout": "string"
    },
    "requestSettings": {
      "maxConcurrentRequestsPerInstance": "int",
      "maxQueueWait": "string",
      "requestTimeout": "string"
    },
    "scaleSettings": {
      "scaleType": "string"
      // For remaining properties, see OnlineScaleSettings objects
    },
    "endpointComputeType": "string"
    // For remaining properties, see OnlineDeploymentProperties objects
  },
  "sku": {
    "capacity": "int",
    "family": "string",
    "name": "string",
    "size": "string",
    "tier": "string"
  },
  "tags": {
    "{customized property}": "string"
  }
}

Objetos OnlineDeploymentProperties

Establezca la propiedad endpointComputeType para especificar el tipo de objeto.

Para kubernetes, use:

{
  "containerResourceRequirements": {
    "containerResourceLimits": {
      "cpu": "string",
      "gpu": "string",
      "memory": "string"
    },
    "containerResourceRequests": {
      "cpu": "string",
      "gpu": "string",
      "memory": "string"
    }
  },
  "endpointComputeType": "Kubernetes"
}

Para managed, use:

{
  "endpointComputeType": "Managed"
}

Objetos OnlineScaleSettings

Establezca la propiedad scaleType para especificar el tipo de objeto.

Para predeterminado , use:

{
  "scaleType": "Default"
}

Para TargetUtilization, use:

{
  "maxInstances": "int",
  "minInstances": "int",
  "pollingInterval": "string",
  "scaleType": "TargetUtilization",
  "targetUtilizationPercentage": "int"
}

Valores de propiedad

CodeConfiguration

Nombre Descripción Valor
codeId Identificador de recurso de ARM del recurso de código. cuerda
scoringScript [Obligatorio] Script que se va a ejecutar al iniciarse. Eg. "score.py" cuerda

Restricciones:
Longitud mínima = 1
Patrón = [a-zA-Z0-9_] (obligatorio)

Colección

Nombre Descripción Valor
clientId Identificador de cliente msi que se usa para recopilar el registro en Blob Storage. Si es null, el back-end elegirá una identidad de punto de conexión registrado para la autenticación. cuerda
dataCollectionMode Habilite o deshabilite la recopilación de datos. 'Deshabilitado'
'Habilitado'
dataId Identificador de recurso del arm del recurso de datos. El lado cliente garantizará que el recurso de datos apunte al almacenamiento de blobs y el back-end recopilará datos en el almacenamiento de blobs. cuerda
samplingRate Frecuencia de muestreo para la recopilación. La frecuencia de muestreo 1,0 significa que recopilamos 100% de datos de forma predeterminada. Int

ContainerResourceRequirements

Nombre Descripción Valor
containerResourceLimits Información de límite de recursos de contenedor: containerResourceSettings
containerResourceRequests Información de solicitud de recursos de contenedor: containerResourceSettings

ContainerResourceSettings

Nombre Descripción Valor
CPU Número de solicitudes o límites de vCPU para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda
Gpu Número de tarjetas gpu de Nvidia request/limit para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda
memoria Solicitud o límite de tamaño de memoria para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda

DataCollector

Nombre Descripción Valor
colecciones [Obligatorio] Configuración de la colección. Cada colección tiene su propia configuración para recopilar datos del modelo y el nombre de la colección puede ser una cadena arbitraria.
El recopilador de datos del modelo se puede usar para el registro de carga o para el registro personalizado o para ambos. La solicitud de recopilación y la respuesta están reservadas para el registro de carga, otras son para el registro personalizado.
DataCollectorCollections (obligatorio)
requestLogging La configuración de registro de solicitudes para mdc, incluye opciones de registro avanzadas para todas las colecciones. Es opcional. RequestLogging
rollingRate Cuando los datos del modelo se recopilan en Blob Storage, es necesario implementar los datos en una ruta de acceso diferente para evitar el registro de todos ellos en un solo archivo de blobs.
Si la velocidad gradual es de hora, todos los datos se recopilarán en la ruta de acceso del blob /yyyy/MM/dd/HH/.
Si es día, todos los datos se recopilarán en la ruta de acceso del blob /aaaa/MM/dd/.
La otra ventaja de la ruta de acceso gradual es que la interfaz de usuario de supervisión de modelos puede seleccionar un intervalo de tiempo de datos muy rápidamente.
'Día'
'Hora'
'Minuto'
'Mes'
'Año'

DataCollectorCollections

Nombre Descripción Valor

DefaultScaleSettings

Nombre Descripción Valor
scaleType [Obligatorio] Tipo de algoritmo de escalado de implementación 'Default' (obligatorio)

EndpointDeploymentPropertiesBaseEnvironmentVariables

Nombre Descripción Valor

EndpointDeploymentPropertiesBaseProperties

Nombre Descripción Valor

KubernetesOnlineDeployment

Nombre Descripción Valor
containerResourceRequirements Requisitos de recursos para el contenedor (cpu y memoria). containerResourceRequirements
endpointComputeType [Obligatorio] Tipo de proceso del punto de conexión. 'Kubernetes' (obligatorio)

ManagedOnlineDeployment

Nombre Descripción Valor
endpointComputeType [Obligatorio] Tipo de proceso del punto de conexión. "Administrado" (obligatorio)

ManagedServiceIdentity

Nombre Descripción Valor
tipo Tipo de identidad de servicio administrada (donde se permiten los tipos SystemAssigned y UserAssigned). 'Ninguno'
'SystemAssigned'
'SystemAssigned,UserAssigned'
'UserAssigned' (obligatorio)
userAssignedIdentities Conjunto de identidades asignadas por el usuario asociadas al recurso. Las claves de diccionario userAssignedIdentities serán identificadores de recursos de ARM con el formato: '/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.ManagedIdentity/userAssignedIdentities/{identityName}. Los valores del diccionario pueden ser objetos vacíos ({}) en las solicitudes. UserAssignedIdentities

Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments

Nombre Descripción Valor
apiVersion La versión de api '2024-07-01-preview'
identidad Identidad de servicio administrada (identidades asignadas por el sistema o asignadas por el usuario) managedServiceIdentity
amable Metadatos usados por el portal,herramientas/etcetera para representar experiencias de experiencia de usuario diferentes para los recursos del mismo tipo. cuerda
ubicación Ubicación geográfica donde reside el recurso string (obligatorio)
nombre El nombre del recurso cuerda

Restricciones:
Patrón = ^[a-zA-Z0-9][a-zA-Z0-9\-_]{0,254}$ (obligatorio)
Propiedades [Obligatorio] Atributos adicionales de la entidad. OnlineDeploymentProperties (obligatorio)
Sku Detalles de SKU necesarios para el contrato arm para el escalado automático. Sku de
Etiquetas Etiquetas del recurso Diccionario de nombres y valores de etiqueta. Consulte etiquetas de en plantillas
tipo El tipo de recurso 'Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments'

OnlineDeploymentProperties

Nombre Descripción Valor
appInsightsEnabled Si es true, habilita el registro de Application Insights. Bool
codeConfiguration Configuración de código para la implementación del punto de conexión. CodeConfiguration
dataCollector La configuración de mdc, deshabilitamos mdc cuando es null. DataCollector
descripción Descripción de la implementación del punto de conexión. cuerda
egressPublicNetworkAccess Si está habilitado, permita el acceso a la red pública de salida. Si está deshabilitado, se creará una salida segura. Valor predeterminado: habilitado. 'Deshabilitado'
'Habilitado'
endpointComputeType Establezca en "Kubernetes" para el tipo KubernetesOnlineDeployment. Establezca en "Administrado" para el tipo ManagedOnlineDeployment. "Kubernetes"
"Administrado" (obligatorio)
environmentId Identificador de recurso de ARM o AssetId de la especificación del entorno para la implementación del punto de conexión. cuerda
environmentVariables Configuración de variables de entorno para la implementación. EndpointDeploymentPropertiesBaseEnvironmentVariables
instanceType Tipo de instancia de proceso. cuerda
livenessProbe El sondeo de ejecución supervisa periódicamente el estado del contenedor. probeSettings
modelo Ruta de acceso del URI al modelo. cuerda
modelMountPath Ruta de acceso para montar el modelo en un contenedor personalizado. cuerda
Propiedades Diccionario de propiedades. Se pueden agregar propiedades, pero no se pueden quitar ni modificar. EndpointDeploymentPropertiesBaseProperties
readinessProbe El sondeo de preparación valida si el contenedor está listo para atender el tráfico. Las propiedades y los valores predeterminados son los mismos que el sondeo de ejecución. probeSettings
requestSettings Configuración de la solicitud para la implementación. OnlineRequestSettings
scaleSettings Configuración de escalado para la implementación.
Si es null o no se proporciona,
el valor predeterminado es TargetUtilizationScaleSettings para KubernetesOnlineDeployment.
y a DefaultScaleSettings para ManagedOnlineDeployment.
OnlineScaleSettings

OnlineRequestSettings

Nombre Descripción Valor
maxConcurrentRequestsPerInstance Número de solicitudes simultáneas máximas por nodo permitidas por implementación. El valor predeterminado es 1. Int
maxQueueWait (en desuso para puntos de conexión en línea administrados) La cantidad máxima de tiempo que una solicitud permanecerá en la cola en formato ISO 8601.
El valor predeterminado es 500 ms.
(Ahora aumente request_timeout_ms para tener en cuenta los retrasos en las redes o colas).
cuerda
requestTimeout Tiempo de espera de puntuación en formato ISO 8601.
El valor predeterminado es 5000 ms.
cuerda

OnlineScaleSettings

Nombre Descripción Valor
scaleType Establezca en "Default" para el tipo DefaultScaleSettings. Establezca en "TargetUtilization" para el tipo TargetUtilizationScaleSettings. 'Valor predeterminado'
'TargetUtilization' (obligatorio)

ProbeSettings

Nombre Descripción Valor
failureThreshold Número de errores que se deben permitir antes de devolver un estado incorrecto. Int
initialDelay Retraso antes del primer sondeo en formato ISO 8601. cuerda
periodo El período de tiempo entre sondeos en formato ISO 8601. cuerda
successThreshold Número de sondeos correctos antes de devolver un estado correcto. Int
interrupción Tiempo de espera del sondeo en formato ISO 8601. cuerda

RequestLogging

Nombre Descripción Valor
captureHeaders Para el registro de carga, solo recopilamos la carga de forma predeterminada. Si los clientes también quieren recopilar los encabezados especificados, pueden establecerlos en captureHeaders para que el back-end recopile esos encabezados junto con la carga útil. string[]

Sku

Nombre Descripción Valor
capacidad Si la SKU admite el escalado horizontal o horizontal, se debe incluir el entero de capacidad. Si no es posible escalar horizontalmente o reducir horizontalmente el recurso, se puede omitir. Int
familia Si el servicio tiene diferentes generaciones de hardware, para la misma SKU, se puede capturar aquí. cuerda
nombre Nombre de la SKU. Por ejemplo, P3. Normalmente es un código de letra y número string (obligatorio)
tamaño Tamaño de la SKU. Cuando el campo de nombre es la combinación de nivel y otro valor, este sería el código independiente. cuerda
nivel El proveedor de recursos necesita implementar este campo si el servicio tiene más de un nivel, pero no es necesario en put. "Básico"
"Gratis"
'Premium'
'Estándar'

TargetUtilizationScaleSettings

Nombre Descripción Valor
maxInstances Número máximo de instancias a las que la implementación se puede escalar. La cuota se reservará para max_instances. Int
minInstances El número mínimo de instancias que siempre se van a presentar. Int
pollingInterval Intervalo de sondeo en formato ISO 8691. Solo admite la duración con una precisión tan baja como Segundos. cuerda
scaleType [Obligatorio] Tipo de algoritmo de escalado de implementación 'TargetUtilization' (obligatorio)
targetUtilizationPercentage Uso de CPU de destino para el escalador automático. Int

TrackedResourceTags

Nombre Descripción Valor

UserAssignedIdentities

Nombre Descripción Valor

UserAssignedIdentity

Nombre Descripción Valor

Definición de recursos de Terraform (proveedor AzAPI)

El tipo de recurso workspaces/onlineEndpoints/deployments se puede implementar con operaciones destinadas a:

  • grupos de recursos de

Para obtener una lista de las propiedades modificadas en cada versión de API, consulte registro de cambios.

Formato de recurso

Para crear un recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments, agregue el siguiente terraform a la plantilla.

resource "azapi_resource" "symbolicname" {
  type = "Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments@2024-07-01-preview"
  name = "string"
  identity = {
    type = "string"
    userAssignedIdentities = {
      {customized property} = {
      }
    }
  }
  kind = "string"
  location = "string"
  sku = {
    capacity = int
    family = "string"
    name = "string"
    size = "string"
    tier = "string"
  }
  tags = {
    {customized property} = "string"
  }
  body = jsonencode({
    properties = {
      appInsightsEnabled = bool
      codeConfiguration = {
        codeId = "string"
        scoringScript = "string"
      }
      dataCollector = {
        collections = {
          {customized property} = {
            clientId = "string"
            dataCollectionMode = "string"
            dataId = "string"
            samplingRate = int
          }
        }
        requestLogging = {
          captureHeaders = [
            "string"
          ]
        }
        rollingRate = "string"
      }
      description = "string"
      egressPublicNetworkAccess = "string"
      environmentId = "string"
      environmentVariables = {
        {customized property} = "string"
      }
      instanceType = "string"
      livenessProbe = {
        failureThreshold = int
        initialDelay = "string"
        period = "string"
        successThreshold = int
        timeout = "string"
      }
      model = "string"
      modelMountPath = "string"
      properties = {
        {customized property} = "string"
      }
      readinessProbe = {
        failureThreshold = int
        initialDelay = "string"
        period = "string"
        successThreshold = int
        timeout = "string"
      }
      requestSettings = {
        maxConcurrentRequestsPerInstance = int
        maxQueueWait = "string"
        requestTimeout = "string"
      }
      scaleSettings = {
        scaleType = "string"
        // For remaining properties, see OnlineScaleSettings objects
      }
      endpointComputeType = "string"
      // For remaining properties, see OnlineDeploymentProperties objects
    }
  })
}

Objetos OnlineDeploymentProperties

Establezca la propiedad endpointComputeType para especificar el tipo de objeto.

Para kubernetes, use:

{
  containerResourceRequirements = {
    containerResourceLimits = {
      cpu = "string"
      gpu = "string"
      memory = "string"
    }
    containerResourceRequests = {
      cpu = "string"
      gpu = "string"
      memory = "string"
    }
  }
  endpointComputeType = "Kubernetes"
}

Para managed, use:

{
  endpointComputeType = "Managed"
}

Objetos OnlineScaleSettings

Establezca la propiedad scaleType para especificar el tipo de objeto.

Para predeterminado , use:

{
  scaleType = "Default"
}

Para TargetUtilization, use:

{
  maxInstances = int
  minInstances = int
  pollingInterval = "string"
  scaleType = "TargetUtilization"
  targetUtilizationPercentage = int
}

Valores de propiedad

CodeConfiguration

Nombre Descripción Valor
codeId Identificador de recurso de ARM del recurso de código. cuerda
scoringScript [Obligatorio] Script que se va a ejecutar al iniciarse. Eg. "score.py" cuerda

Restricciones:
Longitud mínima = 1
Patrón = [a-zA-Z0-9_] (obligatorio)

Colección

Nombre Descripción Valor
clientId Identificador de cliente msi que se usa para recopilar el registro en Blob Storage. Si es null, el back-end elegirá una identidad de punto de conexión registrado para la autenticación. cuerda
dataCollectionMode Habilite o deshabilite la recopilación de datos. 'Deshabilitado'
'Habilitado'
dataId Identificador de recurso del arm del recurso de datos. El lado cliente garantizará que el recurso de datos apunte al almacenamiento de blobs y el back-end recopilará datos en el almacenamiento de blobs. cuerda
samplingRate Frecuencia de muestreo para la recopilación. La frecuencia de muestreo 1,0 significa que recopilamos 100% de datos de forma predeterminada. Int

ContainerResourceRequirements

Nombre Descripción Valor
containerResourceLimits Información de límite de recursos de contenedor: containerResourceSettings
containerResourceRequests Información de solicitud de recursos de contenedor: containerResourceSettings

ContainerResourceSettings

Nombre Descripción Valor
CPU Número de solicitudes o límites de vCPU para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda
Gpu Número de tarjetas gpu de Nvidia request/limit para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda
memoria Solicitud o límite de tamaño de memoria para el contenedor. Más información:
https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/
cuerda

DataCollector

Nombre Descripción Valor
colecciones [Obligatorio] Configuración de la colección. Cada colección tiene su propia configuración para recopilar datos del modelo y el nombre de la colección puede ser una cadena arbitraria.
El recopilador de datos del modelo se puede usar para el registro de carga o para el registro personalizado o para ambos. La solicitud de recopilación y la respuesta están reservadas para el registro de carga, otras son para el registro personalizado.
DataCollectorCollections (obligatorio)
requestLogging La configuración de registro de solicitudes para mdc, incluye opciones de registro avanzadas para todas las colecciones. Es opcional. RequestLogging
rollingRate Cuando los datos del modelo se recopilan en Blob Storage, es necesario implementar los datos en una ruta de acceso diferente para evitar el registro de todos ellos en un solo archivo de blobs.
Si la velocidad gradual es de hora, todos los datos se recopilarán en la ruta de acceso del blob /yyyy/MM/dd/HH/.
Si es día, todos los datos se recopilarán en la ruta de acceso del blob /aaaa/MM/dd/.
La otra ventaja de la ruta de acceso gradual es que la interfaz de usuario de supervisión de modelos puede seleccionar un intervalo de tiempo de datos muy rápidamente.
'Día'
'Hora'
'Minuto'
'Mes'
'Año'

DataCollectorCollections

Nombre Descripción Valor

DefaultScaleSettings

Nombre Descripción Valor
scaleType [Obligatorio] Tipo de algoritmo de escalado de implementación 'Default' (obligatorio)

EndpointDeploymentPropertiesBaseEnvironmentVariables

Nombre Descripción Valor

EndpointDeploymentPropertiesBaseProperties

Nombre Descripción Valor

KubernetesOnlineDeployment

Nombre Descripción Valor
containerResourceRequirements Requisitos de recursos para el contenedor (cpu y memoria). containerResourceRequirements
endpointComputeType [Obligatorio] Tipo de proceso del punto de conexión. 'Kubernetes' (obligatorio)

ManagedOnlineDeployment

Nombre Descripción Valor
endpointComputeType [Obligatorio] Tipo de proceso del punto de conexión. "Administrado" (obligatorio)

ManagedServiceIdentity

Nombre Descripción Valor
tipo Tipo de identidad de servicio administrada (donde se permiten los tipos SystemAssigned y UserAssigned). 'Ninguno'
'SystemAssigned'
'SystemAssigned,UserAssigned'
'UserAssigned' (obligatorio)
userAssignedIdentities Conjunto de identidades asignadas por el usuario asociadas al recurso. Las claves de diccionario userAssignedIdentities serán identificadores de recursos de ARM con el formato: '/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.ManagedIdentity/userAssignedIdentities/{identityName}. Los valores del diccionario pueden ser objetos vacíos ({}) en las solicitudes. UserAssignedIdentities

Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments

Nombre Descripción Valor
identidad Identidad de servicio administrada (identidades asignadas por el sistema o asignadas por el usuario) managedServiceIdentity
amable Metadatos usados por el portal,herramientas/etcetera para representar experiencias de experiencia de usuario diferentes para los recursos del mismo tipo. cuerda
ubicación Ubicación geográfica donde reside el recurso string (obligatorio)
nombre El nombre del recurso cuerda

Restricciones:
Patrón = ^[a-zA-Z0-9][a-zA-Z0-9\-_]{0,254}$ (obligatorio)
parent_id Identificador del recurso que es el elemento primario de este recurso. Identificador del recurso de tipo: áreas de trabajo/onlineEndpoints
Propiedades [Obligatorio] Atributos adicionales de la entidad. OnlineDeploymentProperties (obligatorio)
Sku Detalles de SKU necesarios para el contrato arm para el escalado automático. Sku de
Etiquetas Etiquetas del recurso Diccionario de nombres y valores de etiqueta.
tipo El tipo de recurso "Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments@2024-07-01-preview"

OnlineDeploymentProperties

Nombre Descripción Valor
appInsightsEnabled Si es true, habilita el registro de Application Insights. Bool
codeConfiguration Configuración de código para la implementación del punto de conexión. CodeConfiguration
dataCollector La configuración de mdc, deshabilitamos mdc cuando es null. DataCollector
descripción Descripción de la implementación del punto de conexión. cuerda
egressPublicNetworkAccess Si está habilitado, permita el acceso a la red pública de salida. Si está deshabilitado, se creará una salida segura. Valor predeterminado: habilitado. 'Deshabilitado'
'Habilitado'
endpointComputeType Establezca en "Kubernetes" para el tipo KubernetesOnlineDeployment. Establezca en "Administrado" para el tipo ManagedOnlineDeployment. "Kubernetes"
"Administrado" (obligatorio)
environmentId Identificador de recurso de ARM o AssetId de la especificación del entorno para la implementación del punto de conexión. cuerda
environmentVariables Configuración de variables de entorno para la implementación. EndpointDeploymentPropertiesBaseEnvironmentVariables
instanceType Tipo de instancia de proceso. cuerda
livenessProbe El sondeo de ejecución supervisa periódicamente el estado del contenedor. probeSettings
modelo Ruta de acceso del URI al modelo. cuerda
modelMountPath Ruta de acceso para montar el modelo en un contenedor personalizado. cuerda
Propiedades Diccionario de propiedades. Se pueden agregar propiedades, pero no se pueden quitar ni modificar. EndpointDeploymentPropertiesBaseProperties
readinessProbe El sondeo de preparación valida si el contenedor está listo para atender el tráfico. Las propiedades y los valores predeterminados son los mismos que el sondeo de ejecución. probeSettings
requestSettings Configuración de la solicitud para la implementación. OnlineRequestSettings
scaleSettings Configuración de escalado para la implementación.
Si es null o no se proporciona,
el valor predeterminado es TargetUtilizationScaleSettings para KubernetesOnlineDeployment.
y a DefaultScaleSettings para ManagedOnlineDeployment.
OnlineScaleSettings

OnlineRequestSettings

Nombre Descripción Valor
maxConcurrentRequestsPerInstance Número de solicitudes simultáneas máximas por nodo permitidas por implementación. El valor predeterminado es 1. Int
maxQueueWait (en desuso para puntos de conexión en línea administrados) La cantidad máxima de tiempo que una solicitud permanecerá en la cola en formato ISO 8601.
El valor predeterminado es 500 ms.
(Ahora aumente request_timeout_ms para tener en cuenta los retrasos en las redes o colas).
cuerda
requestTimeout Tiempo de espera de puntuación en formato ISO 8601.
El valor predeterminado es 5000 ms.
cuerda

OnlineScaleSettings

Nombre Descripción Valor
scaleType Establezca en "Default" para el tipo DefaultScaleSettings. Establezca en "TargetUtilization" para el tipo TargetUtilizationScaleSettings. 'Valor predeterminado'
'TargetUtilization' (obligatorio)

ProbeSettings

Nombre Descripción Valor
failureThreshold Número de errores que se deben permitir antes de devolver un estado incorrecto. Int
initialDelay Retraso antes del primer sondeo en formato ISO 8601. cuerda
periodo El período de tiempo entre sondeos en formato ISO 8601. cuerda
successThreshold Número de sondeos correctos antes de devolver un estado correcto. Int
interrupción Tiempo de espera del sondeo en formato ISO 8601. cuerda

RequestLogging

Nombre Descripción Valor
captureHeaders Para el registro de carga, solo recopilamos la carga de forma predeterminada. Si los clientes también quieren recopilar los encabezados especificados, pueden establecerlos en captureHeaders para que el back-end recopile esos encabezados junto con la carga útil. string[]

Sku

Nombre Descripción Valor
capacidad Si la SKU admite el escalado horizontal o horizontal, se debe incluir el entero de capacidad. Si no es posible escalar horizontalmente o reducir horizontalmente el recurso, se puede omitir. Int
familia Si el servicio tiene diferentes generaciones de hardware, para la misma SKU, se puede capturar aquí. cuerda
nombre Nombre de la SKU. Por ejemplo, P3. Normalmente es un código de letra y número string (obligatorio)
tamaño Tamaño de la SKU. Cuando el campo de nombre es la combinación de nivel y otro valor, este sería el código independiente. cuerda
nivel El proveedor de recursos necesita implementar este campo si el servicio tiene más de un nivel, pero no es necesario en put. "Básico"
"Gratis"
'Premium'
'Estándar'

TargetUtilizationScaleSettings

Nombre Descripción Valor
maxInstances Número máximo de instancias a las que la implementación se puede escalar. La cuota se reservará para max_instances. Int
minInstances El número mínimo de instancias que siempre se van a presentar. Int
pollingInterval Intervalo de sondeo en formato ISO 8691. Solo admite la duración con una precisión tan baja como Segundos. cuerda
scaleType [Obligatorio] Tipo de algoritmo de escalado de implementación 'TargetUtilization' (obligatorio)
targetUtilizationPercentage Uso de CPU de destino para el escalador automático. Int

TrackedResourceTags

Nombre Descripción Valor

UserAssignedIdentities

Nombre Descripción Valor

UserAssignedIdentity

Nombre Descripción Valor