Compartilhar via


AksEndpoint Classe

Observação

Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa uma coleção de versões de serviço Web por trás do mesmo ponto de extremidade em execução no Serviço de Kubernetes do Azure.

Enquanto um AksWebservice implanta apenas um serviço com apenas um ponto de extremidade de pontuação, a classe AksEndpoint permite implantar várias versões de serviço Web no mesmo ponto de extremidade de pontuação. Cada versão de serviço Web pode ser configurada para atender a uma porcentagem do tráfego para que você possa implantar modelos de maneira controlada, por exemplo, para testes A/B. O AksEndpoint permite a implantação de um objeto de modelo semelhante ao AksWebservice.

Inicialize a instância do serviço Web.

O construtor webservice recupera uma representação na nuvem de um objeto de serviço Web associado ao workspace fornecido. Ele retornará uma instância de uma classe filho correspondente ao tipo específico do objeto webservice recuperado.

Herança
AksEndpoint

Construtor

AksEndpoint(workspace, name)

Parâmetros

Nome Description
workspace
Obrigatório

O objeto de workspace que contém o objeto de serviço Web a ser recuperado.

name
Obrigatório
str

O nome do objeto de serviço Web a ser recuperado.

Variáveis

Nome Description
versions

Um dicionário do nome da versão para o objeto de versão. Contém todas as versões implantadas como parte desse ponto de extremidade.

Métodos

create_version

Adiciona uma nova versão em um ponto de extremidade com as propriedades fornecidas.

delete_version

Exclui uma versão em um ponto de extremidade.

deploy_configuration

Cria um objeto de configuração para implantação em um destino de computação do AKS.

serialize

Converte esse serviço Web em um dicionário serializado JSON.

update

Atualiza o ponto de extremidade com as propriedades fornecidas.

Os valores deixados como None permanecerão inalterados neste ponto de extremidade

update_version

Atualiza uma versão existente em um ponto de extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

create_version

Adiciona uma nova versão em um ponto de extremidade com as propriedades fornecidas.

create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Nome Description
version_name
Obrigatório
str

O nome da versão a ser acrescentada em um ponto de extremidade.

autoscale_enabled

Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O padrão será True se num_replicas for Nenhum.

Valor padrão: None
autoscale_min_replicas
int

O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1

Valor padrão: None
autoscale_max_replicas
int

O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10

Valor padrão: None
autoscale_refresh_seconds
int

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1

Valor padrão: None
autoscale_target_utilization
int

A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70

Valor padrão: None
collect_model_data

Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão

Valor padrão: None
cpu_cores

O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1

Valor padrão: None
memory_gb

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5

Valor padrão: None
scoring_timeout_ms
int

Um tempo de execução para impor a pontuação de chamadas para essa versão em um ponto de extremidade. O valor padrão é 60000.

Valor padrão: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Valor padrão: None
max_request_wait_time
int

A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.

Valor padrão: None
num_replicas
int

O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.

Valor padrão: None
description
str

Uma descrição para dar a esse ponto de extremidade.

Valor padrão: None
models

Uma lista de objetos Modelo para pacote com o serviço atualizado.

Valor padrão: None
inference_config

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

Valor padrão: None
gpu_cores
int

O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.

Valor padrão: None
period_seconds
int

A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.

Valor padrão: None
initial_delay_seconds
int

O número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.

Valor padrão: None
timeout_seconds
int

O número de segundos após os quais a investigação de atividade atinge o tempo limite. O valor padrão é 2 segundos. O valor mínimo é 1.

Valor padrão: None
success_threshold
int

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

Valor padrão: None
failure_threshold
int

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

Valor padrão: None
traffic_percentile

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

Valor padrão: None
is_default

Se esta versão deve ou não ser a versão padrão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
is_control_version_type

Se esta versão deve ou não ser uma versão de controle em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
cpu_cores_limit

O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None
memory_gb_limit

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None

Exceções

Tipo Description

delete_version

Exclui uma versão em um ponto de extremidade.

delete_version(version_name)

Parâmetros

Nome Description
version_name
Obrigatório
str

O nome da versão em um ponto de extremidade a ser excluído.

Exceções

Tipo Description

deploy_configuration

Cria um objeto de configuração para implantação em um destino de computação do AKS.

static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Nome Description
autoscale_enabled

Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O padrão será True se num_replicas for Nenhum.

Valor padrão: None
autoscale_min_replicas
int

O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1.

Valor padrão: None
autoscale_max_replicas
int

O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10.

Valor padrão: None
autoscale_refresh_seconds
int

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1.

Valor padrão: None
autoscale_target_utilization
int

A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70.

Valor padrão: None
collect_model_data

Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
auth_enabled

Se deve ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.

Valor padrão: None
cpu_cores

O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1

Valor padrão: None
memory_gb

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5

Valor padrão: None
enable_app_insights

Se deve ou não habilitar o log do ApplicationInsights para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
scoring_timeout_ms
int

Um tempo de vida para impor chamadas de pontuação a essa versão em um ponto de extremidade. O valor padrão é 60000

Valor padrão: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Valor padrão: None
max_request_wait_time
int

A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.

Valor padrão: None
num_replicas
int

O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

Valor padrão: None
primary_key
str

Uma chave de autenticação primária a ser usada para este ponto de extremidade.

Valor padrão: None
secondary_key
str

Uma chave de autenticação secundária a ser usada para este ponto de extremidade.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados

Valor padrão: None
description
str

Uma descrição para dar a esse ponto de extremidade.

Valor padrão: None
gpu_cores
int

O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.

Valor padrão: None
period_seconds
int

A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.

Valor padrão: None
initial_delay_seconds
int

Número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.

Valor padrão: None
timeout_seconds
int

Número de segundos após os quais a investigação de atividade expira. O valor padrão é 2 segundo. O valor mínimo é 1.

Valor padrão: None
success_threshold
int

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

Valor padrão: None
failure_threshold
int

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

Valor padrão: None
namespace
str

O namespace do Kubernetes no qual implantar este Ponto de extremidade: até 63 caracteres alfanuméricos minúsculos ('a'-'z', '0'-'9') e hífen ('-'). O primeiro e o último caracteres não podem ser hifens.

Valor padrão: None
token_auth_enabled

Se deve ou não habilitar a autenticação de Token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.

Valor padrão: None
version_name
str

O nome da versão em um ponto de extremidade.

Valor padrão: None
traffic_percentile

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

Valor padrão: None
compute_target_name
str

O nome do destino de computação a ser implantado

Valor padrão: None
cpu_cores_limit

O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None
memory_gb_limit

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None

Retornos

Tipo Description

Exceções

Tipo Description

serialize

Converte esse serviço Web em um dicionário serializado JSON.

serialize()

Retornos

Tipo Description

A representação JSON desse serviço Web.

Exceções

Tipo Description

update

Atualiza o ponto de extremidade com as propriedades fornecidas.

Os valores deixados como None permanecerão inalterados neste ponto de extremidade

update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)

Parâmetros

Nome Description
auth_enabled

Se deve ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.

Valor padrão: None
token_auth_enabled

Se deve ou não habilitar a autenticação de Token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.

Valor padrão: None
enable_app_insights

Se deve ou não habilitar o log do Application Insights para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
description
str

Uma descrição para dar a esse ponto de extremidade.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.

Valor padrão: None

Exceções

Tipo Description

update_version

Atualiza uma versão existente em um ponto de extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Nome Description
version_name
Obrigatório
str

O nome da versão em um ponto de extremidade.

autoscale_enabled

Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O valor padrão será True se num_replicas for None.

Valor padrão: None
autoscale_min_replicas
int

O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1.

Valor padrão: None
autoscale_max_replicas
int

O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10.

Valor padrão: None
autoscale_refresh_seconds
int

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1

Valor padrão: None
autoscale_target_utilization
int

A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70.

Valor padrão: None
collect_model_data

Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
cpu_cores

O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1

Valor padrão: None
memory_gb

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5

Valor padrão: None
scoring_timeout_ms
int

Um tempo de execução para impor a pontuação de chamadas para essa versão em um ponto de extremidade. O valor padrão é 60000.

Valor padrão: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Valor padrão: None
max_request_wait_time
int

A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.

Valor padrão: None
num_replicas
int

O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.

Valor padrão: None
description
str

Uma descrição para dar a esse ponto de extremidade

Valor padrão: None
models

Uma lista de objetos Modelo para pacote com o serviço atualizado

Valor padrão: None
inference_config

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

Valor padrão: None
gpu_cores
int

O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.

Valor padrão: None
period_seconds
int

A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.

Valor padrão: None
initial_delay_seconds
int

O número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.

Valor padrão: None
timeout_seconds
int

O número de segundos após os quais a investigação de atividade atinge o tempo limite. O valor padrão é 2 segundos. O valor mínimo é 1.

Valor padrão: None
success_threshold
int

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

Valor padrão: None
failure_threshold
int

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

Valor padrão: None
traffic_percentile

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

Valor padrão: None
is_default

Se esta versão deve ou não ser a versão padrão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
is_control_version_type

Se esta versão deve ou não ser uma versão de controle em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
cpu_cores_limit

O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None
memory_gb_limit

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None

Exceções

Tipo Description