Partilhar via


Criar pontos de extremidade para serviços Web implantados do Machine Learning Studio (clássico)

APLICA-SE A: Aplica-se a.Machine Learning Studio (clássico) Não se aplica a.Azure Machine Learning

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Depois de implementar um serviço Web, é criado um ponto final predefinido para esse serviço. O ponto final predefinido pode ser chamado através da respetiva chave de API. Você pode adicionar mais pontos de extremidade com suas próprias chaves no portal de Serviços Web. Cada ponto de extremidade no serviço Web é abordado, limitado e gerenciado de forma independente. Cada ponto de extremidade é uma URL exclusiva com uma chave de autorização que você pode distribuir aos seus clientes.

Adicionar pontos de extremidade a um serviço Web

Você pode adicionar um ponto de extremidade a um serviço Web usando o portal de Serviços Web de Aprendizado de Máquina. Depois que o ponto de extremidade é criado, você pode consumi-lo por meio de APIs síncronas, APIs em lote e planilhas do Excel.

Nota

Se você adicionou pontos de extremidade adicionais ao serviço Web, não poderá excluir o ponto de extremidade padrão.

  1. No Estúdio de Aprendizado de Máquina (clássico), na coluna de navegação à esquerda, clique em Serviços Web.
  2. Na parte inferior do painel do serviço Web, clique em Gerenciar pontos de extremidade. O portal de Serviços Web de Aprendizado de Máquina é aberto na página de pontos de extremidade do serviço Web.
  3. Clique em Novo.
  4. Digite um nome e uma descrição para o novo ponto de extremidade. Os nomes dos pontos finais devem ter 24 caracteres ou menos e devem ser compostos por alfabetos ou números minúsculos. Selecione o nível de log e se os dados de exemplo estão habilitados. Para obter mais informações sobre o registro em log, consulte Habilitar o log para serviços Web de Aprendizado de Máquina.

Dimensionar um serviço Web adicionando pontos de extremidade adicionais

Por padrão, cada serviço Web publicado é configurado para suportar 20 solicitações simultâneas e pode chegar a 200 solicitações simultâneas. O Machine Learning Studio (clássico) otimiza automaticamente a configuração para fornecer o melhor desempenho para seu serviço Web e o valor do portal é ignorado.

Se você planeja chamar a API com uma carga maior do que um valor máximo de chamadas simultâneas de 200 suportará, você deve criar vários pontos de extremidade no mesmo serviço Web. Em seguida, você pode distribuir aleatoriamente sua carga em todos eles.

O dimensionamento de um serviço Web é uma tarefa comum. Alguns motivos para dimensionar são oferecer suporte a mais de 200 solicitações simultâneas, aumentar a disponibilidade por meio de vários pontos de extremidade ou fornecer pontos de extremidade separados para o serviço Web. Você pode aumentar a escala adicionando pontos de extremidade adicionais para o mesmo serviço Web por meio do portal do Serviço Web de Aprendizado de Máquina.

Lembre-se de que usar uma contagem de simultaneidade alta pode ser prejudicial se você não estiver chamando a API com uma taxa correspondentemente alta. Você pode ver tempos limite esporádicos e/ou picos na latência se colocar uma carga relativamente baixa em uma API configurada para alta carga.

As APIs síncronas são normalmente usadas em situações em que uma latência baixa é desejada. A latência aqui implica o tempo que a API leva para concluir uma solicitação e não leva em conta nenhum atraso na rede. Digamos que você tenha uma API com uma latência de 50 ms. Para consumir totalmente a capacidade disponível com o nível de aceleração High e Max Concurrent Calls = 20, você precisa chamar essa API 20 * 1000 / 50 = 400 vezes por segundo. Estendendo isso ainda mais, um máximo de chamadas simultâneas de 200 permite que você chame a API 4000 vezes por segundo, assumindo uma latência de 50 ms.

Próximos passos

Como consumir um serviço Web de Machine Learning.