Identificar ativos do Azure Machine Learning

Concluído

Como cientista de dados, você trabalha principalmente com ativos no workspace do Azure Machine Learning. Os ativos são criados e usados em vários estágios de um projeto e incluem:

  • Modelos
  • Ambientes
  • Dados
  • Componentes

Criar e gerenciar modelos

O produto final do treinamento de um modelo é o próprio modelo. Você pode treinar modelos de machine learning com várias estruturas, como Scikit-learn ou PyTorch. Uma maneira comum de armazenar esses modelos é empacotar o modelo como um arquivo pickle (extensão .pkl) do Python.

Como alternativa, você pode usar a plataforma de software livre MLflow para armazenar seu modelo no formato MLModel.

Seja qual for o formato escolhido, os arquivos binários representam o modelo e os metadados correspondentes. Para persistir esses arquivos, você pode criar ou registrar um modelo no workspace.

Ao criar um modelo no workspace, você especifica o nome e a versão. Especialmente útil quando você implanta o modelo registrado, o controle de versão permite que você acompanhe o modelo específico que deseja usar.

Criar e gerenciar ambientes

Quando você trabalha com computação em nuvem, é importante garantir que seu código seja executado em qualquer dispositivo de computação disponível para você. Se você quiser executar um script em uma instância ou cluster de computação, o código deve ser executado com êxito.

Imagine trabalhar em Python ou R, usando estruturas de software livre para treinar um modelo, em seu dispositivo local. Se você quiser usar uma biblioteca, como a Scikit-learn ou PyTorch, precisará instalá-la em seu dispositivo.

Da mesma forma, ao escrever um código que usa estruturas ou bibliotecas, você precisará garantir que as dependências necessárias sejam instaladas na computação que executa o código. Para listar todos os requisitos necessários, você pode criar ambientes. Ao criar um ambiente, você precisa especificar o nome e a versão.

Os ambientes especificam pacotes de software, variáveis de ambiente e configurações de software para executar scripts. Um ambiente é armazenado como uma imagem no Registro de Contêiner do Azure, criado com o workspace quando é usado pela primeira vez.

Sempre que quiser executar um script, você poderá especificar o ambiente que deve ser usado pelo destino de computação. O ambiente instala todos os requisitos necessários para a computação antes de executar o script, tornando seu código robusto e reutilizável entre vários destinos de computação.

Criar e gerenciar dados

Enquanto os armazenamentos de dados contêm as informações de conexão com os serviços de armazenamento de dados do Azure, os ativos de dados referem-se a um arquivo ou pasta específico.

É possível usar ativos de dados para acessar facilmente os dados todas as vezes, sem precisar fornecer autenticação sempre que quiser acessá-los.

Ao criar um ativo de dados no workspace, você especificará o caminho para apontar para o arquivo ou pasta e o nome e a versão.

Criar e gerenciar componentes

Para treinar modelos de machine learning, você escreve código. Entre projetos, talvez você possa reutilizar alguns códigos. Em vez de escrever o código desde o início, pode ser que você queira reutilizar snippets de código de outros projetos.

Para facilitar o compartilhamento de códigos, você pode criar um componente em um workspace. Para criar um componente, você precisa especificar o nome, a versão, o código e o ambiente necessários para executar o código.

Você pode usar componentes ao criar pipelines. Assim, um componente geralmente representa uma etapa em um pipeline, por exemplo, para normalizar dados, treinar um modelo de regressão ou testar o modelo treinado em um conjunto de dados de validação.