Identificar ativos do Azure Machine Learning

Concluído

Como cientista de dados, você trabalha principalmente com ativos no espaço de trabalho do Azure Machine Learning. Os ativos são criados e usados em vários estágios de um projeto e incluem:

  • Modelos
  • Ambientes
  • Dados
  • Componentes

Criar e gerenciar modelos

O produto final do treinamento de um modelo é o próprio modelo. Você pode treinar modelos de aprendizado de máquina com várias estruturas, como Scikit-learn ou PyTorch. Uma maneira comum de armazenar esses modelos é empacotar o modelo como um arquivo pickle Python (.pkl extensão).

Como alternativa, você pode usar a plataforma de código aberto MLflow para armazenar seu modelo no formato MLModel.

Seja qual for o formato escolhido, os arquivos binários representam o modelo e quaisquer metadados correspondentes. Para persistir esses arquivos, você pode criar ou registrar um modelo no espaço de trabalho.

Ao criar um modelo no espaço de trabalho, você especifica o nome e a versão. Especialmente útil quando você implanta o modelo registrado, o controle de versão permite que você acompanhe o modelo específico que deseja usar.

Criar e gerir ambientes

Quando você trabalha com computação em nuvem, é importante garantir que seu código seja executado em qualquer computação que esteja disponível para você. Se você deseja executar um script em uma instância de computação ou em um cluster de computação, o código deve ser executado com êxito.

Imagine trabalhar em Python ou R, usando estruturas de código aberto para treinar um modelo, em seu dispositivo local. Se você quiser usar uma biblioteca como Scikit-learn ou PyTorch, você tem que instalá-lo em seu dispositivo.

Da mesma forma, quando você escreve código que usa quaisquer estruturas ou bibliotecas, você precisa garantir que as dependências necessárias sejam instaladas na computação que executa o código. Para listar todos os requisitos necessários, você pode criar ambientes. Ao criar um ambiente, você precisa especificar o nome e a versão.

Os ambientes especificam pacotes de software, variáveis de ambiente e configurações de software para executar scripts. Um ambiente é armazenado como uma imagem no Registro de Contêiner do Azure criado com o espaço de trabalho quando ele é usado pela primeira vez.

Sempre que quiser executar um script, você pode especificar o ambiente que precisa ser usado pelo destino de computação. O ambiente instala todos os requisitos necessários na computação antes de executar o script, tornando seu código robusto e reutilizável entre destinos de computação.

Criar e gerir dados

Enquanto os armazenamentos de dados contêm as informações de conexão com os serviços de armazenamento de dados do Azure, os ativos de dados se referem a um arquivo ou pasta específica.

Você pode usar ativos de dados para acessar facilmente os dados sempre, sem ter que fornecer autenticação toda vez que quiser acessá-los.

Ao criar um ativo de dados no espaço de trabalho, você especifica o caminho para apontar para o arquivo ou pasta, bem como o nome e a versão.

Criar e gerenciar componentes

Para treinar modelos de aprendizado de máquina, você escreve código. Em todos os projetos, pode haver código que você pode reutilizar. Em vez de escrever código do zero, você deseja reutilizar trechos de código de outros projetos.

Para facilitar o compartilhamento de código, você pode criar um componente em um espaço de trabalho. Para criar um componente, você precisa especificar o nome, a versão, o código e o ambiente necessários para executar o código.

Você pode usar componentes ao criar pipelines. Portanto, um componente geralmente representa uma etapa em um pipeline, por exemplo, para normalizar dados, treinar um modelo de regressão ou testar o modelo treinado em um conjunto de dados de validação.