Exibir, gerenciar e analisar execuções de ajuste fino do Modelo de Base

Artigo
11/19/2024

Importante

Este recurso está na visualização pública nas seguintes regiões: centralus, eastus, eastus2, northcentraluse westus.

Este artigo descreve como exibir, gerenciar e analisar o ajuste fino do modelo básico (agora parte do Mosaic AI Model Training) executado usando APIs ou usando a interface do usuário.

Para obter informações sobre como criar execuções, consulte Criar uma execução de treinamento usando a API de ajuste fino do modelo básico e Criar uma execução de treinamento usando a interface do usuário de ajuste fino do modelo básico.

Use APIs de ajuste fino do modelo básico para exibir e gerenciar execuções de treinamento

As APIs de ajuste fino do modelo básico fornecem as seguintes funções para gerenciar suas execuções de treinamento.

Corra

Use a get() função para retornar uma execução por nome ou objeto de execução que você iniciou.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Execuções de lista

Use a list() função para ver as execuções que você iniciou. A tabela a seguir lista os filtros opcionais que você pode especificar.

Filtro opcional	Definição
`finetuning_runs`	Uma lista de execuções para obter. O padrão é selecionar todas as execuções.
`user_emails`	Se as execuções compartilhadas estiverem habilitadas para seu espaço de trabalho, você poderá filtrar os resultados pelo usuário que enviou a execução de treinamento. O padrão é nenhum filtro de usuário.
`before`	Uma cadeia de caracteres datetime ou datetime para filtrar é executada antes. O padrão é para todas as execuções.
`after`	Uma cadeia de caracteres datetime ou datetime para filtrar é executada depois. O padrão é para todas as execuções.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Cancelar treinos

Para cancelar uma única execução de treinamento, use a cancel() função e passe o nome da corrida.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Para cancelar várias execuções de treinamento, passe os nomes de execução específicos como uma lista.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Para cancelar todas as execuções de treinamento em um experimento, passe no ID do experimento.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Rever o estado das execuções de formação

A tabela a seguir lista os eventos criados por uma execução de treinamento. Use a função a qualquer momento durante a get_events() corrida para ver o progresso da mesma.

Nota

O ajuste fino do modelo básico impõe um limite de 10 execuções ativas. Essas execuções que estão na fila, em execução ou terminando. As execuções não são mais consideradas ativas depois de estarem no estado CONCLUÍDO, FALHADO ou INTERROMPIDO.

Tipo de evento	Exemplo de mensagem de evento	Definição
`CREATED`	Executar criado.	Foi criada uma corrida de formação. Se os recursos estiverem disponíveis, a execução será iniciada. Caso contrário, entra no `Pending` Estado.
`STARTED`	Execução iniciada.	Os recursos foram alocados e a corrida já começou.
`DATA_VALIDATED`	Dados de treinamento validados.	Validado que os dados de treinamento estão formatados corretamente.
`MODEL_INITIALIZED`	Dados do modelo baixados e inicializados para o modelo `meta-llama/Llama-2-7b-chat-hf`base.	Os pesos para o modelo base foram baixados e o treinamento está pronto para começar.
`TRAIN_UPDATED`	[época=1/1][lote=50/56][ETA=5min] Perda de comboio: 1.71	Relata o lote de treinamento, época ou token atual, o tempo estimado para o treinamento terminar (não incluindo o tempo de carregamento do ponto de verificação) e a perda do trem. Este evento é atualizado quando cada lote termina. Se a configuração de execução especificar `max_duration` em `tok` unidades, o progresso será relatado em tokens.
`TRAIN_FINISHED`	Formação concluída.	A formação terminou. O carregamento do ponto de verificação começa.
`COMPLETED`	Execução concluída. Pesos finais carregados.	O ponto de verificação foi carregado e a execução foi concluída.
`CANCELED`	Execução cancelada.	A execução é cancelada se `fm.cancel()` for chamada.
`FAILED`	Uma ou mais amostras de conjunto de dados de trem têm chaves desconhecidas. Consulte a documentação para obter os formatos de dados suportados.	A execução falhou. Verifique `event_message` se há detalhes acionáveis ou entre em contato com o suporte.

from databricks.model_training import foundation_model as fm

fm.get_events()

Usar a interface do usuário para exibir e gerenciar execuções

Para exibir execuções na interface do usuário:

Clique em Experiências na barra de navegação esquerda para apresentar a página Experiências.
Na tabela, clique no nome do experimento para exibir a página do experimento. A página do experimento lista todas as execuções associadas ao experimento.
Para exibir informações ou métricas adicionais na tabela, clique e selecione os itens a serem exibidos no menu:
Informações adicionais de execução estão disponíveis na guia Gráfico :
Você também pode clicar no nome da execução para exibir a tela de execução. Esta tela dá acesso a detalhes adicionais sobre a execução.

Pontos de verificação

Para acessar a pasta de ponto de verificação, clique na guia Artefatos na tela de execução. Abra o nome da experiência e, em seguida, abra a pasta de pontos de verificação. Esses pontos de verificação de artefato não são os mesmos que o modelo registrado no final de uma execução de treinamento.

Pasta de ponto de verificação na guia Artefatos

Existem alguns diretórios nesta pasta:

As pastas de época (nomeadas ep<n>-xxx) contêm os pesos e estados do modelo em cada ponto de verificação do Composer. Os pontos de verificação do compositor são salvos periodicamente através de treinamento, estes são usados para retomar uma execução de treinamento de ajuste fino e ajuste fino contínuo. Este ponto de verificação é aquele que você passa como o custom_weights_path para iniciar outra corrida de treinamento a partir desses pesos, consulte Construir sobre pesos de modelo personalizados.
Na pasta, os pontos de verificação do Hugging Face também são salvos periodicamente por meio de huggingface treinamento. Depois de baixar o conteúdo desta pasta, você pode carregar esses pontos de verificação como faria com qualquer outro ponto de verificação do Hugging Face usando AutoModelForCausalLM.from_pretrained(<downloaded folder>)o .
O checkpoints/latest-sharded-rank0.symlink é um arquivo que contém o caminho para o ponto de verificação mais recente, que você pode usar para retomar o treinamento.

Você também pode obter os pontos de verificação do Composer para uma execução depois que eles forem salvos usando get_checkpoints(run)o . Esta função usa o objeto run como a entrada. Se os pontos de verificação ainda não existirem, você será solicitado a tentar novamente depois que os pontos de verificação forem salvos.

Partilhar via