Explorar modelos de linguagem de ajuste fino no Estúdio de IA do Azure

Concluído

Quando quiser ajustar um modelo de linguagem, você pode usar um modelo base ou de base que já esteja pré-treinado em grandes quantidades de dados. Há muitos modelos de base disponíveis por meio do catálogo de modelos no Estúdio de IA do Azure. Você pode ajustar modelos base em várias tarefas, como classificação de texto, tradução ou conclusão de chat.

Quando você deseja usar um modelo ajustado para gerar respostas em um aplicativo de chat, é necessário usar um modelo base que possa ser ajustado em uma tarefa de conclusão de chat. O catálogo de modelos do Estúdio de IA do Azure permite filtrar com base em tarefas de ajuste fino para decidir qual modelo base selecionar. Você pode, por exemplo, selecionar um modelo GPT-4 ou Llama-2-7b para ajustar seus próprios dados de treinamento.

Para ajustar um modelo de linguagem do catálogo de modelos do Estúdio de IA do Azure, você pode usar a interface do usuário fornecida no estúdio.

Selecione um modelo base

No portal do Azure AI Foundry, você pode navegar até o catálogo de modelos para explorar todos os modelos de linguagem disponíveis.

Observação

Embora todos os modelos de linguagem disponíveis apareçam no catálogo de modelos do Estúdio de IA do Azure, talvez você não consiga ajustar o modelo desejado dependendo da cota disponível. Verifique se o modelo em que você deseja ajustar está disponível na região em que você criou o hub de IA.

Você pode filtrar os modelos disponíveis com base na tarefa para a qual deseja ajustar um modelo. A cada tarefa, você tem várias opções de modelos de base entre os quais escolher. Ao decidir entre os modelos de base para uma tarefa, você pode examinar a descrição do modelo e o cartão de modelo referenciado.

Estas são algumas considerações que você pode levar em conta ao decidir sobre um modelo de base antes do ajuste:

  • Funcionalidades do modelo: avalie as funcionalidades do modelo de base e o quanto elas se alinham à sua tarefa. Por exemplo, um modelo como BERT é melhor para entender textos curtos.
  • Dados de pré-treinamento: considere o conjunto de dados usado para pré-treinar o modelo de base. Por exemplo, o GPT-2 é treinado em conteúdo não filtrado da Internet que pode resultar em vieses.
  • Limitações e vieses: esteja ciente de eventuais limitações ou vieses que podem estar presentes no modelo de base.
  • Suporte a idiomas: explore quais modelos dão suporte a idiomas específicos ou a recursos multilíngues necessários para seu caso de uso.

Dica

Embora o Estúdio de IA do Azure forneça descrições para cada modelo de base no catálogo de modelos, você também pode encontrar mais informações sobre cada modelo por meio do respectivo cartão de modelo. Os cartões de modelo são referenciados na visão geral de cada modelo e hospedados no site do Hugging Face.

Configurar o trabalho de ajuste fino

Para configurar um trabalho de ajuste usando o Estúdio de IA do Azure, você precisa executar as seguintes etapas:

  1. Selecionar um modelo base.
  2. Selecione seus dados de treinamento.
  3. (Opcional) Selecione seus dados de validação.
  4. Configurar as opções avançadas.

Quando você envia um modelo para ajuste fino, o modelo é treinado ainda mais em seus dados. Para configurar o trabalho de ajuste fino ou treinamento, você pode especificar as seguintes opções avançadas:

Nome Descrição
batch_size O tamanho do lote que será usado para treinamento. O tamanho do lote é o número de exemplos de treinamento usados para treinar uma única passagem para frente e para trás. Em geral, tamanhos de lote maiores tendem a funcionar melhor para conjuntos de dados maiores. O valor padrão e o valor máximo dessa propriedade são específicos para um modelo base. Um tamanho de lote maior significa que os parâmetros de modelo são atualizados com menos frequência, mas com menor variação.
learning_rate_multiplier O multiplicador de taxa de aprendizado a ser usado para treinamento. A taxa de aprendizado de ajuste fino é a taxa de aprendizado original usada para pré-treinamento multiplicado por esse valor. Taxas de aprendizagem maiores tendem a ter um desempenho melhor com tamanhos de lote maiores. É recomendável experimentar valores no intervalo de 0,02 a 0,2 para ver o que produz os melhores resultados. Uma taxa de aprendizagem menor pode ser útil para evitar o sobreajuste.
n_epochs O número de períodos para treinamento do modelo. Um período refere-se a um ciclo completo através do conjunto de dados de treinamento.
seed A semente controla a reprodutibilidade do trabalho. Passar os mesmos parâmetros iniciais e de trabalho deve produzir os mesmos resultados, mas pode diferir em casos raros. Se uma semente não for especificada, uma será gerada para você.

Após enviar o trabalho de ajuste, um trabalho de pipeline será criado para treinar o modelo. Você pode examinar o status do trabalho enquanto ele está em execução. Depois que o trabalho for concluído, você poderá examinar os parâmetros de entrada quando quiser entender como o modelo ajustado foi criado.

Se você adicionou um conjunto de dados de validação, poderá examinar o desempenho do modelo explorando como ele foi executado em seu conjunto de dados de validação.

Como alternativa, você sempre pode implantar um modelo ajustado. Depois de implantar o modelo, você pode testá-lo para avaliar seu desempenho. Quando estiver satisfeito com seu modelo ajustado, você poderá integrar o modelo implantado ao seu aplicativo de chat.