Explorar os modelos de linguagem no catálogo de modelos

Concluído

Selecionar um modelo de linguagem para seu aplicativo de IA generativa é importante, pois isso afeta o desempenho do aplicativo. Ao desenvolver um aplicativo de IA generativa com o Azure AI Foundry, você cria um aplicativo de chat que pode usar modelos de linguagem para várias finalidades:

  • Para entender a pergunta do usuário.
  • Para pesquisar o contexto relevante.
  • Para gerar uma resposta para a pergunta do usuário.

No portal do Azure AI Foundry, você pode navegar pelos modelos de linguagem disponíveis no catálogo de modelos. Vamos explorar o catálogo de modelos e os tipos de modelo de linguagem disponíveis por meio da IA do Azure.

Explorar o catálogo de modelos

No portal do Azure AI Foundry, você pode navegar até o catálogo de modelos para explorar todos os modelos de linguagem disponíveis. Além disso, você pode importar qualquer modelo da biblioteca de software livre do Hugging Face para o catálogo de modelos.

Dica

O Hugging Face é uma comunidade de software livre que disponibiliza modelos para o público. Você pode encontrar todos os modelos em seus catálogos. Além disso, você pode explorar a documentação para saber mais sobre como os modelos individuais funcionam, como o BERT.

Captura de tela do catálogo de modelos no portal do Azure AI Foundry.

O catálogo de modelos do Azure AI Foundry se integra a modelos do Hugging Face e de outras fontes. Por meio do catálogo de modelos, você pode explorar, ajustar e implantar modelos.

Importante

A disponibilidade de modelos difere por local, também conhecida como região. Sua localização é especificada no nível do hub de IA. Ao criar um novo Hub de IA, você pode usar o Auxiliar de localização para especificar o modelo que deseja implantar para obter uma lista de locais em que você pode implantá-lo. Você também pode explorar a tabela de resumo do modelo e a disponibilidade por região para saber mais.

Explorar modelos de linguagem

Os modelos de base ou de linguagem disponíveis no catálogo de modelos já são pré-treinados. Você pode implantar um modelo de linguagem em um ponto de extremidade ou ajustar um modelo para que ele tenha um desempenho melhor em uma tarefa especializada ou em conhecimentos específicos do domínio.

Seu modelo selecionado depende das preferências de caso de uso e implantação. Em primeiro lugar, você precisa pensar na tarefa que você deseja que o modelo execute. Por exemplo:

  • Classificação de texto
  • Classificação de token
  • Respostas às perguntas
  • Resumo
  • Tradução

Alguns modelos de linguagem que normalmente são usados para várias tarefas são:

Modelo Descrição
BERT (Representações de codificador bidirecional de transformadores) Focado na codificação de informações usando o contexto de antes e depois de um token (bidirecional). Normalmente usado quando você deseja ajustar um modelo para executar uma tarefa específica, como classificar texto e responder perguntas.
GPT (Transformador generativo pré-treinado) Treinado para criar texto coerente e contextualmente relevante e é mais comumente usado para tarefas como geração de texto e conclusões de chat.
LLaMA (Meta AI de modelo de linguagem grande) Uma família de modelos criados pelo Meta. Ao treinar modelos LLaMA, o foco tem sido fornecer mais dados de treinamento do que aumentar a complexidade dos modelos. Você pode usar modelos LLaMA para geração de texto e conclusões de chat.
Phi-3-mini (variação de parâmetros 3.8B dos modelos phi) Um modelo leve e de última geração otimizado para ambientes restritos a recursos e inferência local (como em um telefone), oferecendo suporte a prompts de contexto longo de até tokens 128k. Ele é desenvolvido com foco em segurança, alinhamento e aprendizado de reforço com o feedback humano.

Depois de selecionar uma tarefa e filtrar os modelos disponíveis que são adequados para seu objetivo, você poderá revisar o resumo do modelo no Azure AI Foundry para levar em consideração outros aspectos:

  • Funcionalidades do modelo: Avalie os recursos do modelo de linguagem e quão bem eles se alinham com a sua tarefa. Por exemplo, um modelo como BERT é melhor para entender textos curtos.
  • Pré-treinamento de dados: Considere o conjunto de dados usado para pré-treinar o modelo de linguagem. Por exemplo, o GPT-2 é treinado em conteúdo não filtrado da Internet que pode resultar em vieses.
  • Limitações e preconceitos: Lembre-se de quaisquer limitações ou preconceitos que possam estar presentes no modelo de linguagem.
  • Suporte a idiomas: explore quais modelos dão suporte a idiomas específicos ou a recursos multilíngues necessários para seu caso de uso.

Dica

Embora o Azure AI Foundry forneça descrições de cada modelo de linguagem no catálogo de modelos, você também pode encontrar mais informações sobre cada modelo por meio do respectivo cartão de modelo. Os cartões de modelo são referenciados na visão geral de cada modelo e hospedados no site do Hugging Face

Compare benchmarks entre modelos

Ao explorar modelos de linguagem, você também pode comparar os parâmetros de comparação de modelo disponíveis para avaliar a qualidade dos modelos antes de implantar e integrar um modelo. Os parâmetros de comparação são como cartões de relatório para modelos de linguagem. Os parâmetros de comparação ajudam você a entender o desempenho de um modelo comparando-o com outros modelos usando testes ou tarefas específicas. Os modelos de parâmetros de comparação no portal do Azure AI Foundry fornecem uma lista coletada dos modelos de melhor desempenho para uma determinada tarefa, com base em métricas de modelos de parâmetros de comparação.

Captura de tela dos modelos de parâmetros de comparação de modelo no portal do Azure AI Foundry.

Algumas métricas comumente usadas para avaliar o desempenho dos modelos de linguagem são:

Métrica Descrição
Precisão As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é exata em todos os casos, exceto no conjunto de dados HumanEval que usa uma métrica pass@1. A correspondência exata simplesmente compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e, caso contrário, zero. Pass@1 mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.
Coerência A coerência avalia o quão bem o modelo de linguagem pode produzir resultados que fluem facilmente, são lidos naturalmente e se assemelham à linguagem humana.
Fluência A fluência avalia a proficiência linguística da resposta prevista de uma IA generativa. Ela avalia a adequação do texto gerado às regras gramaticais, às estruturas sintáticas e ao uso adequado do vocabulário, resultando em respostas linguisticamente corretas e naturais.
Similaridade com GPT O GPTSimilarity é uma medida que quantifica a similaridade entre uma frase real (ou documento) e a frase de previsão gerada por um modelo de IA. Ele é calculado pela primeira vez calculando inserções em nível de frase usando a API de inserções para a verdade básica e a previsão do modelo. Essas incorporações são representações vetoriais de alta dimensão das frases, capturando seu significado semântico e contexto.
Fundamentação A aterramento mede o quão bem as respostas geradas do modelo de idioma se alinham com as informações da fonte de entrada.
Relevância A relevância mede até que ponto as respostas geradas pelo modelo de linguagem são pertinentes e diretamente relacionadas às perguntas fornecidas.

Observação

Quando você desenvolve e avalia aplicativos que usam modelos de linguagem, é importante usar métricas para medir o desempenho do modelo e do aplicativo. As mesmas métricas usadas para parâmetros de comparação, que comparam modelos diferentes, também podem ser usadas para avaliar o desempenho de um modelo individual durante o desenvolvimento. Essas métricas ajudam você a entender o desempenho do modelo e a identificar áreas passíveis de melhoria.

Selecionar o modelo que atende às suas necessidades pode ser um processo iterativo. Em seguida, você aprenderá a implantar um modelo para que possa testá-lo e experimentar como otimizar o modelo para o seu caso de uso.