Entenda os LLMs
Um modelo de linguagem grande (LLM) é um tipo de IA que pode processar e produzir texto em linguagem natural. Ele aprende com uma enorme quantidade de dados coletados de fontes como livros, artigos, páginas da Web e imagens para descobrir padrões e regras de linguagem.
Qual é o seu tamanho?
Um LLM é construído usando uma arquitetura de rede neural. Ele pega uma entrada, tem várias camadas ocultas que quebram diferentes aspetos da linguagem e produz na camada de saída.
As pessoas geralmente relatam como o modelo fundacional mais recente é maior do que o anterior, mas o que isso significa? Em resumo, quanto mais parâmetros um modelo tem, mais dados ele pode processar, aprender e gerar.
Para cada conexão entre dois neurônios da arquitetura de rede neural, há uma função: peso * entrada + viés. Esta rede produz valores numéricos que determinam como o modelo processa a linguagem.
Os LLMs são realmente grandes e estão crescendo rapidamente. Alguns modelos conseguiram calcular milhões de parâmetros em 2018. Mas hoje o GPT-4 pode calcular trilhões de parâmetros.
Onde os modelos fundamentais se encaixam nos LLMs?
Um modelo de fundação refere-se a uma instância ou versão específica de um LLM. Por exemplo, GPT-3, GPT-4 ou Codex.
Os modelos básicos são treinados e ajustados em um grande corpus de texto, ou código se for uma instância de modelo Codex.
Um modelo fundamental recebe dados de treinamento em todos os formatos diferentes e usa uma arquitetura de transformador para construir um modelo geral. Adaptações e especializações podem ser criadas para realizar determinadas tarefas por meio de prompts ou ajustes finos.
Como um LLM difere do processamento de linguagem natural (NLP) mais tradicional?
Há algumas coisas que separam as PNLs tradicionais das LLMs.
PNL tradicional | Modelos linguísticos de grande dimensão |
---|---|
É necessário um modelo por capacidade. | Um único modelo é usado para muitos casos de uso de linguagem natural. |
Fornece um conjunto de dados rotulados para treinar o modelo de ML. | Usa muitos terabytes de dados não rotulados no modelo de base. |
Descreve em linguagem natural o que você deseja que o modelo faça. | Altamente otimizado para casos de uso específicos. |
O que um LLM não faz?
Por mais importante que seja entender o que um LLM pode fazer, é igualmente importante entender o que ele não pode fazer para que você escolha a ferramenta certa para o trabalho.
Compreender a linguagem: um LLM é um mecanismo preditivo que reúne padrões com base em texto pré-existente para produzir mais texto. Não entende linguagem nem matemática.
Entenda os fatos: um LLM não tem modos separados para recuperação de informações e escrita criativa, ele simplesmente prevê o próximo token mais provável.
Compreender maneiras, emoções ou ética: Um LLM não pode exibir antropomorfismo ou entender ética. A saída de um modelo fundamental é uma combinação de dados de treinamento e prompts.