Compreender as técnicas estatísticas utilizadas para o processamento de linguagem natural (PNL)
Ao longo das últimas décadas, múltiplos desenvolvimentos no campo do processamento de linguagem natural (PNL) resultaram na obtenção de grandes modelos de linguagem (LLMs).
Para entender os LLMs, vamos primeiro explorar as técnicas estatísticas para PNL que ao longo do tempo contribuíram para as técnicas atuais.
Os primórdios do processamento de linguagem natural (PNL)
Como a PNL é focada na compreensão e geração de texto, a maioria das primeiras tentativas de realizar a PNL foram baseadas no uso das regras e da estrutura inerentes às linguagens. Especialmente antes das técnicas de aprendizado de máquina se tornarem predominantes, os modelos estruturais e a gramática formal eram os principais métodos empregados.
Estas abordagens baseavam-se na programação explícita de regras linguísticas e padrões gramaticais para processar e gerar texto. Embora esses modelos pudessem lidar razoavelmente bem com algumas tarefas linguísticas específicas, eles enfrentaram desafios significativos quando confrontados com a vasta complexidade e variabilidade das línguas naturais.
Em vez de regras rígidas, os pesquisadores na década de 1990 começaram a utilizar modelos estatísticos e probabilísticos para aprender padrões e representações diretamente a partir dos dados.
Noções básicas sobre tokenização
Como seria de esperar, as máquinas têm dificuldade em decifrar texto, uma vez que dependem maioritariamente de números. Para ler o texto, precisamos, portanto, converter o texto apresentado em números.
Um desenvolvimento importante para permitir que as máquinas trabalhem mais facilmente com texto foi a tokenização. Tokens são cadeias de caracteres com um significado conhecido, geralmente representando uma palavra. Tokenização é transformar palavras em tokens, que são então convertidos em números. Uma abordagem estatística para tokenização é usando um pipeline:
- Comece com o texto que você deseja tokenizar.
- Divida as palavras no texto com base em uma regra. Por exemplo, divida as palavras onde há um espaço em branco.
- Estanque. Mescle palavras semelhantes removendo o final de uma palavra.
- Pare a remoção de palavras. Remova palavras barulhentas que têm pouco significado como
the
ea
. Um dicionário dessas palavras é fornecido para removê-las estruturalmente do texto. - Atribua um número a cada token exclusivo.
A tokenização permitiu que o texto fosse rotulado. Como resultado, técnicas estatísticas poderiam ser usadas para permitir que os computadores encontrassem padrões nos dados em vez de aplicar modelos baseados em regras.
Técnicas estatísticas para PNL
Dois avanços importantes para alcançar a PNL utilizaram técnicas estatísticas: Naïve Bayes e Term Frequency - Inverse Document Frequency (TF-IDF).
Entendendo Naïve Bayes
Naïve Bayes é uma técnica estatística que foi usada pela primeira vez para filtragem de e-mails. Para saber a diferença entre spam e não spam, dois documentos são comparados. Os classificadores Naïve Bayes identificam quais tokens estão correlacionados com e-mails rotulados como spam. Em outras palavras, a técnica encontra qual grupo de palavras só ocorre em um tipo de documento e não no outro. O grupo de palavras é muitas vezes referido como características de saco de palavras .
Por exemplo, as palavras miracle cure
, , lose weight fast
e podem aparecer com mais frequência em e-mails de spam sobre produtos de saúde duvidosos do que seus e-mails anti-aging
comuns.
Embora Naïve Bayes tenha provado ser mais eficaz do que simples modelos baseados em regras para classificação de texto, ainda era relativamente rudimentar, pois apenas a presença (e não a posição) de uma palavra ou token era considerada.
Entendendo o TF-IDF
A técnica Term Frequency - Inverse Document Frequency (TF-IDF) teve uma abordagem semelhante, na medida em que comparou a frequência de uma palavra num documento com a frequência da palavra num corpus inteiro de documentos. Ao entender em que contexto uma palavra estava sendo usada, os documentos podiam ser classificados com base em determinados tópicos. TF-IDF é frequentemente usado para recuperação de informações, para ajudar a entender quais palavras relativas ou tokens procurar.
Nota
No contexto da PNL, um corpus refere-se a uma coleção grande e estruturada de documentos de texto que é usada para tarefas de aprendizado de máquina. Corpora (plural de corpus) servem como recursos essenciais para treinamento, teste e avaliação de vários modelos de PNL.
Por exemplo, a palavra flour
pode muitas vezes ocorrer em documentos que incluem receitas para assar. Se pesquisar documentos com flour
o , os documentos que incluem baking
também podem ser recuperados, pois as palavras são frequentemente usadas juntas em um texto.
O TF-IDF provou ser útil para os motores de busca na compreensão da relevância de um documento para a consulta de pesquisa de alguém. No entanto, a técnica TF-IDF não leva em consideração a relação semântica entre palavras. Sinónimos ou palavras com significados semelhantes não são detetados.
Embora as técnicas estatísticas tenham sido desenvolvimentos valiosos no campo da PNL, as técnicas de aprendizagem profunda criaram as inovações necessárias para atingir o nível de PNL que temos hoje.