Normalização de Formulário surface
Embora as palavras e as regras linguísticas diferem drasticamente, há algumas considerações, como números, datas e horas, que são tratadas consistentemente em todos os separadores de palavras. Este tópico documenta considerações de normalização que podem afetar a implementação do separador de palavras.
Este tópico é organizado da seguinte maneira:
Hifenização
Hifens (-) são usados entre as partes de uma palavra ou nome composto. Eles também são usados entre as sílabas de uma palavra quando a palavra é dividida no final de uma linha de texto. Em inglês, as palavras são unidas com hifens para indicar uma relação especial no contexto, mas essas palavras normalmente não podem ser hifenizadas em outros contextos; por exemplo, "passo a passo". Durante a criação do índice, o separador de palavras deve tratar o hífen como separador de palavras. Por exemplo, "data-base" seria armazenado como "dados" mais "base". No momento da consulta, uma frase hifenizada deve ser substituída por duas alternativas: a variante de duas palavras e o composto verdadeiro. Por exemplo, "data-base" seria substituído por "dados" mais "base" e "banco de dados". Essa diferença entre o índice e o tempo de consulta aumenta as combinações de representações para palavras hifenizadas e torna as palavras mais fáceis de corresponder em uma consulta.
A tabela a seguir mostra como tratar hifens como separadores de palavras no idioma inglês aumenta o número de termos de consulta correspondentes para cada termo incluído no índice.
Termos incluídos no índice | Correspondências de tempo de consulta |
---|---|
Base de dados | base de dados, base de dados |
Base de dados | base de dados, base de dados |
Banco de dados | base de dados, banco de dados |
Possessivos
Possessivos são variações em um substantivo que indicam a posse. Os possessivos em inglês são representados acrescentando um apóstrofo (') ou um apóstrofo e um s ('s) a uma palavra. Por exemplo, para indicar posse, a palavra "Maria" é representada como "Maria". O separador de palavras gera os formulários apóstrofo e apóstrofo no momento da consulta. As consultas para "Mary" devem corresponder a "Mary" e "Mary's".
Sinais diacríticos
Diacríticos são marcas adicionadas a uma letra ou fonema para indicar um valor fonético especial para pronúncia. Diacríticos podem distinguir palavras que, de outra forma, são graficamente idênticas; por exemplo, "resume" e "resumé" em inglês. No entanto, salvar diacríticos no índice aumenta o número de chaves de palavras exclusivas no índice, o que reduz o desempenho da consulta. Se os diacríticos forem usados apenas minimamente em um idioma, o separador de palavras para esse idioma deverá removê-los durante a criação e a consulta de índice. Por exemplo, o separador de palavras em inglês gera "retomar" ao processar "resumé", causando apenas um impacto mínimo na relevância dos resultados da consulta.
Clitics
Uma clitica é uma palavra não estressada que é incapaz de ficar sozinha e se anexa a uma palavra estressada para formar uma única unidade. As clitics não podem ser facilmente classificadas como fonológicas, sintáticas ou morfológicas. Os Clitics vêm em dois tipos: proclitics e enclitics. Os proclitics se anexam ao início de uma palavra. As enclitics se anexam ao final de uma palavra.
Clitics são mais difíceis de analisar em idiomas como espanhol. Um verbo espanhol pode gerar muitas formas de superfície, dependendo do tempo. Considerações devem ser feitas entre a remoção da clitic durante a criação do índice e a geração dos formulários de superfície por meio da lematização no momento da consulta. Remover clitics em casos em que a morfologia da composição clitica é ambígua pode levar a resultados imprevisíveis. Gerar um grande número de formulários de superfície para uma palavra aumenta o tamanho do índice de texto completo e pode diminuir o desempenho da consulta. É recomendável que o lematizador gere apenas um pequeno número de formulários de superfície.