Normalização da forma de superfície
Embora as palavras e as regras linguísticas difiram drasticamente, há algumas considerações, como números, datas e horas, que são tratadas de forma consistente em todos os separadores de palavras. Este tópico documenta considerações de normalização que podem afetar a implementação do separador de palavras.
Este tópico está organizado da seguinte forma:
Hifenização
Hífens (-) são usados entre as partes de uma palavra ou nome composto. Eles também são usados entre as sílabas de uma palavra quando a palavra é dividida no final de uma linha de texto. Em inglês, as palavras são unidas com hífenes para indicar uma relação especial no contexto, mas essas palavras normalmente não podem ser hifenizadas em outros contextos; por exemplo, "passo a passo". Durante a criação do índice, o separador de palavras deve tratar o hífen como um separador de palavras. Por exemplo, "base de dados" seria armazenada como "dados" mais "base". No momento da consulta, uma frase hifenizada deve ser substituída por duas alternativas: a variante de duas palavras e o composto verdadeiro. Por exemplo, "base de dados" seria substituído por "dados" mais "base" e "base de dados". Essa diferença entre índice e tempo de consulta aumenta as combinações de representações para palavras hifenizadas e torna as palavras mais fáceis de combinar em uma consulta.
A tabela a seguir mostra como tratar hífenes como separadores de palavras no idioma inglês aumenta o número de termos de consulta correspondentes para cada termo incluído no índice.
Termos incluídos no índice | Correspondências em tempo de consulta |
---|---|
Base de dados | base de dados, base de dados |
Base de dados | base de dados, base de dados |
Base de dados | base de dados, base de dados |
Possessivos
Possessivos são variações em um substantivo que indicam posse. Os possessivos ingleses são representados pela junção de um apóstrofo (') ou um apóstrofo e um s ('s) a uma palavra. Por exemplo, para indicar posse, a palavra "Maria" é representada como "de Maria". O separador de palavras gera as formas apóstrofo e apóstrofo no momento da consulta. As consultas para "Maria" devem corresponder a "Maria" e "Maria".
Diacríticos
Diacríticos são marcas adicionadas a uma letra ou fonema para indicar um valor fonético especial para a pronúncia. Os diacríticos podem distinguir palavras que, de outra forma, são graficamente idênticas; por exemplo, "resume" e "resumé" em inglês. No entanto, salvar diacríticos no índice aumenta o número de chaves de palavras exclusivas no índice, o que diminui o desempenho da consulta. Se os diacríticos forem usados apenas minimamente em um idioma, o separador de palavras para esse idioma deve removê-los durante a criação do índice e a consulta. Por exemplo, o separador de palavras em inglês gera "resume" ao processar "resumé", causando apenas um impacto mínimo na relevância dos resultados da consulta.
Clíticos
Um clítico é uma palavra átona que é incapaz de se manter sozinha e se liga a uma palavra tônica para formar uma única unidade. Os clíticos não podem ser facilmente classificados como fonológicos, sintáticos ou morfológicos. Os clíticos vêm em dois tipos: proclíticos e enclíticos. Os proclíticos prendem-se ao início de uma palavra. Os enclíticos prendem-se ao fim de uma palavra.
Os clíticos são mais difíceis de analisar em línguas como o espanhol. Um verbo espanhol pode gerar muitas formas superficiais, dependendo do tempo. Considerações devem ser feitas entre a remoção do clítico durante a criação do índice e a geração dos formulários de superfície por meio da derivação no momento da consulta. A remoção do clítico nos casos em que a morfologia da composição clítica é ambígua pode levar a resultados imprevisíveis. A geração de um grande número de formulários de superfície para uma palavra aumenta o tamanho do índice de texto completo e pode diminuir o desempenho da consulta. Recomenda-se que o lematizador gere apenas um pequeno número de formas superficiais.