Un truc très agaçant avec tous les moteurs de recherche est leur comportement lorsqu'une page contient
des articles très divers et sans lien entre eux (deux cas typiques :
les blogs et les archives de listes de diffusion). Le moteur voit tous les mots-clés sur la
page et ne comprend pas les frontières entre articles. Ainsi, je vois
(dans le journal du serveur Web) un malheureux
arriver sur une page après avoir tapé "freebsd ldap" dans
Google alors que la page a bien un article sur
LDAP et un sur FreeBSD
mais qu'ils ne sont pas reliés... Cela donne souvent des résultats
surréalistes.
Altavista avait l'opérateur NEAR qui aidait beaucoup à résoudre ce
problème. Mais je ne connais aucun moteur actuel qui l'utilise.
Il semble que la solution (mal
documentée) soit de mettre dans la section
<head> de ses pages
HTML, lorsqu'elles sont de type "navigation"
(et contiennent donc des articles sans rapport entre eux) :
]]>
Cela semble bien fonctionner avec Google (qui le documente). Mais
apparemment pas avec des concurrents comme
Exalead.
J'utilise désormais ce <meta> sur toutes mes pages de navigation et je mets :
]]>
dans les pages ordinaires, celles qui contiennent un article et un seul.