L'indexation des pages web par Google

L'indexation des pages

Le principe d'index des moteurs de recherche est similaire au principe des index utilisés dans les livres. La fonction de l'index est de recenser les mots et l'endroit où ils sont présents.

Pour qu'un document web (site internet, blog, page Facebook, profil Twitter...) figure dans l'index d'un moteur de recherche, il est nécessaire d'y inscrire son URL ou de posséder un lien depuis un document déjà indexé. Dans le cas d'url non standards, par exemple produites automatiquement par des logiciels d'édition de sites, il est nécessaire de réécrire ces url. Si l'on souhaite que l'ensemble d'un site soit indexé, il convient de soigner son arborescence de son site afin d'éviter les liens internes cassés et/ou de fournir un sitemap. Il est également possible de demander aux robots de n'indexer qu'une partie de son site, voire de ne pas l'indexer, avec le fichier robots.txt.

Google possède deux index, l'un étant consacré aux pages de confiance et le second aux pages avec un contenu dupliqué, insignifiant ou estimé de mauvaise qualité. Certains sites, dits blacklistés, ne sont pas du tout indexés du fait de pénalisations de la part de Google.

Les robots des moteurs de recherche

Les robots des moteurs de recherche, également dénommés crawlers ou spiders sont des processus informatiques qui lisent une page internet, en extraient les liens le cas échéant et les visitent ultérieurement. Ils ne peuvent donc prendre connaissance d'une page que si un lien vers celle-ci existe déjà ou bien qu'elle a été soumise au robot par un formulaire, par exemple à la page www.google.fr/intl/fr/submit_content.html‎ pour Google.

Pour économiser des ressources, les robots des moteurs de recherche adaptent leur rythme de fréquentation des pages à la fréquence de mise à jour des pages et au nombre de liens entrants. Les robots se rendent-il ainsi plusieurs fois par heure sur certaines pages mise à jour fréquemment et très populaires, alors qu'ils peuvent délaisser plusieurs mois un site recevant peu de liens et qui n'est plus/pas mis à jour. En cas de nouveau contenu détecté par un robot, un autre robot viendra ultérieurement pour mettre à jour la base de données du moteur avec ce nouveau contenu.

Les robots ne sont en principe capables de lire que du contenu textuel. Certains mots courts très souvent utilisés, tels que "le", "la", "du", "à", etc. sont ignorés en raison de leur utilisation trop fréquente.