Robots.txt

Qu'est-ce qu'un fichier robots.txt ?

Le fichier robots.txt contient des instructions à l'attention des moteurs de recherche. Tout moteur de recherche consulte le fichier robots.txt avant d'explorer un site web et en stocker le contenu dans son index.

Le fichier robots.txt prend la forme d'un fichier ASCII (texte), dont le nom doit être en minuscule, et qui se trouve obligatoirement à la racine d'un site. Il ne peut exister qu'un seul fichier robots.txt sur un site. Si aucune instruction particulière n'est à mentionner, il est quand même recommandé de posséder un fichier robots.txt, celui-ci étant alors vide.

A quoi sert le fichier robots.txt ?

L'objet du fichier robots.txt est de préciser les répertoires et les pages qui peuvent être indexées et éventuellement celles que l'on ne souhaite pas indexer, comme par exemple les répertoires contenant les fonctions et autres lignes de codes et les pages contenant des données personnelles. Afin d'être mieux positionné dans les moteurs de recherche, il est recommandé de ne pas indexer les pages sans contenu ou en contenu dupliqué créées automatiquement par les CMS.

Présentation des principales commandes du fichier robots.txt

Disallow: /repertoire/page.html >> Exclusion de la page page.html, dans le repertoire repertoire

User-Agent : googlebot >> Instruction qui s'adresse à un robot en particulier (le robot de Google, dans le cas présent). La valeur * permet de s'adresser à tous les moteurs de recherche.

Pour aller plus loin

Voir un exemple de fichier Robots.txt : http://www.tf1.fr/robots.txt

robots-txt.com - Manuel d'implémentation du fichier Robots.txt