Robots.txt pour optimiser son indexation

Robots.txt.

Autant le fichier robots.txt , fichier d'exclusion, limite ou peut aider à filtrer certains accès sur votre site, autant le robots.txt va aider à l'optimisation de l'indexation des pages web du site.

Il y a certainement sur votre site des pages web qui sont certes importantes mais dont vous ne souhaitez pas forcément l'indexation. Des pages telles que "à propos de nous", "contact", "conditions de vente" ou toute autre page formulaire ....

Et l'utilisation du fichier robots.txt est justement destinée à orienter les robots vers d'autres pages web pertinentes plutôt que vers celles qui en aucun cas n'aideront à améliorer votre classement dans les moteurs de recherche. Le fichier robots.txt va donc vous permettre d'indiquer aux robots certaines pages ou dossiers
à ne pas explorer.

Comment créer un fichier robots.txt


Pour créer votre fichier robots.txt , servez-vous du Bloc-notes de Windows ou du TextEdit pour les Mac.

La première ligne de votre robots.txt consistera à indiquer quels robots peuvent accéder à votre site. C'est l'indication du "User-agent". Une astérisque (*) donne le droit à tous type de robots de parcourir les fichiers de votre site. Mais vous pouvez ne donner accès qu'à un ou différents robots nommément désignés.

Sur la seconde ligne, vous devez mentionner par le "Disallow" les fichiers ou répertoires interdits à l'indexation.

Pour la pratique, si vous autorisez tous les robots à parcourir votre site, vous procédez comme suit :

User-agent: *
Disallow:

Vous pouvez aussi, dans votre fichier robots.txt, indiquer à tous les robots de ne pas indexer un ou plusieurs fichiers ou répertoires. Ce qui donne :
User-agent: *
Disallow: /contact.html
Disallow: /répertoire1/
Disallow: /répertoire2/
Disallow: /répertoire3/fichier.html


A ces instructions, vous pouvez autoriser les robots à indexer, par exemple, votre dossier "images". Vous rajoutez alors à la liste l'instruction suivante :

Allow: /images/

Si vous voulez n'autoriser que le robot de Google (Googlebot) à indexer votre dossier images, vous inscrivez comme suit:

User-agent: *
Disallow: /contact.html
Disallow: /répertoire1/
Disallow: /répertoire2/
Disallow: /répertoire3/fichier.html
Disallow: /images/
User-agent: Googlebot
Allow: /images/


Vous aurez remarqué que j'interdis à tous les robots d'indexer mon répertoire "images" (Disallow: /images/) avant d'autoriser à Googlebot de pouvoir le faire. Juste pour vous montrer que les instructions d'autorisation (Allow) doivent toujours être placées après les "Disallow".

Pour continuer, j'imagine que vous avez un fichier sitemaps. Si c'est le cas, faîtes-le savoir aux robots. Car, le fichier robots.txt est le premier fichier recherché et exploré par tous les robots des moteurs de recherche. Cet ajout donne ceci :

User-agent: *
Sitemap:
 http://www.votreSite.com/fichierSitemap.xml
Disallow: /contact.html
Disallow: /répertoire1/
Disallow: /répertoire2/
Disallow: /répertoire3/fichier.html
Disallow: /images/
User-agent: Googlebot
Allow: /images/

Quelques mises en garde sur la création du robots.txt


Vous devez faire attention quant à l'utilisation du slash "/" dans vos instructions.

Par exemple, /images/ s'adresse au répertoire "images" en entier alors que /images (sans le slash "/" à la fin) veut dire tous les fichiers à la racine du site commençant par le terme "images".

Ainsi, "Disallow: /images" n'interdit pas l'accès au répertoire "images", ni l'indexation de tous les fichiers de ce répertoire.

Autre chose: dans votre fichier robots.txt, il ne doit pas y avoir de ligne vide ni au début, ni entre chaque ligne, ni à la fin.

Une fois votre fichier robots.txt écrit, sauvegardez-le, bien sûr, au format txt. Et téléchargez-le en mode ASCII à la racine de votre site.

Ce qu'il faut aussi savoir : tous les robots (web spiders, web crawlers ou robots) ne respectent pas toutes ces instructions. Mais ceux des moteurs célèbres les respectent.

De plus, le fichier robots.txt n'est pas un fichier qui assure la sécurité des fichiers de votre site. Il n'empêche pas un fichier ou un répertoire d'être visible sur le Net. Mais, le fichier robots.txt optimise énormément l'indexation de vos pages web par les programmes informatiques appelés robots.

Voici maintenant comment bien référencer son site sur Google en 2014.