Google : Les pages bloquées par robots.txt sont indexées sauf si...

John Mueller de chez Google avertit que les pages bloquées par robots. txt pourraient encore être indexées s'il y a des liens qui pointent vers elles.

Google : Les pages bloquées par robots.txt sont indexées sauf si...

Ceci pourrait devenir un problème parce que Google verrait alors ces pages comme n'ayant aucun contenu dû au fait que le fichier robots.txt interdit de les explorer.

En effet, vous pouvez avoir publié un article qui a été partagé durant un certain temps, avant de décider d’en interdire l’accès via robots.txt. Alors, forcément, des liens pointant vers cet article pourraient permettre à des utilisateurs de vouloir le lire.

John Mueller dit que si vous avez du contenu sur votre site que vous ne voulez pas que Google le voit et le crawle, le meilleur plan d'action serait d'utiliser une balise Meta noindex.

Ainsi, Googlebot aura toujours accès à la page qu'on voulait lui interdire via le fichier robots.txt, mais il ne fera rien puisque le noindex lui signalera qu'il ne doit surtout pas indexer cette page

Le sujet a été évoqué lors d'un récent Hangout lorsqu'un propriétaire de site a demandé s'il suffisait de "rejeter" les pages qui ne sont pas nécessaires à l'indexation pour que Googlebot ne les crawle pas.

Voici la réponse complète de John Mueller :

Une chose que vous devez garder à l'esprit ici, c'est que si ces pages sont bloquées par robots. txt, alors il pourrait théoriquement arriver que quelqu'un pointe des liens au hasard vers l'une de ces pages.

Et si c’est le cas, alors il pourrait arriver que Google indexe cette URL sans aucun contenu parce qu’elle a été bloquée par robots. txt.

Et ce, en raison du fait que Google ne sait pas que vous ne voulez pas que ces pages ne soient pas réellement indexées.

Alors que si elles ne sont pas bloquées par robots. txt, vous pouvez mettre une balise Meta noindex sur ces pages.

Ainsi, si quelqu'un arrive sur ces pages via un lien pointant vers elles, et que Google arrive à suivre ce lien en pensant que "peut-être il y a quelque chose d'utile là-bas", alors nous saurons que ces pages n'ont pas besoin d'être indexées et nous pouvons simplement les ignorer complètement et ne pas les indexer.

Par conséquent, si vous avez quelque chose sur ces pages que vous ne voulez pas qu’elles soient indexées, ce n’est pas la peine d’interdire leur accès avec le fichier robots.txt.

Utilisez simplement la balise Meta noindex.

La question et la réponse complète de John Mueller dans la vidéo ci-dessous (24:36) :



En fait, Google recommande depuis 2 ou 3 ans de ne pas bloquer l'accès de Googlebot  à tous les fichiers du site, sans exception.

D'où le conseil de John Mueller qui est conforme à la recommandation de Google.