Google : Les pages bloquées par robots.txt sont indexées sauf si...

John Mueller de chez Google avertit que les pages bloquées par robots. txt pourraient encore être indexées s'il y a des liens qui pointent vers elles.

Ceci pourrait devenir un problème parce que Google verrait alors ces pages comme n'ayant aucun contenu dû au fait que le fichier robots.txt interdit de les explorer.

En effet, vous pouvez avoir publié un article qui a été partagé durant un certain temps, avant de décider d’en interdire l’accès via robots.txt. Alors, forcément, des liens pointant vers cet article pourraient permettre à des utilisateurs de vouloir le lire.

John Mueller dit que si vous avez du contenu sur votre site que vous ne voulez pas que Google le voit et le crawle, le meilleur plan d'action serait d'utiliser une balise Meta noindex.

Ainsi, Googlebot aura toujours accès à la page qu'on voulait lui interdire via le fichier robots.txt, mais il ne fera rien puisque le noindex lui signalera qu'il ne doit surtout pas indexer cette page

Le sujet a été évoqué lors d'un récent Hangout lorsqu'un propriétaire de site a demandé s'il suffisait de "rejeter" les pages qui ne sont pas nécessaires à l'indexation pour que Googlebot ne les crawle pas.

Voici la réponse complète de John Mueller :

Une chose que vous devez garder à l'esprit ici, c'est que si ces pages sont bloquées par robots. txt, alors il pourrait théoriquement arriver que quelqu'un pointe des liens au hasard vers l'une de ces pages.

Et si c’est le cas, alors il pourrait arriver que Google indexe cette URL sans aucun contenu parce qu’elle a été bloquée par robots. txt.

Et ce, en raison du fait que Google ne sait pas que vous ne voulez pas que ces pages ne soient pas réellement indexées.

Alors que si elles ne sont pas bloquées par robots. txt, vous pouvez mettre une balise Meta noindex sur ces pages.

Ainsi, si quelqu'un arrive sur ces pages via un lien pointant vers elles, et que Google arrive à suivre ce lien en pensant que "peut-être il y a quelque chose d'utile là-bas", alors nous saurons que ces pages n'ont pas besoin d'être indexées et nous pouvons simplement les ignorer complètement et ne pas les indexer.

Par conséquent, si vous avez quelque chose sur ces pages que vous ne voulez pas qu’elles soient indexées, ce n’est pas la peine d’interdire leur accès avec le fichier robots.txt.

Utilisez simplement la balise Meta noindex.

La question et la réponse complète de John Mueller dans la vidéo ci-dessous (24:36) :

En fait, Google recommande depuis 2 ou 3 ans de ne pas bloquer l'accès de Googlebot à tous les fichiers du site, sans exception.

D'où le conseil de John Mueller qui est conforme à la recommandation de Google.

Arobasenet.com

Google : Les pages bloquées par robots.txt sont indexées sauf si...

Rechercher

Derniers articles

Articles les plus lus

Google dit comment il classe les résultats et empêche le spam évident

Twitter envisage à nouveau d’ajouter un bouton Je n’aime pas

Twitter vous avertit avant d’aimer un Tweet ayant des infos trompeuses

Footer Menu Widget

Arobasenet.com

Social Widget

Google : Les pages bloquées par robots.txt sont indexées sauf si...

Articles similaires

Rechercher

Derniers articles

Articles les plus lus

Google dit comment il classe les résultats et empêche le spam évident

Twitter envisage à nouveau d’ajouter un bouton Je n’aime pas

Twitter vous avertit avant d’aimer un Tweet ayant des infos trompeuses

Footer Menu Widget