GoogleBot ne peut pas lire un fichier robots.txt sur WP dans 26% des cas

L'une des révélations de la Conférence Google Webmaster était que si Googlebot tente d'accéder à votre fichier robots.txt et qu’il est inaccessible, alors qu’il existe, Google n’explorera pas votre site en entier.

1 fois sur 4, GoogleBot ne peut pas atteindre un fichier robots.txt sur WP


Google a en effet déclaré qu’environ dans 26% du temps, GoogleBot ne peut pas atteindre un fichier robots.txt. Et WordPress pourrait apporter des modifications afin de réduire ce taux d'erreur.

Voici l'un des nombreux Tweets à ce sujet rapporté par Seroudtable :



Sérieusement ? Un googlebot sur quatre ne peut pas atteindre robots.txt d'un site, alors il ne crawlera pas tout le site!

Maintenant, avec WordPress, Joost de Valk du plugin Yoast SEO déclare :

Pour les sites pour lesquels vous ne pouvez pas atteindre les robots.txt, est-ce un sous-ensemble de ces sites WordPress ? Un sous-ensemble plus grand que vous attendez normalement peut-être ?

Il ajoute :

Nous essayons de comprendre si nous devrions être plus sûrs dans la façon dont WordPress génère les fichiers robots.txt.

Gary Illyes de chez Google a dit qu'il croit que WordPress est généralement d'accord avec cette question, mais il va examiner plus loin pour voir si WordPress peut faire quelques petits changements ici.



Réponse Gary Illyes de chez Google :

WordPress est généralement bien, je pense que ce n'est pas le contrôle du réseau, et quelqu'un doit avoir mal configuré quelque chose de vraiment mauvais si le robots.txt revient avec un code 5xx.

Ceci étant dit, je vais analyser, comme ça je pourrais dire quelque chose de sûr.



Joost précise sa question :

La raison pour laquelle je demande, c’est que WordPress génère le robots.txt quand il n'y en a pas, ce qui pourrait causer des erreurs de serveur à certains moments.

Si cela conduit à des erreurs plus que la moyenne, nous pourrions changer WordPress pour avoir juste un qui soit statique.

C’est alors que Barry Schartz de Seroudtable.com relance à nouveau le débat, toujours sur Twitter :


WordPress pourrait apporter des changements à la façon dont il gère sa génération de robots.txt sur la base des dernières informations sur les robots.txt inaccessibles et les conséquences autour de cela pour le crawling.



Gary Illyes :

Nous avons dit que des robots.txt inaccessibles est mauvais pour vous (WordPress, NDLR). John Mueller et moi avons rédigé des modèles de message exactement depuis 2011.

S’en suit l'aveu de Joost (plugin Yoast SEO) :

Oui, je le sais depuis longtemps. Les statistiques étaient intéressantes cependant, jamais su que les chiffres étaient si élevés.

Enfin, en réaction au post de Seroundtable, un commentateur écrit :

Dans WordPress, le fichier “robots.txt” est virtualisé. C'est-à-dire que vous ne pouvez pas voir le fichier sur le système des fichiers, mais vous pouvez y accéder à partir du Web.

Cela se produit parce que WordPress a besoin de contrôler dynamiquement le contenu de ce fichier.

Voici des ressources pour développeurs :

https://developer.wordpress.org/reference/functions/do_robots/

https://developer.wordpress.org/reference/hooks/robots_txt/

Par conséquent, n'importe quel plugin peut gérer cela et il suffit de faire quelque chose là-dessus.

Mais si vous avez besoin de l’emporter, alors créez un fichier robots.txt pour exclure cette fonctionnalité.