Google a en effet déclaré qu’environ dans 26% du temps, GoogleBot ne peut pas atteindre un fichier robots.txt. Et WordPress pourrait apporter des modifications afin de réduire ce taux d'erreur.
Voici l'un des nombreux Tweets à ce sujet rapporté par Seroudtable :
Seriously? One out of four times googlebot cannot reach a site’s robots.txt? ?? then they won’t crawl the entire site!! #gwcps pic.twitter.com/wC49yC40zI— Raffaele Asquer (@raffasquer) November 4, 2019
Sérieusement ? Un googlebot sur quatre ne peut pas atteindre robots.txt d'un site, alors il ne crawlera pas tout le site!
Maintenant, avec WordPress, Joost de Valk du plugin Yoast SEO déclare :
Pour les sites pour lesquels vous ne pouvez pas atteindre les robots.txt, est-ce un sous-ensemble de ces sites WordPress ? Un sous-ensemble plus grand que vous attendez normalement peut-être ?
Il ajoute :
Nous essayons de comprendre si nous devrions être plus sûrs dans la façon dont WordPress génère les fichiers robots.txt.
Gary Illyes de chez Google a dit qu'il croit que WordPress est généralement d'accord avec cette question, mais il va examiner plus loin pour voir si WordPress peut faire quelques petits changements ici.
WP is usually fine i think as it doesn't control network afaik, and someone must've misconfigured something real bad if the robotstxt comes back with 5xx. That said, I'll run an analysis and then i can say for sure— Gary "??/??" Illyes (@methode) November 6, 2019
Réponse Gary Illyes de chez Google :
WordPress est généralement bien, je pense que ce n'est pas le contrôle du réseau, et quelqu'un doit avoir mal configuré quelque chose de vraiment mauvais si le robots.txt revient avec un code 5xx.
Ceci étant dit, je vais analyser, comme ça je pourrais dire quelque chose de sûr.
Got it. I'll look— Gary "??/??" Illyes (@methode) November 6, 2019
Joost précise sa question :
La raison pour laquelle je demande, c’est que WordPress génère le robots.txt quand il n'y en a pas, ce qui pourrait causer des erreurs de serveur à certains moments.
Si cela conduit à des erreurs plus que la moyenne, nous pourrions changer WordPress pour avoir juste un qui soit statique.
C’est alors que Barry Schartz de Seroudtable.com relance à nouveau le débat, toujours sur Twitter :
WordPress might make changes to how it handles it’s robots.txt generation based on the latest intel about unreachable robots.txt and the consequences around that for crawling https://t.co/JvG1ojo9uP pic.twitter.com/GsqAHxweuN— Barry Schwartz (@rustybrick) November 6, 2019
WordPress pourrait apporter des changements à la façon dont il gère sa génération de robots.txt sur la base des dernières informations sur les robots.txt inaccessibles et les conséquences autour de cela pour le crawling.
Yeah I've known for a long time. The stats were interesting though, never heard the numbers were that high.— Joost de Valk (@jdevalk) November 6, 2019
Gary Illyes :
Nous avons dit que des robots.txt inaccessibles est mauvais pour vous (WordPress, NDLR). John Mueller et moi avons rédigé des modèles de message exactement depuis 2011.
S’en suit l'aveu de Joost (plugin Yoast SEO) :
Oui, je le sais depuis longtemps. Les statistiques étaient intéressantes cependant, jamais su que les chiffres étaient si élevés.
Enfin, en réaction au post de Seroundtable, un commentateur écrit :
Dans WordPress, le fichier “robots.txt” est virtualisé. C'est-à-dire que vous ne pouvez pas voir le fichier sur le système des fichiers, mais vous pouvez y accéder à partir du Web.
Cela se produit parce que WordPress a besoin de contrôler dynamiquement le contenu de ce fichier.
Voici des ressources pour développeurs :
https://developer.wordpress.org/reference/functions/do_robots/
https://developer.wordpress.org/reference/hooks/robots_txt/
Par conséquent, n'importe quel plugin peut gérer cela et il suffit de faire quelque chose là-dessus.
Mais si vous avez besoin de l’emporter, alors créez un fichier robots.txt pour exclure cette fonctionnalité.