GoogleBot ne peut pas lire un fichier robots.txt sur WP dans 26% des cas

L'une des révélations de la Conférence Google Webmaster était que si Googlebot tente d'accéder à votre fichier robots.txt et qu’il est inaccessible, alors qu’il existe, Google n’explorera pas votre site en entier.

1 fois sur 4, GoogleBot ne peut pas atteindre un fichier robots.txt sur WP

Google a en effet déclaré qu’environ dans 26% du temps, GoogleBot ne peut pas atteindre un fichier robots.txt. Et WordPress pourrait apporter des modifications afin de réduire ce taux d'erreur.

Voici l'un des nombreux Tweets à ce sujet rapporté par Seroudtable :

Seriously? One out of four times googlebot cannot reach a site’s robots.txt? ?? then they won’t crawl the entire site!! #gwcps pic.twitter.com/wC49yC40zI
— Raffaele Asquer (@raffasquer) November 4, 2019

Sérieusement ? Un googlebot sur quatre ne peut pas atteindre robots.txt d'un site, alors il ne crawlera pas tout le site!

Maintenant, avec WordPress, Joost de Valk du plugin Yoast SEO déclare :

Pour les sites pour lesquels vous ne pouvez pas atteindre les robots.txt, est-ce un sous-ensemble de ces sites WordPress ? Un sous-ensemble plus grand que vous attendez normalement peut-être ?

Il ajoute :

Nous essayons de comprendre si nous devrions être plus sûrs dans la façon dont WordPress génère les fichiers robots.txt.

Gary Illyes de chez Google a dit qu'il croit que WordPress est généralement d'accord avec cette question, mais il va examiner plus loin pour voir si WordPress peut faire quelques petits changements ici.

WP is usually fine i think as it doesn't control network afaik, and someone must've misconfigured something real bad if the robotstxt comes back with 5xx. That said, I'll run an analysis and then i can say for sure
— Gary "??/??" Illyes (@methode) November 6, 2019

Réponse Gary Illyes de chez Google :

WordPress est généralement bien, je pense que ce n'est pas le contrôle du réseau, et quelqu'un doit avoir mal configuré quelque chose de vraiment mauvais si le robots.txt revient avec un code 5xx.

Ceci étant dit, je vais analyser, comme ça je pourrais dire quelque chose de sûr.

Got it. I'll look
— Gary "??/??" Illyes (@methode) November 6, 2019

Joost précise sa question :

La raison pour laquelle je demande, c’est que WordPress génère le robots.txt quand il n'y en a pas, ce qui pourrait causer des erreurs de serveur à certains moments.

Si cela conduit à des erreurs plus que la moyenne, nous pourrions changer WordPress pour avoir juste un qui soit statique.

C’est alors que Barry Schartz de Seroudtable.com relance à nouveau le débat, toujours sur Twitter :

WordPress might make changes to how it handles it’s robots.txt generation based on the latest intel about unreachable robots.txt and the consequences around that for crawling https://t.co/JvG1ojo9uP pic.twitter.com/GsqAHxweuN
— Barry Schwartz (@rustybrick) November 6, 2019

WordPress pourrait apporter des changements à la façon dont il gère sa génération de robots.txt sur la base des dernières informations sur les robots.txt inaccessibles et les conséquences autour de cela pour le crawling.

Yeah I've known for a long time. The stats were interesting though, never heard the numbers were that high.
— Joost de Valk (@jdevalk) November 6, 2019

Gary Illyes :

Nous avons dit que des robots.txt inaccessibles est mauvais pour vous (WordPress, NDLR). John Mueller et moi avons rédigé des modèles de message exactement depuis 2011.

S’en suit l'aveu de Joost (plugin Yoast SEO) :

Oui, je le sais depuis longtemps. Les statistiques étaient intéressantes cependant, jamais su que les chiffres étaient si élevés.

Enfin, en réaction au post de Seroundtable, un commentateur écrit :

Dans WordPress, le fichier “robots.txt” est virtualisé. C'est-à-dire que vous ne pouvez pas voir le fichier sur le système des fichiers, mais vous pouvez y accéder à partir du Web.

Cela se produit parce que WordPress a besoin de contrôler dynamiquement le contenu de ce fichier.

Voici des ressources pour développeurs :

https://developer.wordpress.org/reference/functions/do_robots/

https://developer.wordpress.org/reference/hooks/robots_txt/

Par conséquent, n'importe quel plugin peut gérer cela et il suffit de faire quelque chose là-dessus.

Mais si vous avez besoin de l’emporter, alors créez un fichier robots.txt pour exclure cette fonctionnalité.

Arobasenet.com

GoogleBot ne peut pas lire un fichier robots.txt sur WP dans 26% des cas

Rechercher

Derniers articles

Articles les plus lus

Google dit comment il classe les résultats et empêche le spam évident

Facebook déploie de nouveaux outils de gestion pour les Groupes

Twitter lance un outil de filtrage des demandes de message privé

Footer Menu Widget

Arobasenet.com

Social Widget

GoogleBot ne peut pas lire un fichier robots.txt sur WP dans 26% des cas

Articles similaires

Rechercher

Derniers articles

Articles les plus lus

Google dit comment il classe les résultats et empêche le spam évident

Facebook déploie de nouveaux outils de gestion pour les Groupes

Twitter lance un outil de filtrage des demandes de message privé

Footer Menu Widget