Pourquoi Google continue à explorer les pages d’erreur 404 ?

Dans un Hangout récent, John Mueller de chez Google a eu à discuter des raisons pour lesquelles Google explore toujours les pages inexistantes (avec un code erreur 404 ou 410) et ce que cela signifie pour votre budget d'analyse (crawl).

Pourquoi Google continue à explorer les pages d’erreur 404 ?

Et ce, alors que les éditeurs Web préfèrent voir Google se contenter d'explorer les pages existantes. Car, pour eux, c’est une perte de temps pour Google que de visiter et analyser les pages 404 ou 410 qui n'existent pas ou plus par définition.

C’est pourquoi un éditeur Web a demandé à John Mueller s’il devait bloquer Googlebot pour l’empêcher d’explorer les pages inexistantes.

La réponse de John Mueller ajoute plus d'information à ce que nous savions au sujet des crawls des pages d’erreur 404 par Google.


La page d’erreur 404, c’est quoi ?


Les pages inexistantes sur un site sont appelées pages d’erreur 404. C'est le code d'erreur du serveur qu'un site Web doit donner lorsqu'une page Web demandée est manquante, n'existe pas.

Un code d'erreur 404 signifie que le serveur n'a pas pu localiser une page Web demandée et qu'elle est manquante, inexistante. Alors qu’un code d’erreur 410 signale qu'une page Web est intentionnellement supprimée et ne reviendra jamais.

Lorsque Google explore une page inexistante (une page 404) dont il a rencontré l’URL quelque part sur le Web, on peut dire qu’il fait une exploration 404 pour les 3 raisons suivantes fournies par John Mueller :

  1. Les crawls 404 sont parfois le fait que Google utilise la capacité d’exploration supplémentaire pour vérifier les URL qui existaient autrefois (au cas où la page reviendrait)

  2. L’exploration de la page d’erreur 404 est un signe que Google a plus que la capacité suffisante pour explorer plus d'URL de votre site

  3. Les pages 404 n'ont pas besoin d'être bloquées lors des visites de Googlebot (dans le but de préserver le budget crawl). Vous ne perdrez pas la capacité de crawl en raisons des explorations 404.

C’est sans doute pourquoi les pages d’erreur 404 ne pénalisent pas le site. Ce qui n’empêche pas d’avoir une page d'erreur 404 personnalisée et, parfois, de rediriger les liens morts vers des pages plus actuelles.


Google se souvient des pages 404


Bien que Google peut ne pas conserver une page Web dans son index, si la page a pu exister par le passé, il se souviendra qu'une page Web a existé à telle URL et va à nouveau explorer cette ancienne URL pour voir si elle est revenue.

Matt Cutts, ex-responsable webspam chez Google, avait déclaré en 2014 que la raison pour laquelle Google se souvenait de la page d’erreur 404 d'un site était d’en faire une sauvegarde au cas où un éditeur Web fait lui-même une erreur dans la suppression d'une page Web et que ladite page Web revient.

Et maintenant, voici ce que déclare John Mueller aujourd’hui :

Nous comprenons que ce sont des pages 404 ou 410, ou du moins qui ne devraient pas être indexées. Mais nous connaissons ces pages. Et de temps en temps, quand nous n'avons rien de mieux à faire sur ce site, nous allons faire un double contrôle sur ces URL.

Et si nous vérifions ces URL et constatons une erreur de serveur ou une erreur du type “Page non trouvée”, alors nous allons vous la notifier dans la Search Console. ... et c'est très bien ainsi.

Donc, ce n'est pas quelque chose qui devrait vous inciter à bloquer l'exploration. Ce n'est pas quelque chose dont vous devez vous inquiéter. Ce n'est pas que nous gaspillons votre budget crawl en regardant ces URL.

C'est essentiellement un signe de notre part que nous avons assez de capacité pour explorer plus d'URLs sur votre site Web et nous sommes en mesure de faire juste une double vérification de quelques unes des anciennes URL pour le cas où vous avez réussi à mettre en place une version sauvegardée par vous.

La déclaration de John Mueller offre des dimensions supplémentaires à notre connaissance des raisons pour lesquelles Googlebot crawle les pages d’erreur 404.

C'est une indication que Google a beaucoup de budget d'analyse pour explorer votre site Web et parce que c'est une indication que Google a beaucoup de capacité d'analyse, il n'y a aucune raison d'être préoccupés par ses crawls 404.

Nous apprenons donc aujourd'hui de John Mueller que c'est en fait un bon signe si Google visite vos pages 404. Mais ce qui est différent entre ce que John Mueller a déclaré et ce que Matt Cutts a déclaré est de savoir comment Google traite les pages 410.

Pour rappel, les pages 410 sont des pages Web qui sont intentionnellement supprimées et ne devraient en principe plus jamais revenir.

De nos jours, un éditeur Web peut utiliser le Code 410 pour indiquer qu’une page Web est expirée, comme une promotion qui s'est terminée, une offre pour un événement qui est passé ou un produit qui n'existe plus.

Un éditeur Web peut également utiliser un code 410 pour une page de spam qui peut avoir été générée par un pirate. Donc, pour cette dernière raison en particulier, les éditeurs Web peuvent vouloir que Google obéisse au code d'erreur et oublie absolument cette page Web et ne revienne pas la chercher à nouveau.