Google demande de ne pas bloquer l'accès de Googlebot aux fichiers

Google Search Console a commencé à envoyer à de nombreux webmasters des messages d’alerte par email les notifiant de l’impossibilité pour Googlebot, le robot d’indexation de Google, d’explorer librement certains fichiers. 

Ce qui pourrait impacter le référencement de leurs sites web.


Google envoie des notifications aux sites bloquant l’accès aux fichiers CSS et JavaScript


Ces fichiers généralement mentionnés par Google concernent les CSS et autres JavaScripts qui n’autorisent pas l’accès à leurs données.

Voici un exemple de message reçu par certains webmasters :
Nos systèmes ont récemment détecté un problème avec votre page d'accueil qui affecte l'affichage et l'indexation de votre contenu par nos algorithmes.

Plus particulièrement, Googlebot ne peut accéder à vos fichiers JavaScript ou CSS à cause de restrictions dans votre fichier robots.txt. Ces fichiers nous permettent de comprendre que votre site Web fonctionne correctement. En bloquant l'accès à ces éléments, il est donc possible que le classement du site ne soit pas optimal.
Le message d’alerte indique également avec insistance que le blocage des fichiers Javascript et/ou CSS “peut entraîner des classements qui ne soient pas optimaux”.

Alors que Google a fait savoir, après un changement de ses consignes aux webmasters, de ne plus jamais bloquer Googlebot lors de ses visites d’exploration et d’indexation. Notamment via le fichier robots.txt.

Voici d’ailleurs ce qu’il dit dans ses consignes :

Pour nous aider à comprendre le contenu de votre site de manière exhaustive, autorisez l'exploration de tous les éléments de votre site, tels que les fichiers CSS et JavaScript. Notre système d'indexation affiche des pages Web à l'aide du code HTML de la page, ainsi que d'éléments tels que les fichiers images, CSS et JavaScript.

Pour voir les éléments de page qui ne peuvent pas être explorés par Googlebot et pour résoudre les problèmes relatifs aux instructions dans votre fichier robots.txt, utilisez la fonctionnalité Explorer comme Google et l'outil de test du fichier robots.txt dans les outils pour les webmasters.


Comment découvrir les ressources bloquées par robots.txt


Les ressources bloquées sont aussi mises en évidence dans la section “Index Google” -> “Ressources bloquées” dans votre Google Search Console.

Le message d’alerte dans Google Search Console fournit aussi les détails sur la façon de résoudre le problème en proposant toutefois de mettre à jour la règle du fichier robots.txt pour débloquer la ressource.



Il semble que depuis quelques jours, Google a augmenté le nombre de messages qu'il envoie aux webmasters sur les blocages de GoogleBot.

Et ils sont aussi nombreux, les webmasters qui utilisent WordPress, qui ont reçu des avertissements pour avoir utilisé “abusivement” l’instruction “Disallow: /wp-content/plugins” dans leur fichier robots.txt.

Voici les différents types d’instructions qui peuvent générer un message d’alerte dans Google Search Console et par email :

Disallow: /.js$*

Disallow: /.inc$*

Disallow: /.css$*

Disallow: /.php$*

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /cgi-bin/

Disallow: /wp-content/uploads/

Disallow: /wp-includes/css/

Disallow: /wp-includes/js/

Disallow: /wp-includes/images/

Ce que demande donc Google dorénavant, c’est qu’il n’y ait plus dans aucun fichier robots.txt d’instructions du type “Disallow: /nomdufichier” ou “Disallow: /nomdurepertoire/”.

Si vous en avez dans votre fichier robots.txt, supprimez-les immédiatement, remplacez-les par "Allow: /" et le problème sera résolu. Sinon, votre référencement pourrait en souffrir comme Google le mentionne dans ses notifications.

Car, Google déconseille de restreindre l'accès à tous les fichiers existant dans votre site afin d'améliorer leur indexation, notamment pour le mobile, et donc probablement votre classement sur Google.


Testez votre fichier robots.txt


L'outil de test du fichier robots.txt vous indique si votre fichier robots.txt empêche nos robots d'explorer des URL spécifiques sur votre site.

  1. Depuis la page d'accueil de la Search Console, sélectionnez le site dont vous souhaitez tester le fichier robots.txt.

  2. Sous l'en-tête "Exploration" du tableau de bord de gauche, sélectionnez l'Outil de test du fichier robots.txt.

  3. Apportez des modifications à votre fichier robots.txt en ligne dans l'éditeur de texte.

  4. Faites défiler le code du fichier robots.txt pour localiser les avertissements relatifs à la syntaxe et les erreurs de logique signalés. Le nombre d'avertissements relatifs à la syntaxe et d'erreurs de logique s'affiche immédiatement sous l'éditeur.

  5. Saisissez une extension de l'URL ou un chemin d'accès dans la zone de texte en bas de la page.

  6. Dans la liste déroulante à droite de la zone de texte, sélectionnez le user-agent que vous souhaitez simuler.

  7. Cliquez sur le bouton TEST après avoir choisi le robot pour lancer la simulation.

  8. Vérifiez si le bouton TEST indique Acceptée ou Bloquée pour savoir si nos robots d'exploration peuvent ou non explorer cette URL.