WordPress 5.3 devrait changer la façon dont il bloque l'indexation Google

WordPress a annoncé un changement important à la façon dont il va empêcher les moteurs de recherche d'indexer les sites Web.

WordPress 5.3 devrait changer la façon dont il bloque l'indexation Google

Ce changement abandonne la solution traditionnelle Robots.txt au profit de l'approche Robots Meta Tag.

Et ce, au moment ou Google annonce son intention de faire du fichier robots.txt un standard officiel et propose même déjà 5 alternatives à la directive noindex qu'il ne prend plus en charge depuis le 1er Septembre 2019. 

La modification apporte WordPress en ligne avec la raison de bloquer Google, qui est d'empêcher les pages bloquées d'apparaître dans les résultats de recherche de Google.

Il s'agit de la balise Meta Robots que WordPress utilisera :

< meta name=’robots’ content=’noindex,nofollow’ /> 

Cette balise meta demande que les moteurs de recherche excluent la page de l'indexation et les décourage d’explorer davantage le site Web.


Blocage de l’indexation Google


Cela a longtemps été une pratique courante d'utiliser le fichier Robots.txt pour bloquer l'indexation d'un site Web.

Le mot «indexation» signifiait l’exploration du site par GoogleBot.

En utilisant la fonction de blocage Robots.txt, vous pouvez empêcher Google de télécharger la page Web spécifiée et, a-t-on supposé, Google ne serait pas en mesure d'afficher vos pages dans les résultats de recherche.

Mais cette directive de robots.txt empêche seulement Google d’explorer la page. Google a toujours été libre de l'ajouter à son index s'il était en mesure de découvrir l'URL autrement.

Ainsi, pour empêcher un site d'apparaître dans l'index, un éditeur bloquerait Google d’ « indexer » les pages. Ce qui n'était pas toujours efficace.


WordPress 5.3 va vraiment prévenir l'indexation


WordPress a adapté l'approche Robots.txt. Mais cela change dans la version 5.3.

Lorsqu'un éditeur sélectionne actuellement « décourager les moteurs de recherche d'indexer ce site », ce que cela fait, c'est ajouter une entrée aux robots.txt du site qui interdit à Google de le visiter.

A partir de WordPress 5.3, WordPress adoptera l'approche plus fiable “Robots Meta Tag” pour empêcher l'indexation d'un site Web.

Cette modification affectera le paramètre « décourager les moteurs de recherche d'indexer ce site ».

Ce changement est une amélioration. Les éditeurs WordPress peuvent être plus sûrs en sachant que les pages Web bloquées ne seront pas affichées dans les résultats de recherche de Google.

Comme l'écrit Joost de Valk dans une explication sur l'exclusion des moteurs de recherche, l'exclusion de l'exploration peut avoir pour effet de permettre l'indexation d'un site :

Un site n'a pas besoin d'être exploré pour être répertorié.

Si un lien pointe vers une page, un nom de domaine ou n'importe où, Google suit ce lien.

Si le robot.txt sur ce domaine empêche le crawling de cette page par un moteur de recherche, il va encore afficher l'URL dans les résultats s’il peut recueillir ... il pourrait être utile de regarder de près.

Ces changements visent à mieux décourager les moteurs de recherche de référencer un site plutôt que de les empêcher de parcourir le site.

Dans les versions précédentes de WordPress, Disallow: / a été ajouté au fichier robots.txt pour empêcher les moteurs de recherche d’explorer le site. Cela a été supprimé pour les sites Web non publics dans WordPress 5.3.


Pourquoi WordPress a-t-il utilisé Robots.txt ?


WordPress s'est appuyé sur Robots.txt pour bloquer l'indexation d'un site Web parce que c'est ainsi que tout le monde a gardé les pages de s’afficher dans les résultats de recherche de Google. C'était la façon habituelle de le faire.

Pourtant, même si tout le monde l'a fait de cette façon, comme expliqué plus haut, c'était une approche peu fiable.

Le mot « indexation » ayant deux significations
  1. L'indexation signifie explorer, comme lorsque Googlebot visite et télécharge des pages Web.

  2. L'indexation peut également signifier l'ajout d'une page Web à la base de données de Google des pages Web (qui est appelé l'index).
Bloquer Google d’indexer une page web l'empêchera de voir la page Web, mais Google pourrait toujours indexer la page Web et l'ajouter à l'index de Google. Est-ce logique ?


Robots.txt Versus Robots Meta Tag


Garder une page web hors de l'index de Google n'était pas l'intention de la solution Robots.txt. Faire cela est le travail de Meta Tag Robots, dixit Searchenginejournal.

Il est donc bon de voir WordPress embrasser Robots Meta Tag comme la solution pour bloquer les pages Web de l'affichage dans les moteurs de recherche.

La méthode la plus efficace pour exclure les sites en développement d'être indexés par les moteurs de recherche est d'inclure le HTTP Header X-Robots-Tag: noindex, nofollow lors de la desserte de tous les actifs pour votre site: images, PDFs, vidéo et autres actifs.

Précisons que l'en-tête HTTP X-Robots-Tag (exemple : header("X-Robots-Tag: noindex, nofollow", true); ) n'a pas les mêmes objectifs, les mêmes effets et ne s'implémente pas de la même manière que le fichier Robots.txt. Néanmoins, ces deux méthodes sont très liées.

Et comme la plupart des actifs non-HTML sont servis directement par le serveur Web sur un site WordPress, le logiciel de base est incapable de définir cet en-tête HTTP. Vous devez consulter la documentation de votre serveur Web ou de votre hôte pour vous assurer que ces actifs sont exclus sur les sites en développement.

WordPress 5.3 devrait sortir en Novembre 2019.