60% des 120 mille milliards de liens connus de Google sont des contenus dupliqués

Durant la keynote State of Search qui s’est tenue à Dallas (USA), Gary Illyes, Webmaster Trends Analyst chez Google, a révélé un chiffre assez incroyable sur les URLs explorées par Google.

60% des 120  mille milliards de liens connus de Google sont des contenus dupliqués
Ainsi, selon Gary Illyes, Google aurait connaissance de 120 mille milliards de contenus web, donc de liens internet de contenus web.

Et parmi ces milliers de milliards de liens, 60% seraient des contenus dupliqués.

C’est quand même énorme ! Surtout quand on se réfère aux propos de Matt Cutts en 2013 qui situait à 20 à 30% de contenus dupliqués sur le Web.

Mais, comme le précise Jennifer Slegg, il faut garder à l’esprit que toutes les pages visitées par Googlebot ne sont pas forcément indexées par Google. La phase d’exploration étant différente de celle de l’indexation des contenus.

Donc ici, il est question du chiffre des URLs qui existent et que Google sait qu’elles existent. Sans pour autant les avoir toutes référencées. A commencer, en principe, par ces URLs dupliquées.


Rappelons que tout le duplicate content n’est pas forcément le fait volontaire des webmasters. Cela peut être produit par des sessions de navigation sur leurs sites.

Mais, après, il existe aussi les copies de contenu par scrapping, et autres techniques automatisées pour la production de contenu à partir de celui des autres.