Le brevet de Google pour réduire le contenu dupliqué dans les SERP

L’un des défis, pendant l’optimisation d'un site ecommerce qui a beaucoup d'options de tri et de filtrage sur ses pages produits (moteur interne), est peut être d'essayer de créer un chemin d'accès unique afin que toutes les pages sur le site qu’on souhaite voir référencer par un moteur de recherche soient effectivement explorées et indexées.

Le brevet de Google pour réduire le contenu dupliqué dans les SERP

Cela pourrait exiger de mettre en place certaines configurations de sorte que certaines URL cessent d'être explorées et indexées. Et ce, à l’aide d’indications dans le fichier robots.txt du site ou de l’utilisation de la balise meta noindex sur des pages créées automatiquement et contenant des paramètres dans le chemin d’accès de l’URL.

Lorsque ce genre de précautions ne sont pas prises sur un site ecommerce dont les pages dynamiques se créent à la volée, et notamment lors de l’utilisation du moteur de recherche interne avec ses différents filtres (marque, modèle, taille, couleur, prix, etc), une même page produit peut alors avoir plusieurs URLs indexées par les moteurs de recherche.

Ainsi, par exemple, un site ecommerce comprenant 200 pages produits pourrait générer automatiquement 10.000 pages indexées par Google qui inclurait alors des versions d’URLs avec http et avec httpS, avec ou sans WWW et avec des centaines d’URLs ayant des paramètres des données des tris.

Images via Seobythesea.com
Ce qui, du point de vue du référencement, ne ferait qu’affaiblir le classement de la page produit originale dans les pages de résultats. Car, en réduisant le nombre d’URLs indexées pour le rapprocher du nombre de produits réellement proposés par le site, ce nombre réduit de pages se classerait nettement mieux dans les résultats de recherche.

Et le contenu dupliqué n’existera pratiquement plus.

Google veut se charger lui-même des contenus dupliqués


Pour faire face à ces contenus dupliqués involontairement à foison dans les sites ecommerce, puisque créés à la volée, Google vient de déposer un brevet qui devrait lui permettre d’identifier les produits ou les entités présentes sur chaque page afin de les associer à chacune de ces pages.

Et ce, bien entendu, dans l’optique de supprimer ou réduire tous les contenus dupliqués de ses pages de résultats.


Ainsi, selon la description de ce brevet, Google utiliserait le balisage Schema.org qui décrit les entités pour identifier quand des pages contiennent les mêmes entités afin de déclasser ces pages ou tout simplement les supprimer des résultats de recherche pour favoriser la diversité des résultats affichés.


Pour chaque page indexée, à l’aide du balisage de données structurées, Google pourra donc désormais déterminer, surtout si le lien canonique est absent, l’URL originale de la page à afficher dans les SERPs en fonction des entités identifiées et retrouvées dans plusieurs autres pages similaires.