Cela pourrait exiger de mettre en place certaines configurations de sorte que certaines URL cessent d'être explorées et indexées. Et ce, à l’aide d’indications dans le fichier robots.txt du site ou de l’utilisation de la balise meta noindex sur des pages créées automatiquement et contenant des paramètres dans le chemin d’accès de l’URL.
Lorsque ce genre de précautions ne sont pas prises sur un site ecommerce dont les pages dynamiques se créent à la volée, et notamment lors de l’utilisation du moteur de recherche interne avec ses différents filtres (marque, modèle, taille, couleur, prix, etc), une même page produit peut alors avoir plusieurs URLs indexées par les moteurs de recherche.
Ainsi, par exemple, un site ecommerce comprenant 200 pages produits pourrait générer automatiquement 10.000 pages indexées par Google qui inclurait alors des versions d’URLs avec http et avec httpS, avec ou sans WWW et avec des centaines d’URLs ayant des paramètres des données des tris.
![]() |
Images via Seobythesea.com |
Et le contenu dupliqué n’existera pratiquement plus.
Google veut se charger lui-même des contenus dupliqués
Pour faire face à ces contenus dupliqués involontairement à foison dans les sites ecommerce, puisque créés à la volée, Google vient de déposer un brevet qui devrait lui permettre d’identifier les produits ou les entités présentes sur chaque page afin de les associer à chacune de ces pages.
Et ce, bien entendu, dans l’optique de supprimer ou réduire tous les contenus dupliqués de ses pages de résultats.
Ainsi, selon la description de ce brevet, Google utiliserait le balisage Schema.org qui décrit les entités pour identifier quand des pages contiennent les mêmes entités afin de déclasser ces pages ou tout simplement les supprimer des résultats de recherche pour favoriser la diversité des résultats affichés.
Pour chaque page indexée, à l’aide du balisage de données structurées, Google pourra donc désormais déterminer, surtout si le lien canonique est absent, l’URL originale de la page à afficher dans les SERPs en fonction des entités identifiées et retrouvées dans plusieurs autres pages similaires.