Facebook entre maintenant en guerre contre le scraping

Facebook va rétrograder les éditeurs de news et autres sites indélicats qui copient illicitement et publient à nouveau le contenu d'autres sources avec peu ou pas de modification.

Facebook entre maintenant en guerre contre le scraping

En d’autres termes, Facebook déclare la guerre au scraping (technique d'extraction du contenu des sites), en montrant désormais moins de liens de tels contenus dupliqués dans le fil d’actualité.

A condition que ces contenus scrapés aient une combinaison de ce nouveau signal sur l'authenticité du contenu avec un titre clickbait ou racoleur (attrape-clics) ou des pages de destination remplies d'annonces de faible qualité.

Facebook vient d’ajouter une update à un post datant de Mai 2017 concernant sa lutte contre le contenu de faible qualité :

Mise à jour du 16 Octobre 2018 :

A partir d'aujourd'hui, nous déployons une mise à jour afin que les gens voient moins de publications qui pointent des liens vers des sites de faible qualité qui copient et republient le contenu à partir d'autres sites sans fournir de valeur ajoutée.

Nous ajustons nos Règles des éditeurs pour le fil d’actualité en conséquence.


Cette mise à jour vient après que des enquêtes de Facebook ont découvert que les utilisateurs détestent le contenu dupliqué dans leur fil d’actualité alors qu’ils auraient déjà lu ce même contenu via un post différent.

Si la propriété intellectuelle mal acquise obtient moins de distribution via le fil d’actualité, un tel contenu issu du scraping recevra moins de trafic référent de la part de Facebook, gagnera moins de recettes publicitaires et il y aura moins d'incitation pour les escrocs à voler des articles, des photos et des vidéos en premier lieu.

En prenant cette décision, Facebook espère que cela pourrait améliorer l'authenticité du contenu sur le Web.

Ce que Google tente aussi de faire depuis des années sur son moteur de recherche avec des résultats mitigés. Le nombre d’éditeurs de sites qui se plaignent de voir leur contenu copié se classer mieux que le contenu original est légion...

Alors, comment Facebook détermine si le contenu est volé ? D’après Techcrunch, ses systèmes comparent le contenu textuel principal d'une page avec tous les autres contenus textuels pour trouver des correspondances potentielles.

Le degré de correspondance est utilisé pour prédire qu'un site a scrappé son contenu.

Il utilise ensuite un classifieur combiné fusionnant cette prédiction avec la façon dont les titres du site sont racoleurs, plus la qualité et la quantité d'annonces sur le site.