Comment le machine learning aide Google à classer les sites Web ?

Lorsque nous avons commencé à entendre parler de l'apprentissage automatique ou machine learning au début des années 2010, il semblait effrayant au début.

Comment le machine learning aide à classer les sites Web ?

Mais une fois qu'il nous a été expliqués (et nous avons réalisé comment la technologie est déjà utilisé pour nous fournir des solutions), nous avons commencé à nous poser les questions pratiques pour le SEO :

  • Comment les moteurs de recherche utilisent-ils le machine learning ?

  • Comment va-t-il affecter le référencement Web ?

L'apprentissage automatique utilise essentiellement des algorithmes pour calculer les tendances, la valeur ou d'autres caractéristiques de choses spécifiques basées sur l’historique des données.

Google s’est lui-même déclaré comme une entreprise machine learning-first en Juin 2016.

Si vous voulez en savoir plus sur le côté tactique de cette technologie, Eric Enge a rédigé un article complet sur Moz expliquant comment l'apprentissage automatique impacte le référencement Web, d'un point de vue mathématique.

Les moteurs de recherche aiment toujours expérimenter avec la façon dont ils peuvent utiliser cette technologie en évolution, mais voici 9 façons dont nous savons qu'ils utilisent le machine learning actuellement et comment il se rapporte au SEO ou au marketing numérique.


Détection des motifs


Les moteurs de recherche utilisent l'apprentissage automatique pour détecter les motifs qui permettent d'identifier le spam ou le contenu dupliqué. Ils ont assemblé des attributs communs du contenu de faible qualité, tels que :

  • La présence de plusieurs liens sortants vers des pages non liées.

  • Beaucoup d'utilisations de mots vides (stop words) ou de synonymes.

  • D'autres variables de ce genre.

Être capable de détecter ces types de modèles drastiquement, réduit la main-d'œuvre qu'il faut pour tout examiner manuellement par des personnes réelles.

Même si il y a encore des évaluateurs humains de la qualité (Quality Raters), le machine learning a aidé Google à automatiquement passer au crible les pages pour éliminer les pages de faible qualité sans intervention humaine.

L'apprentissage automatique est une technologie en constante évolution, de sorte que plus les pages sont analysées, plus il est précis (en théorie).


Identification de nouveaux signaux


Selon un podcast de 2016 fait avec Gary Illyes de chez Google, non seulement RankBrain aide à identifier les modèles dans les requêtes, il aide également le moteur de recherche à identifier les nouveaux signaux de classement possibles.

Ces signaux sont recherchés afin que Google puisse continuer à améliorer la qualité des résultats de la recherche.

Illyes a également mentionné dans l'épisode du podcast que plus de signaux de Google pourraient être gérés par le machine learning.

Comme les moteurs de recherche sont en mesure d'enseigner à la technologie comment faire fonctionner les prédictions et les données d’elle-même, il peut y avoir moins de travail manuel et les employés peuvent se consacrer à d'autres choses que les machines ne peuvent pas encore faire, comme l'innovation ou des projets centrés sur l'homme.


Le machine learning est pondéré comme une petite partie


Cependant, même si l'apprentissage automatique a lentement transformé la façon dont les moteurs de recherche trouvent et classent les sites Web, cela ne signifie pas qu'il a un impact majeur, significatif (actuellement) sur les pages de résultats.

Dans la même interview podcast, Gary Illyes dit que c'est juste une partie de la plate-forme générale des signaux de classement, et le machine learning est pondéré comme une petite partie de leur algorithme global.

L’objectif final de Google est d'utiliser cette technologie pour fournir aux utilisateurs une meilleure expérience. Il ne veut pas automatiser l'ensemble du processus si cela signifie que l'utilisateur n'aura pas l'expérience qu'ils recherchent.

Donc, n’imaginez pas que l'apprentissage automatique va bientôt prendre en charge tous les ranking de recherche. Il est tout simplement une petite pièce du puzzle que les moteurs de recherche ont mis en œuvre pour espérer nous faciliter les choses.


Signaux personnalisés basés sur une requête spécifique


Le machine learning dans les moteurs de recherche peut varier selon la catégorie de la requête ou le phrasé, selon une étude réalisée en Juillet 2017 à l'Université de Washington.

Les chercheurs ont utilisé le moteur de recherche russe Yandex pour analyser les résultats pour différentes requêtes. Ils ont constaté que les types de résultats affichés dépendaient en grande partie de la catégorie de la requête ou du phrasé.

Cela signifie que l'apprentissage automatique peut accorder plus de poids sur certaines variables ou fortement moins de poids sur d’autres requêtes.

Dans l'ensemble, il a été constaté que les recherches personnalisées, customisées ensuite par le machine learning, ont augmenté le taux de clics (CTR) des résultats d'environ 10%.

Comme l'utilisateur a saisi plus de requêtes dans Yandex, il a été constaté que le CTR a continué à augmenter.

C'est probablement parce que le moteur de recherche était en train “d’apprendre” sur les préférences de l'utilisateur spécifique et pourrait avoir fondé ses informations sur les requêtes passées (ou récentes) pour présenter les informations les plus intéressantes possibles.

Un exemple de ce qui est souvent utilisé dans les présentations de conférence est une série de requêtes en une seule séance et comment les résultats changent en fonction de ce que vous avez cherché par le passé.

Par exemple, si on recherche "New York Football Stadium" dans un navigateur incognito, on reçoit la réponse : “MetLife Stadium”.

Ensuite, si on recherche dans le même navigateur pour juste "Jets", Google va supposer que parce que la dernière question a été sur un stade de football, alors cette question est aussi sur le football.

Et plus on poursuit la recherche en saisissant d’autres requêtes, plus Google apprend (sait) si l’on est passé à autre chose.

La recherche du terme "Jaguars" dans le même navigateur apportera des informations sur l'équipe de la NFL les Jaguars de Jacksonville (liés aux deux dernières recherches).

Mais dès l'instant ou l’on recherche "zoo près de San Diego", puis on commence à taper "Zoo" à nouveau dans la boîte de recherche, Google suggère "zoos avec jaguars", même si je n'ai pas cherché jaguars une deuxième fois.

L'historique des recherches n'est qu'un élément de l'expérience de recherche que l'apprentissage automatique utilise pour fournir de meilleurs résultats.


Google Images pour comprendre les photos


Retour en 2013, il a été rapporté que les utilisateurs de Flickr téléchargeaient 1,4 million de photos par jour, pendant que 40 millions étaient téléchargées sur Instagram, et les utilisateurs de Facebook en téléchargeaient 350 millions.

Bien que ces statistiques ont probablement augmenté (il était difficile de trouver des données de comparaison plus récentes), cela montre quel volume de photos doit être catégorisé et analysé sur le Web tous les jours.

Cette tâche est parfaite pour le machine learning car il peut analyser les motifs de couleur et de forme et les jumeler avec toutes les données existantes de Schéma sur la photo pour aider le moteur de recherche à comprendre ce qu'est réellement chaque image.

C'est ainsi que Google est capable, non seulement de cataloguer des images pour les résultats de Google Image Search, mais également déployer sa fonction qui permet aux utilisateurs de rechercher à partir d'un fichier de photo (au lieu d'une requête textuelle).

Les utilisateurs peuvent alors trouver d'autres instances de la photo en ligne, ainsi que des photos similaires qui ont les mêmes sujets ou palettes de couleurs et des informations sur les sujets de la photo.

Source : Searchenginejournal.com

La façon dont l'utilisateur interagit avec ces résultats peut façonner ses pages de résultats à l'avenir.


Identification des similitudes entre les mots dans une requête


Non seulement les données des requêtes sont utilisées par le machine learning pour identifier et personnaliser les requêtes ultérieures d'un utilisateur, mais elles permettent également de créer des modèles dans les données qui façonnent les résultats de recherche que les autres utilisateurs obtiennent.

Google Trends est un excellent exemple de ce point de vue.

Une phrase ou un mot qui ne signifie pas tout d'abord (par exemple “planche” ou “il est allumé”) peut avoir des résultats de recherche absurdes.

Toutefois, comme son phrasé (et donc, les recherches de l'utilisateur) est plus utilisé au fil du temps, l'apprentissage automatique est en mesure d'afficher des informations plus précises pour ces requêtes.

Comme le langage se développe et se transforme, les machines sont mieux en capacité de prédire nos significations derrière les mots que nous disons et nous fournir de meilleures informations.


Améliorer la qualité publicitaire et cibler les utilisateurs


Selon les brevets Google US20070156887 et US9773256 sur la qualité de l'annonce, le machine learning peut être utilisé pour améliorer un “modèle statistique par ailleurs faible”.

Cela signifie que le classement de l'annonce peut être influencé par un système de machine learning :

Le montant de l'enchère, la qualité de votre annonce au moment de l'enchère (y compris le taux de clics estimé, la pertinence de la publicité et l'expérience de la page de destination), les seuils de classement des annonces (Ad Rank), le contexte de la recherche de la personne, sont introduits dans le système sur une base de mot-clé par mot-clé, pour déterminer quels seuils sont considérés par Google pour chaque mot clé.


Identification des synonymes


Lorsque vous voyez des résultats de recherche qui n'incluent pas le mot clé dans l'extrait (visible en gras habituellement), il est probablement dû à Google utilisant RankBrain pour identifier les synonymes.

Toujours est-il que Google met en évidence les synonymes dans certains cas. Sans doute pour indiquer qu'il est capable de reconnaître les synonymes.


Clarification des requêtes


Les utilisateurs peuvent effectuer une recherche pour acheter (recherche transactionnelle), pour trouver des informations (recherche informationnelle), ou pour trouver des ressources (navigation) pour toute recherche donnée.

En outre, un mot-clé pourrait être utile à l'une ou l'autre de ces intentions.

En analysant les modèles de clics et le type de contenu que les utilisateurs engagent avec, par exemple le CTR par type de contenu, un moteur de recherche peut tirer parti de l'apprentissage automatique pour déterminer l'intention de l’utilisateur.

Pour conclure, même si le machine learning n'est pas parfait (et ne le sera probablement  jamais car il ne s'arrête jamais d'apprendre), plus les humains interagiront avec lui, plus il deviendra plus précis et “plus intelligent” au fil du temps.