Google a mis à jour son brevet sur l'indexation du site basée sur les phrases

Google fait parfois l'appariement de phrases, même si la requête de recherche n'est pas dans les guillemets.

Google a mis à jour son brevet sur l'indexation du site basée sur les phrases

Il inclut également des mots qui sont traditionnellement considérés comme des opérateurs de recherche et des mots stop (pas habituellement pris en compte) s'ils font partie d'une expression populaire. Il semble que Google devient de plus en plus en mesure de mieux comprendre la langue.

Comprendre comment Google indexe et utilise une expression basée sur l'analyse de la langage, et l'analyse sémantique de ces termes, peut vous aider à mieux comprendre le ciblage sur le site et le renforcement des liens.

Comprendre comment les moteurs de recherche peuvent découvrir et utiliser des phrases peut vous aider à aller au-delà du ciblage de la “correspondance exacte” dans le contenu et le renforcement des liens.

Il y a eu beaucoup de conversations ces derniers temps sur le changement dans le poids du texte exact de l'ancre du lien mais il est aussi simple que Google se détourne des ancres exactes.

Google Panda nous a montré que Google a considérablement amélioré sa capacité d'analyser le contenu à l'échelle. Cela peut être le résultat d'une meilleure compréhension de l'utilisation de la langue sur le net.


Que couvre l’indexation de Google basée sur les phrases ?


Google a mis à jour l'un de ses brevets les plus importants aujourd'hui.

Lorsqu'une page couvre un sujet tel que “Président des Etats-Unis”, les chances sont bonnes qu'elle pourrait inclure des termes significatifs sur cette page qui pourrait être dites pour prédire ce dont parle la page, telles que “maison blanche” ou “Rose Garden” ou “Conférence de presse” ou “Secrétaire d’Etat”.

Si vous voyez des phrases comme celles-ci sur une page, elles peuvent être des allusions faites au sujet de cette page, ce qui est descriptif de la façon dont l'indexation basée sur la phrase par Google fonctionne.

C'est une approche qui pourrait être dite d'utiliser des thèmes sémantiques pour montrer la signification des pages. Il le fait en comprenant et en indexant les phrases significatives qui coexistent sur les pages qui se classent fortement pour un terme.

Juste parce que Google a un brevet concernant l’indexation basée sur des phrases qui a été mis à jour.

Mais, Matt Cutts, en son temps, avait publié une vidéo il y a 5 ans, et il avait déclaré que ce n’est pas parce que Google a un brevet sur quelque chose que cela signifie qu’il va forcément l’utiliser.

Cependant, comme le fait remarquer à juste titre Bill Slawski, lorsque Google procède à la mise à jour d'un brevet, c’est qu’il y a de fortes probabilités qu’il l’utilise. Surtout après y avoir intégré de l’intelligence artificielle.


Des éléments qui plaident pour une utilisation de ce brevet


Parmi tous les brevets de Google, et il y a quelques arguments qui peuvent être avancés et qui nous indiquent qu'il peut utiliser le brevet sur l’indexation basée sur les phrases accordé le 5 Juin 2018.

  1. Il existe plus de 20 brevets connexes accordés à Anna Patterson et assignés à Google au sujet des processus impliquant l'indexation basée sur des phrases.

  2. Le brevet semble être l’un des plus importants et sans doute l'un des 10 brevets SEO les plus importants de tous les temps, d’après Bill Slawski.

  3. Le processus derrière le brevet a d'abord été publié quand il a été déposé à l'Office des brevets en 2004, et il a été ajouté au processus avec au moins 20 brevets qui s’ajoutent aux fonctionnalités, telles que la lutte contre le spam et la génération de snippets, et nous révèle des détails sur la façon dont il est mis en œuvre dans l'index de Google.

  4. Un brevet de continuation est une version d'un brevet où la description du brevet n'a pas été modifiée, mais les revendications dans le brevet ont été mises à jour, afin de refléter les changements dans le processus que le brevet vise à protéger.

    La date de dépôt du brevet demeure la date du dépôt initial, mais la capacité d'exclure d'autres personnes de l'utilisation du processus derrière le brevet devient fondée sur les nouvelles revendications.

    Les revendications du brevet ont sensiblement changé, en passant de 2004 à 2018. Une raison importante pour modifier ces revendications est de refléter le processus réel en place (si le brevet est effectivement utilisé) derrière le brevet.

Cela vaut la peine de comparer les trois premières revendications de l'original par rapport à la version du brevet qui a été accordée aujourd'hui.


Voici les trois premières revendications de l'original


  1. Une méthode de sélection des documents dans une collection de documents en réponse à une requête, la méthode comprenant :

    • réception d'une requête;

    • identification d'une pluralité de phrases dans la requête, dans laquelle au moins une phrase est une expression à plusieurs mots;

    • identification d'une extension de phrase d'au moins une des phrases identifiées;

    • et la sélection de documents à partir de la collection de documents contenant une phrase à partir d'un ensemble, y compris des phrases dans la requête et l'extension de phrase.

  2. La méthode de la revendication 1, dans laquelle la sélection des documents comprend : la combinaison d'une liste de publications d'une phrase identifiée et d'une liste de publications de l'extension de l'expression de la phrase identifiée pour former une liste de publications combinée, et la sélection de documents apparaissant dans l'ensemble de la liste de publications et dans les listes de publications des autres phrases identifiées.

  3. Une méthode de sélection des documents dans une collection de documents en réponse à une requête, la méthode comprenant :

    • réception d'une requête;

    • identification d'une phrase incomplète dans la requête;

    • remplacement de la phrase incomplète par une extension de phrase et sélection de documents à partir de la collection de documents contenant l'extension de phrase.

Ce qui semble être différent des revendications plus anciennes par rapport aux plus récentes qui suivent, c'est que Google fournit plus d'informations sur la façon dont l'indexation basée sur des phrases peut désormais classer les pages.


Ce qui est revendiqué est maintenant


  1. Une méthode mise en œuvre par ordinateur comprenant :

    • l'obtention, à partir d'un index basé sur une expression pour un moteur de recherche sur Internet, d'une liste de documents provenant d'une collection de documents disponibles sur Internet qui contiennent une première phrase, la première phrase étant pertinente pour une requête;

    • pour chaque document de la liste : déterminer, à l'aide d'informations de phrases connexes stockées dans l'index pour chaque document dans la liste des documents, si le document comprend une ou plusieurs phrases connexes de la première phrase, où chaque phrase connexe a un réel taux de co-occurrence de la phrase connexe et la première phrase de la collection de documents qui dépasse le taux de co-occurrence prévu de l'expression connexe et la première phrase de la collection de documents;

    • classer les documents dans la liste en fonction d'une quantité de phrases associées déterminées pour chaque document, de sorte que les documents comportant des phrases plus apparentées soient classés plus haut que les documents avec moins de phrases apparentées;

    • et sélectionner au moins quelques-uns des documents les mieux classés à inclure dans un résultat de la requête.

  2. La méthode de la revendication 1, qui détermine si le document comprend une ou plusieurs phrases connexes de la première phrase comprend : accéder à une liste de publications pour la première phrase, la liste de publications, y compris, pour chaque document identifié dans la liste de publications, une indication de la quantité de phrases associées présentes dans le document.

  3. La méthode de la revendication 1, dans laquelle un document avec une faible fréquence de termes de requête, mais une pluralité de phrases connexes pour la première phrase se classe plus haut qu'un document avec une fréquence plus élevée de termes de requête, mais sans phrases connexes.

Le résumé de ce brevet mis à jour est le suivant :

Un système d'extraction d'informations utilise des phrases pour indexer, récupérer, organiser et décrire des documents.

Des phrases sont identifiées qui prédisent la présence d'autres phrases dans les documents.

Les documents sont indexés en fonction de leurs phrases incluses. Les expressions et extensions de phrases associées sont également identifiées.

Les phrases d'une requête sont identifiées et utilisées pour récupérer et classer les documents.

Les expressions sont également utilisées pour regrouper des documents dans les résultats de recherche, créer des descriptions de documents et éliminer les doublons de documents des résultats de recherche et de l'index.

Reste maintenant à savoir si ce brevet va entrer en action ou s’il est déjà appliqué dans les algorithmes de classement de Google.

Affaire à suivre.