Voici la liste de tous les changements de Robots.txt pour GoogleBot

On le sait depuis la veille que Google entend faire du protocole d'exclusion robots.txt un standard officiel. Et Google semble vouloir accélérer le mouvement.

Voici la liste de tous les changements de Robots.txt pour GoogleBot

Pour ce faire, il vient dans la foulée de proposer quelques changements de ses propres documents pour développeur autour de la spécification robots.txt pour les faire correspondre au projet Internet révélé la veille.

Voici une liste de ce qui a changé désormais pour le fichier robots.txt en ce qui concerne l'exploration de Googlebot :

  1. Suppression de la section « Langue requise » dans ce document parce que la langue est spécifique au projet Internet.

  2. Robots.txt accepte désormais tous les protocoles basés sur URI.

    Le terme URI est l'acronyme de Uniform Ressource Identifier, qui signifie Identifiant de ressource uniforme. Ce terme désigne un élément permettant d'identifier une ressource. Par analogie, cela correspond à l'identité d'une personne, par exemple.

  3. Google suit au moins 5 sauts de redirection (une redirection vers une page redirigée aussi qui est elle-même par la suite redirigée, etc... jusqu’à 5 fois). Comme il n'y avait pas encore de règles, les redirections sont suivies pour au moins 5 sauts et si aucun robot.txt n’est trouvé, Google la traite comme une erreur 404 pour les robots.txt.

    Le traitement des redirections logiques pour le fichier robots.txt basé sur le contenu HTML qui renvoie 2xx (images, JavaScript, ou meta redirections de type rafraîchissement) est déconseillé et le contenu de la première page est utilisé pour trouver les règles applicables.

  4. Pour 5xx, si le robot.txt est inaccessible pendant plus de 30 jours, la dernière copie mise en cache de robots.txt est utilisée, ou si elle n'est pas disponible, Google suppose qu'il n'y a pas de restrictions d'exploration.

  5. Google traite les demandes infructueuses ou les données incomplètes comme une erreur de serveur. Les « enregistrements » sont maintenant appelés « lignes » ou « règles », le cas échéant.

  6. Google ne prend pas en charge le traitement des éléments avec des erreurs simples ou des fautes de frappe (par exemple, «user agent» au lieu de «user-agent»).

  7. Google applique actuellement une taille limite de 500 kibioctets (KiB), et ignore le contenu après cette limite. In extenso, si votre contenu est plus lourd, il n’y a qu’une partie qui serait explorée.

  8. Syntaxe formelle du Augmented Backus-Naur Form (ABNF) par RFC5234 mise à jour pour être valide et pour couvrir les caractères UTF-8 dans robots.txt.

  9. Mise à jour de la définition de «groupes» pour la rendre plus courte et plus précise. Ajout d'un exemple pour un groupe vide.

  10. Suppression des références au système de crawling Ajax dépréciée.



Les grands changements sont donc :

  • Googlebot suivra 5 sauts de redirection,

  • Il n'y a pas de restrictions d'analyse si l'indisponibilité est supérieure à 30 jours,

  • Demandes infructueuses de requêtes=erreur serveur

  • Il y a une limite de taille de 500 KiB

  • Il prend en charge URI sur la base des protocoles.




Ok, donc, erreur de serveur pour :
  • Cache inférieur à 30 jours : arrêt de l’exploration

  • Cache supérieur à 30 jours et version mise en cache disponible : reprend la version mise en cache pour l'exploration

  • Cache supérieur à 30 jours et version mise en cache indisponible : reprend l'exploration sans aucune restriction

Google précise dans son document mis à jour :

L'exploration de fichiers robots.txt peut généralement aboutir à 3 résultats différents :

- Autorisation totale : tout le contenu peut être exploré ;

- Interdiction totale : aucun contenu ne peut être exploré

- Autorisation conditionnelle : les instructions du fichier robots.txt déterminent la possibilité d'explorer certains contenus.

Rappelons que Google a officiellement annoncé qu’il va désormais ignorer les directives noindex, nofollow et crawl-delay dans les fichiers robots.txt.

Il a en effet déclaré dans son post d’annonce :

Pendant l'open sourcing de notre bibliothèque d'analyse (parser), nous avons analysé l'utilisation des règles de robots.txt. En particulier, nous nous sommes concentrés sur les règles non prises en charge par le projet d'Internet, telles que crawl-delay, nofollow, et noindex.

Étant donné que ces règles n'ont jamais été documentées par Google, naturellement, leur utilisation par rapport à Googlebot est très faible.

En creusant plus loin, nous avons vu que leur utilisation a été contredite par d'autres règles dans leur ensemble, sauf 0,001% de tous les fichiers robots.txt sur Internet.

Ces erreurs nuisent à la présence des sites Web dans les résultats de recherche de Google d'une manière que nous ne pensons pas que les webmasters l’avait prévue. 

Source