Googlebot va commencer à crawler certains sites sur HTTP/2

Depuis que les navigateurs Web grand public ont commencé à prendre en charge la prochaine révision majeure de HTTP, HTTP/2 ou h2 pour faire court, les professionnels du Web ont voulu savoir si Googlebot peut explorer sur la version améliorée et plus moderne du protocole.

Googlebot va commencer à crawler certains sites sur HTTP/2

Et Google de répondre dans un post récent :



Googlebot apprend un nouveau dialecte HTTP !

À partir de la mi-Novembre 2020, vous pouvez voir une partie du crawl Googlebot se faire sur HTTP2.



Alors, c’est quoi HTTP/2 ?


Comme dit plus haut, c’est la prochaine version majeure de HTTP, le protocole que l’Internet utilise principalement pour le transfert de données.

HTTP/2 est beaucoup plus robuste, efficace et plus rapide que son prédécesseur, en raison de son architecture et des fonctionnalités qu’il implémente pour les clients (par exemple, votre navigateur) et les serveurs.

Cette spécification HTTP/2 décrit une expression optimisée de la sémantique du protocole de transfert hypertexte (HTTP), appelé HTTP version 2 (HTTP/2).

HTTP/2 permet donc une utilisation plus efficace du réseau des ressources et une perception réduite de la latence en introduisant l’en-tête compression sur le champ et en permettant plusieurs échanges simultanés sur la même connexion.

Il introduit également des pressions non sollicitées des représentations des serveurs aux clients.

Cette spécification est une alternative à la Syntaxe du message HTTP/1.1. La sémantique existante de HTTP reste inchangée.

Si vous voulez en savoir plus à ce sujet, Google a publié un long article sur le sujet HTTP/2 sur developers.google.com


Pourquoi Google apporte ce changement ?


En général, Google s’attend à ce que cette modification rende l’exploration plus efficace en termes d’utilisation des ressources du serveur.

Avec HTTP/2, Googlebot est en mesure d’ouvrir une seule connexion TCP au serveur et de transférer efficacement plusieurs fichiers sur elle en parallèle, au lieu de nécessiter plusieurs connexions.

Moins il y a de connexions ouvertes, moins le serveur et Googlebot ont de ressources à dépenser pour crawler.

Il permet également de prioriser les demandes, en permettant aux demandes plus importantes de remplir plus rapidement, ce qui améliore encore les performances.


Le protocole résultant est plus convivial pour le réseau, car moins de connexions TCP peuvent être utilisées par rapport à HTTP/1.x.

Cela signifie moins de concurrence avec d’autres flux, et des connexions à plus longue durée de vie, ce qui conduit à une meilleure utilisation de la capacité réseau disponible.

Enfin, HTTP/2 permet également un traitement plus efficace des messages grâce à l’utilisation de cadrage de messages binaires.


Comment cela va fonctionner concrètement ?


Dans la première phase, Google dit qu’il va explorer un petit nombre de sites sur HTTP/2 ou h2, et il va monter progressivement à plus de sites qui peuvent bénéficier des fonctionnalités initialement prises en charge, comme la demande multiplexing.

Googlebot décide quel site explorer sur h2 en fonction de si le site prend en charge h2, et si le site et Googlebot bénéficieraient de crawler sur HTTP/2. Si votre serveur prend en charge h2 et Googlebot explore déjà beaucoup à partir de votre site, vous pouvez être déjà admissible à la mise à niveau de connexion, et vous n’avez rien à faire.

Si votre serveur ne parle encore que de HTTP/1.1, c’est également très bien. Il n’y a pas d’inconvénient explicite pour explorer sur ce protocole; explorer restera le même en termes de qualité et de quantité.


Comment exclure votre site du crawl sur HTTP/2


D’après Google, ses tests préliminaires n’ont montré aucun problème ou impact négatif sur l’indexation, mais il comprend que, pour diverses raisons, vous pouvez choisir de retirer votre site de crawler sur HTTP/2.

Vous pouvez le faire en demandant au serveur de répondre avec un code d’état HTTP 421 lorsque Googlebot tente d’analyser votre site sur h2.

Les Clients recevant une réponse 421 (Demande mal dirigée) à partir d’un serveur “pourraient” réessayez la demande - que la méthode de demande soit ou non “idempotent” - sur une connexion différente. Cela est possible si une connexion est réutilisée (section 9.1.1) ou si un autre service est sélectionné [ALT-SVC].

Ce code d’état NE DOIT PAS être généré par des proxys.

Une réponse 421 est cachable par défaut, c’est-à-dire, sauf indiquée par la définition de méthode ou les contrôles explicites du cache (voir Section 4.2.2 de [RFC7234]).


Si ce n’est pas possible pour le moment, vous pouvez envoyer un message à l’équipe Googlebot (cependant, cette solution est temporaire).


Quelques questions et réponses concernant Googlebot et HTTP/2


  1. Pourquoi mettez-vous à niveau Googlebot maintenant ?
    • Le logiciel que nous utilisons pour permettre à Googlebot de crawler sur HTTP/2 a suffisamment mûri pour qu’il puisse être utilisé en production.


  2. Dois-je mettre à niveau mon serveur dès que possible ?
    • C’est vraiment à vous de le faire. Cependant, nous allons seulement passer à explorer sur les sites h2 qui le supportent et en bénéficieront clairement. S’il n’y a pas d’avantage évident pour crawler sur h2, Googlebot continuera à crawler sur h1.


  3. Comment puis-je tester si mon site prend en charge HTTP/2 ?


  4. Comment puis-je mettre à niveau mon site en h2 ?
    • Cela dépend vraiment de votre serveur. Nous vous recommandons de parler à votre administrateur de serveur ou à votre fournisseur d’hébergement.


  5. Comment puis-je convaincre Googlebot de parler HTTP/2 avec mon site ?
    • Vous ne pouvez pas. Si le site prend en charge h2, il est admissible pour être exploré sur h2, mais seulement si cela serait bénéfique pour le site et Googlebot à la fois. Si explorer sur h2 n’entraînerait pas d’économies notables de ressources par exemple, nous continuerions simplement à analyser le site sur HTTP/1.1.


  6. Pourquoi vous ne crawlez pas tous les sites prêts pour HTTP/2 sur HTTP/2?
    • Dans nos évaluations, nous avons trouvé peu ou pas d’avantage pour certains sites (par exemple, ceux avec qps très faible) lors de l’exploration sur h2. Par conséquent, nous avons décidé de passer au crawl sur h2 seulement quand il y a des avantages évidents pour le site.

      Nous continuerons d’évaluer les gains de rendement et nous modifierons peut-être nos critères de commutation à l’avenir.


  7. Comment puis-je savoir si mon site est exploré sur h2 ?
    • Lorsqu’un site devient admissible pour être exploré sur h2, les propriétaires de ce site enregistré dans la Search Console recevront un message indiquant qu’une partie du trafic du crawling pourrait être plus HTTP/2 à l’avenir.

      Vous pouvez également enregistrer vos journaux (logs) de serveur (par exemple, dans le fichier access.log si votre site s’exécute sur Apache).


  8. Quelles fonctionnalités HTTP/2 sont prises en charge par Googlebot ?
    • Googlebot prend en charge la plupart des fonctionnalités introduites par HTTP/2. Certaines fonctionnalités comme la poussée du serveur, qui peut être bénéfique pour le rendu, sont encore en cours d’évaluation.


  9. Googlebot prend-il en charge le texte brut HTTP/2 (h2c) ?
    • Non. Votre site Web doit utiliser HTTPS et prendre en charge HTTP/2 afin d’être admissible à l’exploration sur HTTP/2. Cela équivaut à la façon dont les navigateurs modernes le gèrent.


  10. Googlebot va-t-il utiliser l’extension ALPN pour décider quelle version de protocole utiliser pour l’exploration ?
    • La négociation du protocole de la couche d’application (ALPN = Application-Layer Protocol Negotiation ) ne sera utilisée que pour les sites qui sont optés pour crawler sur h2, et le seul protocole accepté pour les réponses sera HTTP/2.

      Si le serveur répond pendant le contact TLS avec une version de protocole autre que h2, Googlebot fera demi-tour et reviendra plus tard sur HTTP/1.1.


  11. Comment les différentes fonctionnalités h2 vous aideront-elles à crawler ?
    • Voici quelques-uns des nombreux avantages, mais les plus importants de h2 :

      Multiplexing et concurrence : moins de connexions TCP ouvertes signifie moins de ressources dépensées.

      Compression de l’en-tête : la réduction drastique des tailles d’en-tête HTTP permettra d’économiser des ressources.

      Poussée du serveur : cette fonctionnalité n’est pas encore activée ; elle est encore en phase d’évaluation. Elle peut être bénéfique pour le rendu, mais nous n’avons rien de spécifique à dire à ce sujet à ce stade.


  12. Googlebot explorera-t-il plus ou plus vite sur HTTP/2 ?
    • Le principal avantage de h2 est l’économie de ressources, à la fois du côté du serveur, et du côté de Googlebot. Que nous explorions à l’aide de h1 ou h2 n’affecte pas la façon dont votre site est indexé, et donc il n’affecte pas combien nous prévoyons d’explorer à partir de votre site.

      Et il n’y a aucun avantage de ranking pour un site en étant crawlé sur h2.

Source : Google