Cela signifie que Google ne prendra plus en charge la directive noindex figurant dans les fichiers robots.txt.
Dans l'intérêt de maintenir un écosystème sain et de nous préparer à d'éventuelles futures versions open source, nous ne prenons plus en compte tous les codes qui traitent des règles non prises en charge et non publiées (comme noindex) à partir du 1er Septembre 2019.
Pour ceux d'entre vous qui se sont appuyés sur la directive d'indexation “noindex” dans le fichier robots.txt qui contrôle l'exploration, il existe un certain nombre d'options alternatives.
C’est quoi la directive noindex ?
Avec la directive “noindex”, vous pouvez empêcher une page de s'afficher dans la recherche Google en incluant une balise Meta noindex dans son code HTML ou en affichant un en-tête "noindex" dans la requête HTTP.
Lors de la prochaine exploration de cette page par Googlebot, la balise ou l'en-tête seront détectés et cette page sera totalement exclue des résultats de recherche Google, même si d'autres sites contiennent des liens vers celle-ci.
L'instruction "noindex" est donc utile si vous n'avez pas accès à la racine de votre serveur, car elle vous permet de contrôler l'accès à votre site page par page.
Il existe deux façons de mettre en œuvre l'instruction "noindex" :
- En tant que balise Meta
- et sous forme d'en-tête de réponse HTTP.
Ces deux méthodes ont le même effet : vous pouvez toutefois préférer l'une à l'autre en fonction du degré de contrôle que vous avez sur votre serveur et sur votre processus de publication spécifique.
Pour empêcher la plupart des moteurs de recherche d'indexer une page de votre site, on ajoutait la balise Meta suivante dans la section <head> de votre page :
<meta name="robots" content="noindex">
Pour n'empêcher que les robots d'exploration Google d'indexer une page, on utilisait la balise suivante :
<meta name="googlebot" content="noindex">
Mais à l’automne prochain, comme il vient de l’annoncer officiellement, GoogleBot n'obéira plus à la directive de Robots.txt liée à l'indexation.
Today we're saying goodbye to undocumented and unsupported rules in robots.txt ??— Google Webmasters (@googlewmc) 2 juillet 2019
If you were relying on these rules, learn about your options in our blog post.https://t.co/Go39kmFPLT
Aujourd'hui, nous disons au revoir aux règles non documentées et sans support dans robots.txt.
Si vous vous fiez à ces règles, renseignez-vous sur vos options dans notre billet de blog.
La raison pour laquelle la directive noindex de robots.txt ne sera plus prise en compte, c’est tout simplement parce qu'il ne s'agit pas d'une directive officielle.
Google a dans le passé pris en charge cette directive robots.txt, mais ce ne sera plus le cas.
Les éditeurs qui s'appuient sur la directive noindex de robots.txt ont jusqu'au 1er Septembre 2019 pour la supprimer et commencer à utiliser l’une des 5 alternatives proposées par Google :
- Noindex dans les balises meta robots :
- Prise en charge à la fois dans les en-têtes de réponse HTTP et en HTML, la directive noindex est le moyen le plus efficace pour supprimer les URL de l'index lorsque l'analyse est autorisée.
- Codes erreur d’état HTTP 404 et 410 :
- Les deux codes d'état signifient que la page n'existe pas, ce qui supprimera ces URL de l'index de Google une fois qu'elles sont analysées et traitées.
- Protection par mot de passe :
- À moins que le balisage ne soit utilisé pour indiquer l'abonnement ou le contenu payant, cacher une page derrière une connexion la supprimera généralement de l'index de Google.
- Disallow dans robots.txt :
- Les moteurs de recherche ne peuvent indexer que les pages qu'ils connaissent, donc le blocage de la page d'être explorée signifie généralement que son contenu ne sera pas indexé.
Alors que le moteur de recherche peut également indexer une URL basée sur des liens d'autres pages, sans voir le contenu lui-même, Google vise à rendre ces pages moins visibles à l'avenir.
- Les moteurs de recherche ne peuvent indexer que les pages qu'ils connaissent, donc le blocage de la page d'être explorée signifie généralement que son contenu ne sera pas indexé.
- Outil de suppression d'URL de la Search Console :
- L'outil de suppression d'URL est une méthode rapide et facile pour supprimer une URL temporairement des résultats de recherche de Google.