SEO : Google ne prend pas en compte les URLs renvoyant un code erreur 404

Un webmaster qui avait 30.000 URLs indexées par Google s'est retrouvé du jour au lendemain avec plus que 130 URLs affichées dans Google webmaster Tools.

Et ce, suite à un changement de version de site. En effet, le webmaster en question avait adopté pour son site une version sécurisée HTTPS en lieu et place de la version normale HTTP.

Suite à ce changement de version, le trafic web de son site a littéralement chuté en même temps que son nombre de pages indexées se réduisait. Alors que ni son fichier sitemap, ni l'exploration de sa nouvelle version ne mentionnaient des erreurs et aucune action manuelle n'avait été prise à l'encontre de son site par Google.

Ce webmaster qui précise qu'il a bien supprimé le fichier sitemap de l'ancienne version HTTP du site s'adresse donc au forum Central des webmasters  pour savoir où se situe le problème.

C'est +John Mueller de Google webmaster Tools qui va se charger d'apporter des éléments de réponse à cette situation en ces termes :

The sitemaps indexed URL count is based on the exact URLs you submit in the sitemap files. In your case, from looking at a few sample URLs, you seem to be submitting other URLs in the sitemap than actually get indexed. For example, I see a bunch of URLs in /sitemap.xml that either return 404 or that redirect to other URLs (usually with a trailing slash). In both of these cases, we wouldn't be able to count those URLs as being indexed, so the count doesn't include them.

The best way to get a correct count is to make sure that the URLs you submit in the sitemap files are really exactly the same as the ones you want to have indexed -- no additional redirects, no other rel=canonicals, etc.

John Mueller précise à son tour que le nombre d'URLs indexées depuis un fichier sitemap que vous soumettez à Google est basé sur des URLs exactes.

Dans le cas du webmaster, et selon John Mueller, en vérifiant quelques URLs, il semble que les liens des pages présents dans son fichier sitemap ne correspondent pas exactement aux liens précédemment indexés par Google. C'est ainsi que de nombreuses URLs du fichier /sitemap.xml de ce webmaster renvoient des erreurs 404 (fichiers non trouvés) ou des redirections vers d'autres URLs ayant un slash (/) en fin d'URL.

Dans les 2 cas, poursuit John Mueller, Google ne serait pas en mesure de comptabiliser ces URLs comme des URLs indexées. Par conséquent, ces pages renvoyant des erreurs 404 ou des redirections incorrectes ne peuvent pas faire partie du total de liens indexés.

John Mueller conclut en disant que la meilleure façon d'obtenir un comptage correct des pages indexées par Google, c'est de s'assurer que les URLs que vous soumettez dans les fichiers sitemap correspondent exactement aux pages que vous voulez que Google explore et indexe. Et ce, sans aucune redirection supplémentaire, ni aucune autre URL canonique (rel="canonical"), etc...

Donc, si vous remarquez une telle situation, vérifiez bien la correspondance entre les adresses web de vos pages et celles incluses dans votre fichier sitemap.xml. Une piste à vérifier avant toute autre investigation...

C'est pourquoi, comme mentionné dans un article précédent, Google vous encourage fortement à valider toutes les versions pertinentes de votre site et à définir un domaine favori si les internautes peuvent accéder à votre site à la fois par des URL WWW ou non-WWW ou HTTPS avec ou sans-WWW.

Car, les données concernant l'état de l'indexation correspondent précisément à la version d'une URL spécifique de votre site validé (par exemple, les données provenant de http://www.exemple.com ne sont pas identiques à celles provenant de https://exemple.com).