D’après les dernières statistiques connues, Google visite quotidiennement 20 milliards de sites internet !

Et en 2022, ce chiffre est en augmentation exponentielle, vu la facilité pour créer un site internet avec l’utilisation d’un CMS tel que Shopify, Prestashop, WordPress, Wix, Joomla, etc. 

Malheureusement, faute de ressources illimitées, il est impossible à Google d’augmenter, à l’infini, son quota d’exploration.

Pour ce faire, il alloue à chaque site web un budget crawl.

Découvrons ensemble ce qu’est un budget crawl, comment Google le détermine, comment l’augmenter, où trouver vos statistiques d’exploration, son importance pour votre référencement naturel, et je vous donnerai quelques conseils pour l’optimiser facilement et rapidement.

Sommaire

Qu'est-ce qu'un budget crawl ?

Le budget crawl, également appelé temps de crawl ou budget d’exploration, est le nombre de pages que Googlebot, le robot d’exploration du moteur de recherche de Google, explorera sur votre site internet dans un laps de temps donné.

Comment Google détermine votre budget crawl ?

Les budgets de crawl sont différents pour chaque site web et sont déterminés automatiquement par Google.

Google détermine le budget de crawl de votre site e-commerce (ou site vitrine) selon deux facteurs :

  1. La limite de la capacité d’exploration : c’est le nombre maximal de connexions simultanées parallèles que Googlebot peut utiliser pour explorer votre site sans surcharger votre serveur web.

    Si votre site ralentit ou répond par des erreurs de serveur (code 5XX), la limite diminuera et Googlebot réduira son exploration, et inversement. 

  2. Le besoin d’exploration : la popularité de vos pages et la fréquence de leurs mises à jour.

La popularité de vos pages est évaluée par le nombre de liens entrants internes et externes, mais aussi par leurs nombres de vues, appelées impressions, dans les résultats de recherche.

Comment augmenter la limite de la capacité d'exploration ?

Vous pouvez modifier la limite de la capacité d’exploration soit en l’augmentant, soit en la baissant.

Pour ce faire, il faut aller dans votre Search Console dans la page paramètres de votre propriété, et cliquer sur Limiter la fréquence d’exploration maximale de Google.  

Modification de la fréquence d'exploration de Google
Modification de la fréquence d'exploration de Google

Il ne faut limiter la fréquence d’exploration qu’uniquement si Google entraîne un ralentissement de votre serveur.

Comment vérifier vos statistiques d'exploration ?

Pour vérifier vos statistiques d’exploration de votre site web par les robots d’exploration Googlebots, cela se passe également dans votre Search console (anciennement Google Webmaster Tools).

Pour ce faire, il faut :

  • Cliquer dans l’onglet Paramètres.
  • Cliquer sur Ouvrir le rapport dans le sous-menu Exploration.
Statistiques sur l'exploration Google

Une nouvelle fenêtre va s’afficher avec des statistiques à foison :

  • Le nombre total des demandes d’exploration de votre site sur les 90 derniers jours.
  • La taille totale de l’ensemble des fichiers et ressources téléchargés lors de l’exploration sur les 90 derniers jours.
  • Le temps de réponse moyen (en millisecondes) de la page pour une demande d’exploration visant à en afficher le contenu.
  • Le détail des demandes d’exploration (par réponse, par type de fichier, par objectif et par type de Googlebot), qui permet de visualiser l’éventuel gaspillage du budget crawl.
Statistiques d'exploration - Google Search Console
Détails des demandes d'explorations - Google Search Console
Détail des demandes d'exploration

Quelle est l'importance du budget crawl pour votre SEO ?

Le processus de classement de Google
Le processus de classement de Google

Le budget crawl que vous alloue Google est d’une importance capitale pour votre SEO, car une fois qu’il est épuisé, Googlebot quittera définitivement votre site pour en explorer un autre, et peu importe s’il reste des pages non explorées.

Pages non explorées = Pages non indexées = Pages non classées = Invisibilité.

En effet, pour classer une page web dans les pages de résultats de Google (SERP), cela se passe toujours en 4 étapes :

  1. La page web a été vue par l’user-agent Googlebot, mais elle n’a pas encore été explorée. 

Dans l’onglet « Couverture » de la Google Search Console, cela correspond à « Détectée, actuellement non indexée ».

2. Le spider Googlebot va ensuite explorer (= crawler) la page web et analyser son contenu afin de déterminer si elle est légitime, en termes de qualité, pour être stockée dans sa base de données, appelée Index Google, en vue d’un affichage dans ses pages de résultats de recherche. C’est la phase d’exploration.

Dans l’onglet « Couverture » de la Google Search Console, cela correspond à « Explorée, actuellement non indexée ».

3. Le crawler Googlebot va ensuite indexer (=stocker) la page web dans sa base de données, et analyser, de nouveau, son contenu afin d’identifier sa thématique (et les mots clés pertinents), en vue d’affiner son classement dans sa SERP pour une requête donnée. C’est la phase d’indexation.

Dans l’onglet « Couverture » de la Google Search Console, cela correspond à « Envoyée et indexée ».

4. Une fois explorée et stockée dans l’immense index Google, votre page web sera affichée dans sa SERP, et son classement dépendra de la pertinence de sa réponse à l’intention de recherche de l’internaute. C’est la phase de classement.

Il est donc indispensable pour votre référencement de ne pas gaspiller inutilement votre budget de crawl.

L’exploration est cruciale pour votre visibilité, mais elle n’est pas un facteur de classement dans les résultats de recherche de Google.

Comment optimiser votre budget crawl ?

Optimiser votre budget crawl est indispensable pour éviter d’avoir des pages web importantes non indexées par le robot d’exploration Googlebot. 

Voici quelques conseils pratiques et utiles qui vous aideront à maximiser votre temps de crawl :

1. Améliorer le temps de chargement de vos pages web

Améliorer le temps de chargement de vos pages web permettra au robot d’indexation Googlebot d’en explorer davantage sur votre site internet, et ceci dans le même laps de temps.

Pour améliorer le temps de chargement de vos pages, vous pouvez réduire le poids de vos images, minifier votre code HTML, votre CSS ou votre JavaScript, en utilisant un plugin de cache, par exemple, WP Fastest Cache si votre site est sous le CMS WordPress. 

Vous pouvez utiliser, GTmetrix, pour analyser, en détail, le temps de chargement de vos URLs.

2. Éliminer le contenu dupliqué

Le contenu dupliqué, également appelé Duplicate Content, n’apporte aucune valeur ajoutée à vos visiteurs.

Semrush considère comme doublon, les pages web internes dont leur contenu est identique à 85%.

Ce doublon est souvent dû à l’utilisation de navigation à facettes ou par les tags.

Pour éliminer le contenu dupliqué, pensez, entre autres, à utiliser les balises canoniques.

3. Limiter les longues chaînes de redirection

Les longues chaînes de redirection compliquent l’exploration de votre site par Googlebot et dilapident inutilement votre budget d’exploration.

Semrush conseille de ne pas utiliser plus de trois redirections dans une chaîne.

4. Corriger les pages en erreur soft 404

Selon la définition de Google, une erreur soft 404 désigne une URL renvoyant une page qui indique à l’internaute que la page n’existe pas, ainsi qu’un code d’état 200 (succès), au lieu d’indiquer un code erreur 404 « page non trouvée ».

Dans certains cas, il peut s’agir d’une page avec peu ou pas de contenu, mais aussi si la page a été déplacée.

Pour corriger les pages en erreur soft 404, faites, selon les cas, des redirections 301 ou renvoyez un code erreur 404 (Page Not Found), mais également créer une page 404 personnalisée.

5. Éviter les erreurs 5xx liées au serveur

Un code d’état HTTP 5xx, appelé communément erreur 5xx ou erreur serveur 5xx, va informer les robots d’exploration de Google à ralentir la vitesse d’exploration de votre site internet.

Les causes des erreurs serveur sont multiples et les solutions également : augmentation de votre limite de mémoire PHP, espace de stockage insuffisant, surcharge du serveur, mauvaise configuration, etc.

6. Prioriser vos pages web les plus importantes

Pour ne pas gaspiller votre budget de crawl, il faut indiquer à Googlebot quelles sont les pages à explorer en priorité.

Pour prioriser vos pages, il faut utiliser le fichier robots.txt en indiquant certaines pages moins intéressantes avec une directive « disallow ».
Cela est souvent le cas des pages institutionnelles (mentions légales, conditions générales de ventes, politique de confidentialité, etc).

Vous pouvez, également, utiliser un plan de site XML (également appelé sitemap XML) pour améliorer l’exploration de vos pages stratégiques par Googlebot.

7. Optimiser votre maillage interne

Souvent négligé au profit des backlinks, le maillage interne est pourtant d’une importance haute pour votre SEO (Search Engine Optimization).

En effet, les liens internes permettent :

  • D’informer Googlebot qu’ils existent de nouvelles pages sur votre site.
  • De transmettre l’autorité de vos pages les plus puissantes vers d’autres pages moins importantes (Link juice).
  • D’éviter d’avoir, sur votre site, des pages orphelines (pages ne recevant aucun lien interne). 

Googlebot visite les pages de votre site via les liens internes. D’où l’intérêt d’optimiser sans cesse votre maillage interne (suppression de liens cassés, rajout de liens).

8. Supprimer le contenu de mauvaise qualité et spam

À l’instar du contenu dupliqué, il faut limiter les pages avec très peu de contenu, et supprimer les pages avec un contenu de mauvaise qualité, ou pire, les spams de contenu.

Elles n’apportent aucune valeur ajoutée à vos visiteurs.

Google privilégiera toujours les contenus répondant aux critères E.A.T.

9. Actualiser votre contenu éditorial régulièrement

Google ne veut pas de pages obsolètes dans son index afin de donner à l’internaute la meilleure réponse à sa requête.

Vous pouvez actualiser régulièrement votre contenu textuel en supprimant, par exemple, les informations obsolètes, certains liens internes cassés ou en y ajoutant de nouveaux, et, bien entendu, en rajoutant du nouveau contenu unique et de qualité.

10. Éviter les pages profondes

Plus une page est profonde sur votre site, moins elle a d’importance aux yeux de Googlebot, et moins elle sera explorée.

Une page importante ne devrait pas être à + de 3 clics de votre page d’accueil.

Conclusion

Même si l’optimisation du budget crawl est plus importante pour les sites ayant 10000 pages ou plus, il est loin d’être inintéressant pour les sites plus petits (en nombre d’URLs) car les mêmes principes d’optimisation amélioreront l’expérience utilisateur. 

Si vous avez aimé cet article sur le budget crawl, laissez-moi un petit commentaire.

Laisser un commentaire