Vous avez terminé de créer votre site internet d’un point de vue graphisme et maintenant, vous vous lancez dans son référencement naturel pour vous positionner sur la première page de Google.

Et vous avez entendu parlé du fichier robots.txt, mais vous ne savez pas à quoi cela sert, comment le créer et l’optimiser pour votre SEO.

Pas de panique ! 
Suivez mon guide et le fichier robots.txt n’aura plus aucun secret pour vous.

Sommaire

Qu'est-ce qu'un fichier robots.txt ?

Le fichier robots.txt, également appelé « Robots  Exclusion Protocol » ou « Protocole d’exclusion des robots » est un fichier texte qui est lu par les moteurs de recherche (Google, Bing, Qwant, Ecosia, DuckDuckGo, etc).

À quoi sert un fichier robots.txt ?

Le fichier robots.txt, indique aux robots des moteurs de recherche (Googlebot, Bingbot, etc) ce qu’ils sont autorisés ou non d’explorer sur votre site web.

La première chose qu’un robot d’exploration va faire quand il arrive sur votre site WordPress ou autre CMS (Shopify, Prestashop, Wix, Joomla, etc), c’est d’aller chercher, trouver et lire votre fichier robots.txt.

Si vous ne l’avez pas installé, c’est la journée « porte ouverte ».
Googlebot et consorts vont, alors, indexer l’intégralité de vos pages web, ce qui n’est pas idéal du tout pour votre référencement naturel.    

En effet, il y a des pages web ou des fichiers qui n’ont strictement aucun intérêt d’y être, et cela, pour deux raisons :

  1. Cela aura un impact sur votre budget crawl et donc préjudiciable pour votre référencement organique.
    De ce fait, cela ne sert à rien d’indexer des pages telles que « Mon compte », « Mon panier », etc.
  2. Pour une question de sécurité en bloquant l’accès à certains fichiers ou dossiers d’administration de votre site.

Le budget crawl, également appelé budget d’exploration, est le nombre de pages maximum que les robots vont explorer sur votre site dans un laps de temps donné.
En effet, ces user-agents n’examinent jamais toutes vos pages lors de leur visite. 

Où est situé le fichier robots.txt ?

Le fichier robots.txt est toujours situé à la racine de votre domaine.

Pour bien vérifier que votre site vitrine ou e-commerce est pourvu d’un fichier robots.txt, il suffit de taper votre nom de domaine et de rajouter /robots.txt.

Si rien ne s’affiche, c’est qu’il n’a pas été créé et les robots d’indexation vont indexer tout votre site .

Par exemple, si je prends mon site, vu que mon nom de domaine est bernard-sperandio.fr, je devrais taper https://bernard-sperandio.fr/robots.txt

Et mon fichier robots.txt s’affichera :

Fichier robots.txt du site de Bernard Sperandio

Attention de bien respecter les minuscules car le nom est sensible à la casse. 

Comment créer un fichier robots.txt ?

Pour créer, modifier, renommer, supprimer un fichier robots.txt, vous avez deux méthodes, selon le CMS (content management system) que vous utilisez :

  1. Via le FTP.
  2.  Via Yoast SEO

1. Créer un fichier robots.txt via FTP

Si vous avez hébergé votre site web sur o2switch (ou un autre hébergeur intégrant le panneau de contrôle cPanel), pour créer votre fichier robots.txt, il faut juste suivre la manipulation suivante :

1 : Créez un fichier avec un simple éditeur de texte, tel Notepad++ et enregistrez-le en le nommant « robots.txt ». 

2 : Ouvrez votre cPanel.

3 : Cliquez sur Gestionnaire de fichiers.

cPanel - Gestionnaire de fichiers
Cpanel - Gestionnaire de fichiers

4 : Double-cliquez sur le dossier public_html.

cPanel - Fichier public_html

5 : Ajoutez-le dans la liste.

cPanel - Fichier robots.txt

6 : Ensuite, en cliquant avec le bouton droit de votre souris (ou touchpad), vous pourrez, à votre guise, le télécharger, le visionner, le modifier, le copier, le supprimer, etc.

cPanel - Menu du fichier robots.txt

2. Créer un fichier robots.txt via Yoast SEO

Si votre site est sous le CMS WordPress, je ne peux que vous conseiller d’installer et d’activer l’excellente extension Yoast SEO.

Ensuite, allez dans le menu de gauche de votre tableau de bord WordPress, et

  • Survolez l’onglet Yoast SEO.
  • Cliquez dans le menu « Outils ».
Yoast SEO - Menu Outils
Yoast SEO - Menu Outils

Une fenêtre va s’afficher et vous devrez cliquer sur « Éditeur de fichiers ».

Une fenêtre va s’afficher et il faudra cliquer sur « Éditeurs de fichiers ».

Yoast SEO - Éditeurs de fichiers
Yoast SEO - Éditeur de fichiers

Une nouvelle fenêtre va s’afficher ou vous trouvez, seulement, votre fichier « .htaccess ».

Vous cliquez sur « Créer un fichier robots.txt ».
Un fichier robots.txt par défaut va s’afficher et vous n’aurez plus, éventuellement, qu’à le modifier et cliquez sur « Enregistrer les modifications dans le fichier robots.txt ».

Voilà, votre fichier robots.txt est, désormais, en place sur votre site WordPress.

Bien entendu, il est modifiable à souhait, mais à manipuler avec la plus grande précaution.

À noter que la taille maximale d’un fichier robots.txt est de 500 kibioctets (Kio). 

Que mettre dans un fichier robots.txt ?

Un fichier robots.txt se décompose en 2 parties :

  1. L’User-agent.
  2. Les directives.

1. L'User-agent

L’User-agent, (en français agent utilisateur), également appelé Spider, bot ou crawler, est le robot d’exploration des moteurs de recherche.

Chaque moteur de recherche a son propre spider.

Les user-agents les plus courants en France sont :

  • Googlebot pour Google (général).
  • Googlebot-Image pour Google Images.
  • Googlebot-Mobile pour Google Mobile.
  • Googlebot-Video pour Google Vidéo.
  • Googlebot-News pour Google Nouvelles.
  • Bingbot pour Bing (général).
  • msnbot-media pour Bing images et vidéo.

L’indication après « user-agent » informe à quel robot de moteur de recherche est destinée les directives indiquées dans le fichier robots.txt. 

Par exemple, si vous voulez préciser un user-agent spécifiquement, il faut indiquer ceci :
user-agent: Googlebot 
user-agent: Bingbot
etc.

Maintenant, si vous voulez que tous les spiders des moteurs de recherches soient concernés par les directives, il faut mettre ceci :

user-agent: *

2. Les directives

Une fois, l’user-agent indiqué dans votre fichier robots.txt, il faut lui donner des directives.

Ces directives sont au nombre de quatre :

  1. Allow
  2. Disallow
  3. Crawl-delay
  4. Sitemap XML

1. Allow

La première des directives dans un fichier robots.txt est « Allow » qui indique que le contenu est accessible au(x) User-agent(s).

En français, Allow se traduit par Autoriser.

Par exemple :
User-agent: * 
Allow: /

Cela indique que vous autorisez tous les robots d’explorations à explorer et indexer la totalité de votre site.

Autre exemple :
User-agent: Googlebot 
Allow: /

Cela indique que vous autorisez seulement Googlebot à explorer et à indexer la totalité de votre site.

2. Disallow

La deuxième des directives dans un fichier robots.txt est « Disallow » qui indique que le contenu est inaccessible au(x) User-agent(s).

En français, Disallow se traduit par Interdire.

Par exemple :
User-agent: * 
Disallow: /

Cela indique que vous interdisez tous les robots d’explorations à explorer et indexer la totalité de votre site.

Autre exemple :
User-agent: Googlebot 
Disallow: /

Cela indique que vous interdisez seulement Googlebot à explorer et indexer la totalité de votre site.

Ne jamais oublier de mettre la barre oblique, sinon les robots vont explorer et indexer tout votre site web.

Bien entendu, vous pouvez très bien utiliser les deux directives ensemble :

Par exemple :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Cela indique que vous interdisez à tous les robots des moteurs de recherche d’explorer votre répertoire wp-admin, mais que vous leur autorisez à explorer votre fichier admin-ajax.php

Autre exemple : 
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Cela indique que vous bloquez l’exploration de tout votre site à tous les robots, à l’exception de Googlebot.

3. Craw-delay

La troisième des directives dans un fichier robots.txt est le « Craw-delay », ou en français délai d’exploration, qui permet de spécifier le nombre de secondes que doit attendre un user-agent entre chaque requête.

Cela a pour finalité de limiter la surcharge au niveau de votre serveur.

Par exemple :
User-agent: *
Crawl delay: 10

Cela veut dire que tous les spiders doivent attendre un délai de 10 secondes avant de relancer une exploration de votre site.

À noter que Googlebot ne tient pas compte du crawl-delay.

4. Sitemap

La quatrième et dernière  directive dans un fichier robots.txt est le « Sitemap » qui permet d’indiquer aux moteurs de recherche l’emplacement de votre Sitemap XML.

Par exemple :
User-agent: *
Disallow: /wp-admin/

Sitemap: https://bernard-sperandio.fr/sitemap_index.xml

Cela indique à tous les moteurs de recherche de ne pas explorer le dossier wp‑admin et que le plan du site XML se trouve à l’adresse https://bernard-sperandio.fr/sitemap_index.xml

À noter qu’il est conseillé, mais non obligatoire, d’insérer votre sitemap XML dans le fichier robots-txt.
Le principal étant que vous l’ayez soumis dans la Search Console de Google.

À quoi correspondent les caractères génériques dans un fichier robots.txt ?

Les caractères génériques que l’on peut trouver dans un fichier robots.txt sont au nombre de trois :

  1. L’astérisque (*)
  2. Le signe dollar ($)
  3. Le signe dièse (#)

1. L'astérisque (*)

Vous pouvez utiliser l’astérisque « * » dans votre fichier robots.txt, pour définir l’user-agent ou certaines URLs.  

On pourrait traduire * par tous.

Par exemple:
User-agent: *
Cela indique les bots de tous les moteurs de recherches.

User-agent: *
Disallow: /produits/*?
Cela indique que tous les spiders ne doivent pas explorer les URLs du répertoire produits qui contiennent un point d’interrogation.

2. Le signe dollar ($)

Vous pouvez utiliser le signe dollar « $ » dans votre fichier robots.txt, pour indiquer la fin d’une URL.  

Par exemple:
User-agent: Googlebot
Disallow : /*.jpg$

Cela indique que vous interdisez Googlebot d’explorer les URLs se terminant par l’extension jpg.

3. Le signe dièse (#)

Vous pouvez utiliser le signe dièse « # » dans votre fichier robots.txt, pour indiquer un commentaire.

Ce dernier pourra être utile à votre webmaster ou à votre consultant SEO. 

Tout ce qui suit le caractère # sera ignoré par les robots d’indexation.

Par exemple :
# Ne pas autoriser l’accès au répertoire wp-admin pour Googlebot.

User-agent: Googlebot
Disallow : /wp-admin/

Comment tester son fichier robots.txt ?

Une fois que vous avez fini d’écrire votre fichier robots.txt, il est crucial pour votre référencement naturel de le tester.

Pour cela, il suffira d’utiliser l’outil de test du fichier robots.txt dans la Search Console de Google (anciennement appelée Google Webmaster Tools).

Si vous avez des avertissements relatifs à la syntaxe ainsi que des erreurs de logiques, ils vous seront clairement signalés.

Test fichier robots.txt

Les robots d'indexation peuvent-ils ignorer votre fichier robots.txt ?

A la différence d’une balise Noindex qui interdit d’office l’indexation d’une page web, un crawler peut indexer une de vos pages web s’il y a un lien qui pointe vers cette dite page et cela malgré une directive présente dans votre fichier robots.txt.

Pour une question d’efficacité, privilégier toujours une balise noindex au fichier robots.txt. 

Quelques conseils SEO pour écrire votre fichier robots.txt

Conseil
Conseils SEO

Voici quelques petits conseils SEO (Search Engine Optimization) qui vous seront sûrement utiles lors de l’écriture de votre fichier robots.txt :

  • Il doit impérativement se nommer robots.txt.
  • Il doit être unique sur  l’ensemble de votre site internet.
  • Il doit être encodé en « UTF-8« .
  • Il doit être placé à la racine de votre site web.
  • Sa taille maximale est de 500 Kio (Google ignorera le contenu dépassant cette limite).
  • Il est sensible à la casse (minuscule, majuscule).
  • Les commentaires (signe #) sont autorisés, mais ignorés par les spiders.
  • Le Craw-delay est ignoré par Google (mais Bing le prend en charge) .
  • La directive doit toujours débuter par un slash (/).
  • Il doit y en avoir un pour chaque sous-domaine.
  • Il doit y en avoir un pour chaque protocole (http ou https).
  • Chaque directive doit être sur une ligne distincte.
  • Il faut y intégrer votre fichier sitemap XML.
  • Il ne faut pas utiliser la directive Noindex (pas prise en compte ni par Google, ni par Bing).
    Utilisez, pour interdire l’indexation d’une URL, la balise meta robots noindex ou une directive X-Robots-Tag.  
  • Il ne faut pas utiliser la directive Nofollow (pas prise en compte ni par Google, ni par Bing).

Conclusion

Très utile pour le référencement naturel de votre site web, le fichier robots.txt qui est assez simple à créer doit être manié avec précaution.
La moindre erreur se payera cash au niveau de votre classement dans les pages de résultats des moteurs de recherche (SERP). 

Si vous avez aimé cet article sur le « fichier robots.txt », laissez-moi un petit commentaire.

Laisser un commentaire