Agence Diantre_Communication_Referencement naturel_Robottxt

Fichier robot.txt un élément indispensable pour booster votre référencement naturel

Fichier robot.txt : que quoi s’agit ? Quel est son impact sur le référencement naturel ?Comment le créer facilement ? La réponse dans cet article !

#1 – Fichier robot.txt : de quoi s’agit-il ?

Le saviez-vous ? Les moteurs de recherche (Google, Bing, etc …) scrutent en permanence les sites web à la recherche de nouveau contenu à proposer à leurs utilisateurs. Pour recenser et indexer toutes les pages web, les moteurs de recherche utilisent des robots d’indexation (également appelés « agents », « spiders », « bots », « crawlers »).

Le robots.txt est un simple fichier texte qui se place à la racine de votre site web. Son but ? Indiquer aux robots comment se comporter sur votre site web. Pour faire simple, si vous souhaitez dire à Google « ne va pas sur cette page », il suffira de l’indiquer dans ce fichier texte.

Dans cet article, nous vous expliquerons comment créer votre fichier robot.txt tout en étant vigilant sur les pages à cacher aux spiders pour un meilleur référencement de votre site web.

#2 – Fichier robot.txt : les bases indispensables

Si vous souhaitez simplement créer un fichier autorisant tous les moteurs de rechercher à indexer l’exhaustivité de votre site web, il se présentera de la manière suivante :

> User-agent: *

> Allow: /

> Sitemap: http://www.lenomdevotresite.fr/sitemap.xml

La première ligne (« User-agent:») sert à définir à quel moteur de recherche on s’adresse. L’astérisque (« * »), indique que l’on autorise tous les moteurs de recherche à indexer son site web (et nous vous le recommandons !).

Avec la commande « Allow », vous indiquez les pages que vous souhaitez indexer dans les moteurs de recherche. Pour cela, vous devez mentionner le lien de toutes les pages désirées, en enlevant la racine de votre site web (ce qui signifie qu’il vous faudra ajouter une nouvelle ligne pour chaque page web). A l’inverse, la commande « Disallow » permet de lister les pages que vous ne souhaitez pas indexer dans les moteurs de recherche.

Par défaut, les bots suivront tous les liens présents sur votre site web, mais il se peut que pour certaines raisons, vous souhaitiez qu’une de vos pages web soit présente sur les moteurs de recherches sans que l’on puisse tomber dessus en se baladant sur votre site web !

Si vous souhaitez en savoir d’avantages sur les commandes possibles, qui mieux que Google lui-même pour vous renseigner ? Pour les commandes à intégrer dans votre fichier robot.txt : consultez les ressources de Google et les robots.txt.

#3 –Pourquoi interdire l’accès à certaines pages web ?

Plusieurs raisons peuvent expliquer que vous ne souhaitiez pas que toutes les pages de votre site web soient répertoriées dans Google.

Tout d’abord, certaines pages peuvent être sans intérêt. Par exemple, si vos internautes ont la possibilité de se connecter à un espace personnel, il n’ a aucun intérêt à demander à Google d’indexer cette page « login ». D’autant que Google juge la pertinence d’un site web en fonction de ses pages, et si votre page fait moins de 500 caractères, elle sera désignée comme « de mauvaise qualité », ce qui pourra nuire à votre référencement.

Certaines extensions WordPress permettent de voir la « qualité » de vos pages web. Si vous ne pouvez pas les optimiser, alors les cacher aux robots est la meilleure solution !

Si vous publiez un fichier PDF, ou d’autre type de média que les bots savent indexer, il peut être intéressant de les interdire aux spiders. Cela soulage votre serveur en évitant un surplus de trafic et allège par conséquent le travail des indexeurs.

Si le bot trouve le chargement trop long vous perdrez en référencement ! Pour vous faciliter la tâche et interdire tous les fichiers pdf de votre site, insérer « Disallow : /*.pdf$ » dans votre fichier robots.txt.

Vous l’aurez compris, il faut donc cacher tout ce qui pourrait être vu défavorablement par les robots d’indexation.

#4 – Un exemple de commandes à effectuer

Afin de mettre en pratique ce que nous venons de voir, voici un exemple simple. Nous souhaitons que les bots se rendent sur la page de notre newsletter mais pas sur nos mentions légales, voici ce que cela donnerait !
> User-agent: *
> Allow: /newsletter/
> Disallow: /mentions-legales/

#5 – Comment générer facilement un fichier robot.txt ?

Comme nous l’avons vu précédemment, créer ce type de fichier n’a rien de sorcier tant que l’on souhaite rester simple. Mais si vous ne souhaitez pas perdre de temps, il est possible d’en générer automatiquement !

Si vous utilisez WordPress, l’extension « virtual robots.txt » sera parfaite pour vous ! En plus de générer automatiquement le fichier et de proposer de nombreuses d’options, elle le placera à la racine de votre site. Vous n’aurez (presque) rien à faire !

Le site yellowpipe vous propose un générateur Robots.txt gratuit. Le site est en anglais, mais cela reste tout de même assez simple. Vous n’aurez qu’à copier le texte générer dans un fichier .txt correctement nommé et le placer dans votre site web.

Et n’hésitez pas à valider votre fichier robots.txt dans le testeur robots.txt de la Google Search Console.

Besoin d’aide pour optimiser votre référencement naturel ? Ou tout simplement pour créer votre fichier robot.txt ? N’hésitez pas à nous contacter !