Qu’est-ce que Robots.txt et pourquoi est-ce important ?

compréhension-robots-txt

Cela peut sembler tout droit sorti d’un roman de Philip K. Dick, mais votre fichier robots.txt est essentiel pour aider Google et les autres moteurs de recherche à trouver votre contenu le plus précieux.

Considérez-le comme un ensemble d’instructions ou de directives pour les robots des moteurs de recherche (parfois appelés robots d’exploration, araignées ou robots).

Vous ne savez pas ce qu’est un robot ? Ne t’inquiète pas. Ils ne sont pas à moitié aussi techniques (ou alarmants) qu’ils en ont l’air. Fondamentalement, les sociétés de recherche comme Google créent des programmes informatiques complexes qui parcourent Internet – cataloguent le contenu et déterminent de quoi il s’agit afin que les moteurs de recherche puissent fournir des résultats pertinents aux requêtes des utilisateurs telles que « comment changer un pneu » ou « qu’est-ce qu’un fichier robots.txt ». déposer?”

Lorsque l’un de ces robots atteint votre site Web, il commence à parcourir votre contenu. La plupart des robots d’exploration suivent des hyperliens d’une page à l’autre, indexant tout au fur et à mesure, mais d’autres robots d’exploration plus sophistiqués comme Baiduspider ou Googlebot examineront d’abord votre plan de site – créant une image détaillée de votre site qui leur permet de dénicher n’importe quel les pages orphelines qui ne sont pas accessibles depuis la partie principale de votre site.

Considérez-les comme l’archétype du bibliothécaire curieux, fouillant dans tous les coins et recoins pour dresser une liste complète du contenu de votre site.

Mais la plupart des robots d’exploration écouteront des instructions spécifiques, à condition qu’elles soient données dans un format reconnaissable.

Votre fichier robots.txt fournit ces instructions, indiquant aux robots d’exploration quelles pages ignorer et quelles parties de votre site il est possible d’indexer.

C’est assez technique, mais ce n’est pas aussi compliqué que certaines personnes le prétendent et nous sommes impatients de lever le rideau sur beaucoup de soi-disant ” magie noire SEO “, nous avons donc décidé de rassembler un -guide détaillé de robots.txt – expliquant ce que c’est, pourquoi nous l’utilisons et comment vous pouvez vérifier, créer ou modifier votre propre fichier robots.txt.

Pourquoi utilisons-nous des fichiers Robots.txt ?

Si vous voulez devenir vraiment geek, la syntaxe utilisée dans les fichiers robots.txt a été développée par un homme appelé Martijn Koster, largement crédité de la création du premier moteur de recherche au monde (Aliweb).

Selon la légende d’Internet, Martijn a créé son protocole d’exclusion de robots (robots.txt en abrégé) après qu’un collègue a créé un mauvais robot d’exploration qui a accidentellement planté son site Web en visitant chaque page des centaines de fois.

Prévenir ce genre d’accident est en fait l’une des principales raisons pour lesquelles nous utilisons encore des fichiers robots.txt aujourd’hui. L’exploration d’un site Web met à rude épreuve ses serveurs et peut le faire planter, c’est pourquoi la plupart des sociétés de recherche définissent un « budget d’exploration » pour leurs robots. C’est-à-dire un nombre maximum de pages qu’un bot explorera avant de quitter le site et de passer au domaine suivant de sa liste.

Ce n’est pas un problème pour les petits sites. Mais si vous exécutez un site avec des milliers de pages Web, il y a de fortes chances que les robots d’exploration entrants manquent certaines de vos pages, à moins que vous n’utilisiez un fichier robots.txt pour leur dire où se concentrer.

Imaginez que vous exploitez un site Web de vêtements B2C comme missguided.co.uk. Vous avez quelques centaines de pages de catégorie que vous souhaitez que Google indexe, et plusieurs milliers de pages paginées qui sont essentiellement des doublons des pages de catégorie initiales (la page 23 de « manteaux d’extérieur » est un excellent exemple).

Vous ne voulez pas que Google gaspille son budget d’exploration limité en regardant 456 pages identiques de chaussures de ville alors qu’il y a de fortes chances qu’il manque ensuite votre blog ou quelques pages de catégories populaires afin que vous puissiez lui dire d’ignorer complètement les pages paginées.

Vous pouvez également lui dire d’ignorer les pages avec un numéro dans l’URL, mais nous couvrirons ce genre de chose plus en détail sous « choses à inclure dans votre fichier robots.txt ».

robots-txt-masquage

Où puis-je trouver mon fichier Robots.txt ?

Si votre site possède déjà un fichier robots.txt, vous devriez pouvoir le trouver en tapant votre nom de domaine et en ajoutant /robots.txt à la fin (ex. https://www.redevolution.com/robots.txt).

Les fichiers Robots.txt sont normalement conservés ici car les robots d’exploration ne sont programmés que pour rechercher des protocoles d’exclusion dans le domaine racine. C’est la meilleure pratique de l’industrie de les garder là, et les placer dans un sous-dossier signifie qu’ils seront probablement manqués ou ignorés par la plupart des principaux robots d’exploration Web.

Si vous ne trouvez pas votre fichier robots.txt dans /robots.txt, vous pouvez essayer de le rechercher dans les fichiers de votre serveur. La façon dont vous allez procéder dépend beaucoup de la plate-forme et du serveur, donc si vous ne savez pas comment accéder à votre cPanel FTP ou télécharger des fichiers à partir de votre serveur, contactez votre équipe de gestion Web. Ils sauront vous orienter dans la bonne direction.

Que doit contenir mon fichier Robots.txt ?

Cela dépend du type et de la complexité du site que vous exécutez. Les petits sites avec une architecture sensée (lire : contenu bien organisé) auront probablement un fichier Robots.txt relativement simple.

Le nôtre est un bon exemple. En regardant la capture d’écran ci-dessous, vous pouvez voir que nous avons bloqué l’accès à notre cache, à nos fichiers image et à nos pages d’administration, car nous ne voulons pas que ces zones du site gaspillent le budget d’exploration en indexant ces pages.

red-evo-robots

Nous avons également conseillé aux robots d’exploration d’ignorer les bibliothèques de plugins, les journaux et autres sections diverses du site que nous n’essayons pas de classer, mais tout le reste de notre contenu est entièrement accessible car notre site Web est assez petit et nous voulons que les robots d’exploration regardez la plupart de nos pages.

Mais pour un site comme missguided.co.uk, davantage de règles sont nécessaires pour empêcher les robots d’exploration d’indexer les pages de résultats de recherche et d’autres sections diverses du site.

robots-mal-guidés

Notez que Missguided a également interdit l’accès à ses pages de paiement et de liste de souhaits, car il pourrait y en avoir des milliers à un moment donné, et il n’y a aucune chance que Googlebot ou tout autre robot d’exploration les parcoure en une seule session.

Si vous n’êtes pas sûr du contenu de votre fichier robots.txt ou si vous pensez que cela pourrait bloquer l’accès à une partie importante de votre site, parlez-en à un spécialiste du référencement. Ils pourront vous dire si votre fichier a été correctement configuré et vous aider à résoudre tout problème majeur.

Un fichier robots.txt qui bloque l’accès aux mauvaises parties de votre site Web peut empêcher Google et d’autres moteurs de recherche d’indexer votre contenu, ce qui tue vos classements de recherche et étouffe votre trafic organique.

Inversement, un fichier robots.txt qui ne boucle pas les parties non pertinentes de votre site Web pourrait encourager les robots de recherche à gaspiller leur budget sur du contenu qui ne se classera pas pour des mots clés importants, tuant votre classement de recherche et (vous l’aurez deviné) étranglant votre organique circulation.

C’est un exercice d’équilibre délicat, et vous devez le maîtriser. Si vous avez des questions sur votre fichier robots.txt, assurez-vous de discuter avec un expert !

faire-robots-txt-fichier

Création ou modification d’un fichier Robots.txt

Si vous ne trouvez pas votre fichier Robots.txt (ou s’il ne fait pas le travail), il est peut-être temps de vous salir les mains et de créer le vôtre. Avancez prudemment ici : vous devez avoir une compréhension approfondie du protocole d’exclusion des robots et une bonne connaissance pratique de la structure de votre site Web.

Si vous êtes un spécialiste du marketing occupé et que vous préférez ne pas vous plonger dans les subtilités techniques des protocoles d’exclusion, appelez-nous. Nous aidons nos clients en matière de référencement technique depuis plus de 18 ans maintenant et nous sommes plus qu’heureux de nous occuper des éléments délicats.

Mais si vous êtes prêt à prendre votre temps et que vous savez bien suivre les instructions, il n’y a aucune raison pour que vous ne tentiez pas d’améliorer votre fichier robots.txt.

Commençons par la syntaxe. Il y a quatre termes que vous devez connaître :

Agent utilisateur

Agent utilisateur: est utilisé pour appeler le robot d’exploration Web que vous souhaitez instruire. Vous pouvez donner des instructions d’exploration par robot d’exploration (par exemple, User-agent : Googlebot Disallow : /example-subfolder/) ou donner des instructions à tous les robots d’exploration Web en tapant User-agent :*

Refuser

Refuser: est la commande utilisée pour dire à un bot de ne pas explorer une URL particulière ou un sous-ensemble d’URL

Permettre

Permettre: est la commande utilisée pour indiquer aux robots d’exploration qu’ils sont autorisés à explorer les URL spécifiées. Il est principalement utilisé lorsque vous souhaitez bloquer l’accès à un sous-dossier, mais autorisez l’indexation d’une page spécifique dans ce dossier, mais il n’est utilisé que par Googlebot et la plupart des robots d’exploration l’ignoreront.

Délai d’exploration

Délai d’exploration : est la commande qui indique aux robots d’exploration d’attendre avant de charger et d’explorer une page – et vous permet de spécifier un délai en secondes. Malheureusement, Googlebot ignore régulièrement ces commandes, elles ne sont donc pas très utiles.

Et maintenant que nous avons la syntaxe, il ne reste plus qu’à coller toutes les parties ensemble. Ouvrez un éditeur de texte brut et commencez par spécifier l’agent utilisateur. Utilisez le caractère générique ou * si vous souhaitez les traiter tous, ou recherchez la liste suivante

Une fois que vous avez spécifié l’agent utilisateur que vous souhaitez instruire, commencez à lister les URL que vous souhaitez éviter. De manière générale, il est préférable de conserver une URL par ligne, mais vous pouvez faire des choses assez avancées avec des caractères génériques et des chaînes de requête ici (plus de détails ci-dessous).

Une fois que vous avez terminé d’écrire votre fichier robots.txt, demandez à votre équipe de développement ou Web de le télécharger sur votre domaine racine et vous êtes prêt à partir.

Si vous souhaitez vérifier que tout fonctionne correctement, vous pouvez tester votre fichier robots.txt en utilisant Le vérificateur de robots.txt de Google.

Éléments à inclure dans votre fichier Robots.txt

Ceci est en partie une recommandation, en partie un cours avancé pour les personnes qui apprennent vite et qui souhaitent écrire leur propre fichier robots.txt. Il est probablement préférable d’ignorer cette section si vous n’êtes pas à 100% à l’aise avec la syntaxe mentionnée ci-dessus.

Cela dit, il y a des choses astucieuses que vous pouvez faire avec votre fichier robots.txt. Particulièrement utile pour les personnes qui gèrent des sites volumineux ou complexes qui utilisent beaucoup de budget d’exploration. Par exemple, vous pouvez utiliser robots.txt pour :

Empêchez les robots d’explorer n’importe quelle URL avec un paramètre spécifique, comme ?size = (un paramètre commun dans les résultats de recherche sur site générés automatiquement) en tapant

Agent utilisateur: *

Interdire : / ? taille

Empêchez les robots d’explorer n’importe quelle URL avec un paramètre spécifique SAUF exceptions spécifiques que vous souhaitez que Google indexe.

Agent utilisateur: *

Interdire : / ? taille

Autoriser : /??size=18

Empêcher les robots d’explorer les flux de commentaires dans WordPress (particulièrement utile pour ceux d’entre nous qui ont activé les commentaires sur nos blogs)

Agent utilisateur: *

Interdire : /commentaires/flux/

Empêchez les robots d’exploration d’explorer n’importe quelle URL dans un répertoire enfant commun en tapant :

Agent utilisateur: *

Interdire : ///enfant/

Empêchez les robots d’exploration d’explorer toute URL qui se termine par “.pdf” – Notez, s’il y a des paramètres ajoutés à l’URL en tapant :

Agent utilisateur: *

Interdire : /*.pdf$

aide-avec-robots-txt

Obtenir de l’aide avec votre fichier Robots.txt

Tête qui tourne ? Ne t’inquiète pas. Ce n’est pas du tout rare. Nous vivons et respirons le référencement technique, mais les yeux de la plupart des gens deviennent glacés une fois que vous commencez à parler d’agents utilisateurs et d’araignées rampantes.

Si vous préférez passer le relais à quelqu’un qui connaît un fichier robots.txt, nous serons ravis de vous aider. Nous nous occupons du référencement de nos clients depuis plus de 18 ans maintenant et nous sommes toujours heureux de donner un coup de main.