Robots.txt va devenir une norme officielle après 25 ans

Dernière mise à jour le

Google- Robots.txt maintenant une norme officielle après 25 ans

Dans une série de tweets de Google Webmasters, ils ont annoncé leur proposition d’un projet indiquant que Robots.txt était en passe de devenir un standard de facto à un standard officiel.

Pour citer Martijn, «Ceci est particulièrement utile si vous avez des archives volumineuses, des scripts CGI avec d’énormes sous-arbres d’URL, des informations temporaires, ou si vous ne voulez tout simplement pas servir de robots." Le cerveau de la norme initiale a été bien placé pour que Robots.txt Il a remarqué que les robots d'exploration avaient commencé à pénétrer sur son site de manière accablante.

25 ans plus tard, c'est toujours le cas aujourd'hui. Qui savait que l'injection d'un simple fichier texte sur votre serveur peut permettre aux robots de voir facilement le contenu que vous souhaitez diffuser aux utilisateurs? Précisément en quoi consiste le référencement.

Dire aux robots quelles pages accéder et indexer sur votre site Web, il est plus facile pour vous de devenir visible dans les SERP. Je devrais le savoir puisque je m'assure de mettre en œuvre correctement le protocole REP (Robots Exclusion Protocol) pour les sites. En tant que composant général et vital du Web, il devrait vous alarmer si vous ne connaissez pas encore REP et Robots.txt.

À ce stade, nous avons tous appris tout ce qu'il y avait à savoir sur Robots.txt, mais que signifie-t-il en faire un standard officiel?

Mise en œuvre claire de Robots.txt

Via le compte Twitter de Webmasters Google (@googlewmc), Google a fourni une série de tweets en commençant par rappeler la situation des robots d’analyse Web en 1994, invoquant la proposition de Martijn Koster concernant le protocole de contrôle des robots d’URL.

Google Webmaster Tweet

Outre le document original intitulé Standard for Robot Exclusion, publié en 1994, Koster décrit en 1996 l’historique de la méthode de contrôle des robots Web, qui reconnaît la soumission du protocole d’exclusion des robots en tant que spécification Internet provisoire. L’Internet n’est pas aussi développé dans les années 90 qu’aujourd’hui, alors donner aux webmasters la possibilité de contrôler la manière dont leur contenu est accédé est un gros problème à l’époque.

En 1996, il était considéré comme un «travail en cours» et je pense qu'il l'est toujours, car certains webmasters sont intrigués par le fonctionnement réel du processus. La transition de la norme de fait ambiguë signifie la fin des interprétations ouvertes. Même si la nouvelle proposition ne modifierait aucune règle créée depuis 1994, elle apporterait des éclaircissements sur les «scénarios non définis pour l'analyse syntaxique et la mise en correspondance de robots.txt», selon Google.

Mise en œuvre claire des robots

«Le projet de REP proposé reflète plus de 20 ans d'expérience réelle dans l'utilisation des règles robots.txt, utilisées à la fois par Googlebot et d'autres grands robots d'exploration, ainsi que par environ un demi-milliard de sites Web qui reposent sur REP. Ces contrôles précis permettent à l’éditeur de décider de ce qu’ils aimeraient être explorés sur leur site et éventuellement présentés aux utilisateurs intéressés. "

Les moteurs de recherche ont pleinement utilisé l’utilisation du REP, mais certains domaines n’ont pas encore été couverts. C’est pourquoi le projet de standardisation proposé devrait permettre d’expliquer plus clairement le fonctionnement de Robots.txt. Google, ainsi que les webmasters, les autres moteurs de recherche et le promoteur de la spécification REP, soumettent une proposition à l'IETF (Internet Engineering Task Force). Il s'agit donc d'un effort important pour étendre le mécanisme d'exclusion des robots, car il peut désormais être régi par un processus technique. corps standard.

Autres innovations des webmasters

Parallèlement à l'annonce visant à faire du REP un standard Internet, Google a également pris en compte le travail des développeurs consistant à analyser les fichiers robots.txt. L’analyseur robots.txt de Google est désormais une source ouverte utilisant sa bibliothèque C ++. Vous pouvez trouver l'analyseur robots.txt dans Github, qui a également inclus un outil de test dans le cadre du package open source.

Bibliothèque C ++ Google

Avec plus de 20 ans de supervision de la manière dont les webmasters créent des fichiers robots.txt, ceci complète le brouillon Internet transmis à l'IETF. Cela signifie que les moteurs de recherche sont facilement disponibles pour aider les créateurs Web à expérimenter et à innover sur le Web. le tout dans le but de créer un contenu unique et engageant pour une meilleure expérience utilisateur.

Le développement actif du protocole signifie simplement qu'il y aura d'autres mises à jour pour le Web moderne. Là encore, ils ne modifieraient pas les règles établies pour le fichier robots.txt. Les règles mises à jour peuvent être vues ci-dessous:

  1. Tout protocole de transfert basé sur une URI peut utiliser le fichier robots.txt. Il ne serait plus limité à HTTP. En outre, il peut également être utilisé pour FTP ou CoAP.
  2. Les développeurs doivent analyser au moins les 500 premiers kilo-octets d'un fichier robots.txt. Le fait de définir une taille de fichier maximale met en évidence le fait que les connexions ne sont pas ouvertes trop longtemps, ce qui réduit les contraintes inutiles sur les serveurs.
  3. Une nouvelle durée maximale de mise en cache de 24 heures ou une valeur de directive de cache, le cas échéant, donnera aux propriétaires de sites Web la possibilité de mettre à jour leur fichier robots.txt à tout moment, car les robots d'exploration ne surchargent pas les sites Web en même temps.
  4. Les pages non autorisées ne sont pas explorées pendant un laps de temps raisonnable lorsque le fichier robots.txt devient inaccessible en raison d'une défaillance du serveur.

En plus de cela, ils ont également mis à jour le formulaire Backus-Naur augmenté, qui est également inclus dans le brouillon Internet, qui permettra de mieux définir la syntaxe du fichier .txt. Il s'agit d'un mouvement qui peut aider les développeurs à analyser les lignes en conséquence.

Un défi pour la création de robots.txt

Les partenaires de Google sont ravis de ce développement, car la recherche et la mise en œuvre du protocole ne sont pas une blague.

Gary Illyes

Cette initiative a fait l'objet de nombreuses recherches et s'appuie sur plus de 20 ans de données. Il est donc logique que les webmasters suivent l'exemple et rendent Internet un meilleur endroit grâce au protocole. Une chose à noter est que le projet de proposition indique que les robots devraient autoriser les caractères spéciaux.

Avec cela, les webmasters devraient être attentifs aux valeurs qu’ils encodent dans le fichier .txt. Il y a des cas où les fautes de frappe empêchent les robots de comprendre la commande du webmaster.

Espérons que la mise en place de règles standard pour la création de robots.txt encouragera les maîtres de site à faire preuve de vigilance lors de la création du protocole de leur site. Robots.txt a été utilisé dans plus de 500 millions de sites Web. C'est pourquoi il est important que vous y accordiez une attention optimale.

Clé à emporter

Les spécifications de Robots.txt ont également été mises à jour pour correspondre au brouillon REP remis à l'IETF. Je vous suggère de lire et de vous concentrer sur la création d'un fichier Robots.txt propre pour votre site. Contrôler les moteurs de recherche pour obtenir une meilleure indexation et un meilleur classement ne peut aller si loin que si vous ne le faites pas correctement.

Au fur et à mesure que vous innovez et optimisez votre site, renseignez-vous sur les mécanismes à utiliser et sur la façon de le faire fonctionner en votre faveur. Que pensez-vous de ce récent projet visant à faire du protocole d’exclusion des robots un standard officiel?