Robots.txt est un fichier qui contient des instructions sur la manière d'explorer un site web : Il est également connu sous le nom de protocole d'exclusion des robots.
Cette norme est utilisée par les sites pour indiquer aux robots quelle partie de leur site Web doit être indexée.
Vous pouvez également indiquer les zones que vous ne souhaitez pas voir traitées par ces robots ; ces zones contiennent du contenu dupliqué ou sont en cours de développement.
Les robots comme les détecteurs de logiciels malveillants, les moissonneurs d'emails ne suivent pas cette norme et rechercheront les faiblesses de vos titres, et il y a une probabilité considérable qu'ils commencent à examiner votre site à partir des zones que vous ne voulez pas voir indexées.
Un fichier Robots.txt complet contient "User-agent", et en dessous, vous pouvez écrire d'autres directives comme "Allow", "Disallow", "Crawl-Delay", etc.
Si elles sont écrites manuellement, cela peut prendre beaucoup de temps, et vous pouvez entrer plusieurs lignes de commandes dans un seul fichier
Si vous voulez exclure une page, vous devrez écrire "Disallow : le lien que vous ne voulez pas que les robots visitent" ; il en va de même pour l'attribut allowing.
Si vous pensez que c'est tout ce qu'il y a dans le fichier robots.txt, alors ce n'est pas facile, une mauvaise ligne peut exclure votre page de la file d'indexation.
Il est donc préférable de confier cette tâche à des professionnels et de laisser notre générateur de fichiers robots.txt s'occuper de ce fichier pour vous.
Savez-vous que ce petit fichier est un moyen de débloquer un meilleur classement pour votre site web en SEO ?Le premier fichier que les robots des moteurs de recherche consultent est le fichier txt du robot.
S'il n'est pas trouvé, il y a de fortes chances que les robots n'indexent pas toutes les pages de votre site.
Ce minuscule fichier peut être modifié ultérieurement lorsque vous ajoutez d'autres pages à l'aide de petites instructions, mais veillez à ne pas ajouter la page principale dans la directive disallow.
Google fonctionne avec un budget de crawl ; ce budget est basé sur une limite de crawl.
La limite d'exploration est le nombre d'heures que les robots d'exploration passent sur un site Web.
Si Google constate que l'exploration de votre site nuit à l'expérience de l'utilisateur, il l'explorera plus lentement.
Ce ralentissement signifie qu'à chaque fois que Google envoie un crawler, il ne vérifiera que quelques pages de votre site et votre article le plus récent mettra du temps à être indexé.
Pour lever cette restriction, votre site doit disposer d'un plan de site et d'un fichier robots.txt. Ces fichiers accéléreront le processus d'exploration en indiquant aux robots les liens de votre site qui nécessitent le plus d'attention.
De plus, si vous n'avez pas de fichier robots txt, les crawlers indexeront quand même votre site web, si c'est un blog et que le site n'a pas beaucoup de pages, il n'est pas nécessaire d'en avoir un.
Si vous créez le fichier manuellement, vous devez connaître les directives utilisées dans le fichier. Vous pouvez même modifier le fichier ultérieurement après avoir appris comment elles fonctionnent.
Délai de crawling : Cette directive est utilisée pour éviter que les robots d'exploration ne surchargent l'hôte. Un trop grand nombre de requêtes peut surcharger le serveur, ce qui se traduira par une mauvaise expérience pour l'utilisateur.
Il est traité différemment par les différents bots des moteurs de recherche, Bing, Google, Yandex traitent cette directive de différentes manières.
Pour Yandex, il s'agit d'une attente entre deux visites successives, pour Bing, c'est comme une fenêtre de temps pendant laquelle le robot ne visitera le site qu'une seule fois, et pour Google, vous pouvez utiliser la console de recherche pour contrôler les visites des robots.
La directive Allow : est utilisée pour permettre l'indexation de l'URL suivante. Vous pouvez ajouter autant d'URL que vous le souhaitez, surtout s'il s'agit d'un site d'achat, votre liste risque d'être longue.
Néanmoins, n'utilisez le fichier robots que si votre site comporte des pages que vous ne souhaitez pas voir indexées.
Désactiver le site : Le but premier d'un fichier Robots est de refuser aux robots d'indexation de visiter les liens, répertoires, etc.
Ces répertoires sont toutefois consultés par d'autres bots qui doivent vérifier la présence de logiciels malveillants, car ils ne coopèrent pas avec la norme.
Un plan de site est vital pour tous les sites web car il contient des informations utiles pour les moteurs de recherche. Un plan du site indique aux robots la fréquence de mise à jour de votre site et le type de contenu qu'il fournit.
Sa principale raison d'être est d'informer les moteurs de recherche de toutes les pages de votre site qui doivent être explorées, tandis que le fichier robotics txt est destiné aux robots d'exploration.
Il indique aux robots les pages à explorer et celles à ne pas explorer.
Un sitemap est nécessaire pour que votre site soit indexé, alors que le fichier txt du robot ne l'est pas (si vous n'avez pas de pages qui n'ont pas besoin d'être indexées).