mardi 22 avril 2008

Générer un fichier robots.txt

Moteurs de recherche, aspirateurs de sites ou extracteurs d'adresses e-mails, les programmes qui parcourent le web tout seuls, appelés robots, sont nombreux. Ils peuvent parfois gêner le fonctionnement d'un site en le ralentissant si les pages sont demandées trop rapidement, en faussant les statistiques ou en visitant certaines pages dynamiques comme des pages de vote.
On peut avoir besoin d'interdire l'accès à certaines parties d'un site uniquement aux robots et pas aux visiteurs humains. C'est impossible dans l'absolu (comment savoir si une page est demandée par un humain avec son navigateur ou par un robot ?), mais certains robots bien faits, en particulier les moteurs de recherche, sont polis et lisent un fichier nommé robots.txt avant d'entrer sur un site pour savoir s'ils sont bienvenus ou pas. Il faut s'imaginer ce fichier robots.txt comme un panneau sens interdit et pas comme une porte fermée : seuls les robots suffisamment respectueux en tiendront compte.
Pour vraiment fermer la porte de force à la fois aux robots et aux visiteurs humains, il faut utiliser une protection au niveau du serveur web, le fichier .htaccess Pour tout savoir (en anglais bien sûr) :
The Web Robots Pages (plus ou moins officiel),
A Standard for Robot Exclusion,
Robot Exclusion Standard Revisited (page très complète)
Il n'y a qu'un seul fichier robots.txt par site (et pas un par répertoire comme avec les .htaccess qui n'ont aucun rapport), et il doit être placé à la racine du site. Par exemple si votre site est http://webcrawler.com, le fichier doit être à l'adresse http://webcrawler.com/robots.txtÇa veut dire que si votre site est sur http://perso.wanadoo.fr/insectes.net/ , vous ne pouvez pas utiliser robots.txt car d'une part vous n'avez pas accès à la racine perso.wanadoo.fr et d'autre part les restrictions s'appliqueraient à toutes les pages perso de Wanadoo, pas seulement les vôtres.Dans ce cas vous pouvez quand-même utiliser des balises META spéciales dans vos pages.

Générateur de fichiers robots.txt:
http://aspirine.org/robotstxt.html

0 commentaires:

Enregistrer un commentaire

Liens vers ce message blog:

Créer un lien

<< Accueil


Echange de banniere