|  |  |  | 
|
|
 |
 |
 |
Focus - 29 Août 2008 Devenez "membre" de ALL HTML et faites partie d'une vraie communauté de passionnés et/ou de professionnels du développement sur Internet. L'accès membre est gratuit et vous permet d'accéder à des fonctionnalités complémentaires : - accéder à l'annuaire des 44 000 membres, - poster des messages dans les forums, - utiliser la messagerie interne, - bénéficier d'offres négociées...). Alors n'attendez-plus!
Inscrivez-vous dès à présent !
|
|
|
 |
 |
 |
Méthodologie |     | | Le fichier robots.txt
1. Principe de fonctionnement Pour exclure sur les moteurs de recherche, des répertoires entiers ou des pages (la plupart des cas pour des raisons de confidentialité), deux moyens s'offrent à vous : a) La balise META avec l'attribut robots b) La construction d'un fichier robots.txt
C'est ce dernier que l'on va étudier ici. Pour "imager" le fonctionnement, voici un schéma montrant un spider (ou robot) face à un fichier robot.txt.

2. Construction du fichier robots.txt Dans un premier temps ouvrez n'importe quel éditeur texte (Bloc-notes par exemple) puis créer un fichier texte (avec l'extension .txt). Ci-dessous un exemple détaillé ainsi que les explications.

Explications a) La première ligne est composée de User-agent:*, elle indique aux robots (spiders) de n'importe quel moteur de recherche (representé par *) que l'accès au site leur est donné. b) Disallow:/index2.php3 indique aux robots de tous les moteurs qu'ils ne doivent pas indexer la page index2.php3 situé à la racine du site. c) Disallow:/cgi/ indique aux robots qu'ils ne peuvent indexer les fichiers contenus dans le répertoire cgi. d) Disallow:/admin/ indique aux robots qu'ils ne peuvent indexer les fichiers contenus dans le répertoire admin.
Note : Lors du transfert de ce fichier assurez-vous d'être en mode ASCII.
3. Commandes
| Commande | Description | | User-agent: * | Tous les moteurs sont concernés | | User-agent: Googlebot | Le spider de Google est concerné uniquement | | Disallow: | Tout est indexé. Identique à un fichier robots.txt inexistant | | Disallow:/ | Toutes les pages et répertoires du site ne sont pas indexés | | Disallow:/index2.html | index2.html situé à la racine du site n'est pas indexé | | Disallow:/rep | rep.html s'il existe n'est pas indexé ainsi que le répertoire rep | | Disallow:/rep/ | La totalité du répertoire rep n'est pas indexée | | Disallow:/rep/index.html | index.html situé dans le répertoire rep n'est pas indexé | | # commentaires | Vos commentaires doit être précédé d'un # |
4. Régles et précautions a) Il doit exister un seul fichier robots.txt sur l'ensemble de votre site. Il doit être situé à la racine de votre site b) L'astérisque (*) n'est acceptée que dans le champ User-agent c) Vous devez créer plusieurs sections User-agent si vous souhaitez que votre fichier robots.txt s'applique à différents moteurs de recherche d) Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule. e) Il n'existe pas de champs Allow: f) Transférez votre fichier robots.txt en mode ASCII. |
|
|  | 
Recommander ALL HTML Si vous appréciez ce site, n'hésitez pas à le faire découvrir à vos ami(e)s...
| Cliquez ici |
|
|
|  |  |