Exclure certaines pages
Tout le contenu de votre site n’est pas forcément intéressant. Vous clarifirez avantageusement votre référencement en ne laissant pas les pages annexes (formulaire de contact, annuaire de liens, plan du site, etc.) apparaître dans les résultats des moteurs de recherche. Comment contrôler cela ?
Une ligne de commande permet de cacher certaines de vos pages des moteurs de recherche : le Meta-Tag "robots", qui s’adresse aux robots des moteurs de recherche, permet de leur signaler les pages à indexer ou à ignorer.
Voici la commande à insérer dans le head (entre les balises
<head>et</head>) de chaque page que vous souhaitez cacher à l’indexation :N’oubliez pas de supprimer les autres Meta-Tags (description, keywords, revisit-after, etc.) qui sont alors parfaitement inutiles sur cette page.
Cacher l’intégralité du site
Vous avez fait un site perso parce que souhaitez, par exemple, partager facilement vos photos avec votre famille et ami-e-s proches... mais pas avec vos collègues qui risquent de découvrir ce site dans n’importe quel moteur de recherche ! Comment cacher tout un site ? En ajoutant un meta-tag « robots » sur chaque page, certes. Mais il existe plus simple et tout aussi efficace.
Le fichier robots.txt est un fichier texte contenant des commandes à destination des robots d’indexation (spiders) des moteurs de recherche afin de leur préciser les pages à indexer, ou à exclure de l’indexation. Ainsi tout moteur de recherche commence l’exploration d’un site web en cherchant le fichier robots.txt à la racine du site.
Créez un fichier texte intitulé
robots.txt(écrit en minuscules et au pluriel) qui contient :et placez-le par FTP sur le serveur, à la racine de votre site.
Et le tour est joué : votre site est littéralement invisible du reste du Web. Il ne sera connu et visité QUE par les les personnes auxquelles vous en communiquerez explicitement l’URL.
Sauf, sauf, sauf... si un lien a été établi vers celui-ci, ammenant malgré tout d’autres internautes. En effet, si vous n’avez pas placé de fichier robots.txt fonctionnel dès la première publication de votre site, celui-ci a pu être visité et linké : faites supprimer tout lien vers votre site (en envoyant un mail aux responsables des sites en question).












Vos commentaires
1. Le 26 avril 2006 à 16:19, par Matthieu
Bonjour,
Merci pour cet article ! Je voudrai juste un complément d’informations : je cherche à cacher des fichiers pdf, donc je ne peux pas utiliser le meta-tags "robots". Vu l’architecture du fichier texte que vous présentez, je pense qu’on peut cacher seulement certains fichiers dont on fait la liste après "Disallow :".
Ma question : comment écrire les noms de fichiers après "Disallow :" ?
Merci !
Matthieu
2. Le 14 mai 2007 à 20:03, par Romy Duhem-Verdière
Apparemment on écrit, par exemple :
User-agent: *#
#
Disallow: /repertoire
Disallow: /repertoire/chemin/page.html
Disallow: /backend.php
Il ne faut pas laisser de ligne vide : les remplacer par des commentaires (commençant par #).
Cf. : http://www.commentcamarche.net/web/... et http://www.webrankinfo.com/forums/v....
3. Le 17 novembre 2008 à 22:45, par Jacques
Je veux cacher les pages contenant la liste des membres de mon club ; quand on entre notre adresse mail la page sort avec le nom d’autres membres ce qui fait un site qui n’est plus privé. Est ce que le none est suffisant et combien de temps avant que ça soit opérationel
4. Le 18 novembre 2008 à 00:31, par Romy Duhem-Verdière
Une fois qu’une page a été rendue publique et indexée, c’est trop tard.
5. Le 5 décembre 2008 à 04:59, par Jacques
Je te remercies pour la réponse ; il me reste a recréé les pages de liste sous un autre nom et changer mon adresse mail d’administrateur.
Jacques
Un message, un commentaire ?
Suivre les commentaires :
| 