Jump to content
WebFrance
Sign in to follow this  
WebFrance

Fichier robots.txt

Recommended Posts

Le fichier robots.txt doit etre présent à la racine d'un site, meme vide si vous n'en avez pas l'utilité, car son absence provoque des erreurs 404 générées par les bots qui cherchent en premier lieu ce fichier en crawlant un site.

(merci à Jeff et Thick pour cette précision importante)

Si vous souhaitez interdire l'indexation de certaines pages, vous pouvez soit renseigner votre fichier robots.txt dans ce sens ou tout simplement la balise meta robots :

<meta name="robots" content="noindex,follow" />
Il ne peut y en avoir qu'un fichier robots.txt par site, et il doit etre situé à la racine Si vous n'en mettez pas, cela équivaut à ce fichier robots.txt :
User-agent: *
Disallow:[/code]

* indique que l'instruction est donnée à tous les robots

Extrait du très bon article sur le sujet d'Abondance :

Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :

User-agent: *

Disallow: /cgi-bin/

Disallow: /tempo/

Disallow: /perso/

Disallow: /entravaux/

Disallow: /abonnes/prix.html

Dans cet exemple :

User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.

Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.

Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique.

[b]La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé[/b].

Lire la suite du dossier sur le fichier robots.txt d'Abondance

Share this post


Link to post
Share on other sites
Partagez cette page :

>> Nouveau : Découvrez la marketplace d'Achat / Vente de Sites !

Le moteur de recherche vient vérifier systématiquement la présence du fichier robots.txt et une erreur 404 est générée si il ne le trouve pas, cela n'a pas d'incidence sur le site mais sur le serveur, cela peut tout de même représenter pas mal d'erreurs 404 sur les gros sites.

Je l'ai mesuré en mettant en place un qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs ;)

Jeff,

Share this post


Link to post
Share on other sites
Partagez cette page :

:o

C'est à dire ?

Le robots.txt est le premier fichier que le robot vient chercher quand il crawl un site. Si tu n'as pas ce fichier alors il le cherche pendant un moment et ça te provoque une masse de 404. Tu peux mettre un robots.txt vide sans aucun souci mais cette simple précaution t'évitera un max de 404.

Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ;)

Share this post


Link to post
Share on other sites
Partagez cette page :

Wow, merci de toutes vos précisions, j'avais loupé un épisode sur ce coup la

heureusement que j'en ai un sur mes principaux sites mais j'ignorais totalement cet aspect !

Je l'ai mesuré en mettant en place un s cript qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs

Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ?

Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ;)

message bien recu, je n'aime pas non plus poser des lapins aux bots :wub:

Share this post


Link to post
Share on other sites
Partagez cette page :

et surtout n'oubliez pas le S à robots :) sinon ça ne marche pas.

:shout:

ok j'avoue, sur chocoku land j'avais oublié le "s" c'est Pagetronic qui l'a vue

sinon j'en met jamais (sauf pour forum et rewrite) et je vis très bien sans

=> c'est pas pour le concours Sorcier Glouton que certains (dont une fille qui parle de "s" à crée une "team" avec un robots.txt pour ne pas polluer les autres moteurs que MSN ?)

=>> dailleurs tout les moteurs ne le prennent pas en compte

Share this post


Link to post
Share on other sites
Partagez cette page :

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

Partagez cette page :



© WebFrance - Contact - Annonceurs - Conditions générales - Legal

×
×
  • Create New...

Achat / Vente de Sites

Découvrez la marketplace WebFrance :

site.jpg