Aller au contenu
WebFrance

Rejoignez WebFrance (Cadeau : Le Guide 2018 pour rentabiliser un site)

Rejoindre WebFrance

Connexion  
WebFrance

Fichier robots.txt

Messages recommandés

Le fichier robots.txt doit etre présent à la racine d'un site, meme vide si vous n'en avez pas l'utilité, car son absence provoque des erreurs 404 générées par les bots qui cherchent en premier lieu ce fichier en crawlant un site.

(merci à Jeff et Thick pour cette précision importante)

Si vous souhaitez interdire l'indexation de certaines pages, vous pouvez soit renseigner votre fichier robots.txt dans ce sens ou tout simplement la balise meta robots :

<meta name="robots" content="noindex,follow" />
Il ne peut y en avoir qu'un fichier robots.txt par site, et il doit etre situé à la racine Si vous n'en mettez pas, cela équivaut à ce fichier robots.txt :
User-agent: *
Disallow:[/code]

* indique que l'instruction est donnée à tous les robots

Extrait du très bon article sur le sujet d'Abondance :

Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :

User-agent: *

Disallow: /cgi-bin/

Disallow: /tempo/

Disallow: /perso/

Disallow: /entravaux/

Disallow: /abonnes/prix.html

Dans cet exemple :

User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.

Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.

Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique.

[b]La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé[/b].

Lire la suite du dossier sur le fichier robots.txt d'Abondance

Partager ce message


Lien à poster
Partager sur d’autres sites
Partagez cette page :

>> Nouveau : Découvrez la marketplace d'Achat / Vente de Sites !

L'absence du fichier robots.txt provoque une erreur 404 générée par le bot il est donc vivement recommandé d'en mettre un à la racine du site. ;)

Jeff,

Partager ce message


Lien à poster
Partager sur d’autres sites
Partagez cette page :

Le moteur de recherche vient vérifier systématiquement la présence du fichier robots.txt et une erreur 404 est générée si il ne le trouve pas, cela n'a pas d'incidence sur le site mais sur le serveur, cela peut tout de même représenter pas mal d'erreurs 404 sur les gros sites.

Je l'ai mesuré en mettant en place un qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs ;)

Jeff,

Partager ce message


Lien à poster
Partager sur d’autres sites
Partagez cette page :

:o

C'est à dire ?

Le robots.txt est le premier fichier que le robot vient chercher quand il crawl un site. Si tu n'as pas ce fichier alors il le cherche pendant un moment et ça te provoque une masse de 404. Tu peux mettre un robots.txt vide sans aucun souci mais cette simple précaution t'évitera un max de 404.

Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ;)

Partager ce message


Lien à poster
Partager sur d’autres sites
Partagez cette page :

Wow, merci de toutes vos précisions, j'avais loupé un épisode sur ce coup la

heureusement que j'en ai un sur mes principaux sites mais j'ignorais totalement cet aspect !

Je l'ai mesuré en mettant en place un s cript qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs

Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ?

Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ;)

message bien recu, je n'aime pas non plus poser des lapins aux bots :wub:

Partager ce message


Lien à poster
Partager sur d’autres sites
Partagez cette page :

et surtout n'oubliez pas le S à robots :) sinon ça ne marche pas.

:shout:

ok j'avoue, sur chocoku land j'avais oublié le "s" c'est Pagetronic qui l'a vue

sinon j'en met jamais (sauf pour forum et rewrite) et je vis très bien sans

=> c'est pas pour le concours Sorcier Glouton que certains (dont une fille qui parle de "s" à crée une "team" avec un robots.txt pour ne pas polluer les autres moteurs que MSN ?)

=>> dailleurs tout les moteurs ne le prennent pas en compte

Partager ce message


Lien à poster
Partager sur d’autres sites
Partagez cette page :

Ajouter un commentaire :

-

Créer un compte

en 3 secondes

INSCRIPTION

Se connecter

ici

CONNEXION
Connexion  

Partagez cette page :



© WebFrance 2017 - Contact - Annonceurs - Conditions générales

×

Nouveau : Marketplace WebFrance

2.png

Vente de sites internet, domaines, applications...