#1 15-06-2006 15:07:04

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Robot.txt

J'ai un dossier dont je ne veux pas indexer le contenu, jai mis

User-agent: *
Disallow: /

dans un fichier robot.txt du dit dossier...

gg l'a indéxé, j'ai fait une connerie ?


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

#2 15-06-2006 15:09:02

Sebastien
Un référenceur accessible
Lieu: Lille et Paris
Date d'inscription: 29-07-2005
Messages: 691
Site web

Re: Robot.txt

Le nom de fichier doit être robots.txt (avec un "s"), et ce fichier doit être à la racine, pas dans les repertoires.

Hors ligne

 

#3 15-06-2006 15:37:18

tom_sawyer
Search & Replace
Lieu: Lyon
Date d'inscription: 29-09-2005
Messages: 2068
Site web

Re: Robot.txt

non pas de conséquence mise à part que ton dossier sera bien indexé lol
donc comme l'a dit Seb il te faut ça à la racine :
User-agent: *
Disallow: /nom-du-dossier/

Hors ligne

 

#4 15-06-2006 15:44:33

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: Robot.txt

ok merci tongue


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

#5 24-11-2006 14:17:58

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: Robot.txt

bon ce coup ci j'ai blindé, robots.txt sur ma racine + noindex dans les fichier du dossier que je veux pas indexer.
Je vous le donne en mille big_smile
GG a quand meme indéxé les pages...


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

#6 24-11-2006 14:19:56

Siddartha
Administrateur
Lieu: Paris et #66valley ☼
Date d'inscription: 20-06-2005
Messages: 2988
Site web

Re: Robot.txt

A t-il indexé les urls ou le contenu aussi ?
(pas de cache et description pr le premier cas, et full pour l'autre smile )

Hors ligne

 

#7 24-11-2006 14:22:48

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: Robot.txt

juste les url maitre


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

#8 24-11-2006 14:24:55

Phobos
'tetine'
Lieu: Marseille
Date d'inscription: 16-07-2005
Messages: 867
Site web

Re: Robot.txt

Demande un remove url smile
Sinon tu peux laisser juste les noindex, le robots.txt interdit au bot de lire les pages, ça inclut les noindex qu'il y a dedans wink

Derni�re modification par Phobos (24-11-2006 14:26:19)


Forum - Taggle Boost - Novetys
dispo par mail, me cherchez pas trop sur msn, irc ou Gtalk wink

Hors ligne

 

#9 24-11-2006 14:27:32

Siddartha
Administrateur
Lieu: Paris et #66valley ☼
Date d'inscription: 20-06-2005
Messages: 2988
Site web

Re: Robot.txt

OK ca veut simplement dire qu'il connait les urls.

Donc deux solutions, soit les urls sont passées dans le robot pour crawl du contenu, et là c'est trop tard, il faudra attendre le retour de reloudbot pour prendre en compte le noindex.
Soit c'est pas encore dans la queue listing et il va repasser sur l'url pour vérifier que la page n'a pas encore changé et bien prendre en compte la directive noindex + robots.txt.

Hors ligne

 

#10 24-11-2006 14:49:41

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: Robot.txt

ok merci sid/phobos
moi j'aime bien quand c'est propre que rien ne dépasse et qu'il y a pas de miettes sur la table surtout quand je fais des efforts big_smile


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#11 09-12-2006 12:41:09

IncludE
Member
Lieu: Aix-en-Provence - Annecy
Date d'inscription: 13-07-2006
Messages: 21
Site web

Re: Robot.txt

J'ai pu voir que certain bots vérifiaient la présence du robots.txt !
Pour être certain que le bot attaque le bon fichier, j'ai mis en place une petite règle de re-écriture toute simple intégrée dans un fichier HT à la racine.

.htaccess

Code:

<IfModule mod_rewrite.c>
    RewriteEngine on

    RewriteRule ^robot([s]?).txt$ robots.txt.php [NC,L]

    Options -Indexes
</IfModule>

Le but est d'intercepter toute demande du fichier robot(s).txt et de rediriger vers un script (ici en PHP) qui renvoi le type mime plain/txt est génère les directives user agent.
Par la même occasion, on peut, en fonction du bot interdire ou non certains directories…

robots.txt.php

Code:

<?php
header('Content-Type: text/plain; charset=iso-8859-1');
session_start();
echo "
#Tocra Robot Interceptor
User-agent: * 
Disallow: /provided/trapbot.php
";
?>

De plus, un Disallow vers un dossier/fichier

Code:

Disallow: /provided/trapbot.php

Permet de savoir en plus de ses stats qui vient fouiner le robot.txt
Cet exemple est a agrémenter mais il est là pour donner une idée.


Ce qui vaut la peine d'être fait, vaut la peine d'être bien fait.
Gestion de contenus interactifs Web Medias et leur sécurité dans un environnement utilisateur

Hors ligne

 

#12 09-12-2006 13:53:17

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: Robot.txt

Ohoh c bon ça, thx Mr IncludE smile


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

#13 10-12-2006 14:02:36

MagicYoyo
Tagglers
Lieu: Montpellier
Date d'inscription: 04-01-2006
Messages: 2212
Site web

Re: Robot.txt

Yep, c'est collector ça smile


"La forme, c'est le fond qui remonte à la surface." Victor Hugo

Mon blog sur le webmarketing | Mon job

Hors ligne

 

#14 10-12-2006 14:20:05

Malaiac
Survivors
Lieu: Naoned / Frehel
Date d'inscription: 15-06-2006
Messages: 1323
Site web

Re: Robot.txt

J'ai le meme genre de chose d'une autre facon :

Dans la page :

Code:

<a id="bad" style="display:none;" href="/bad_bot.php"
onclick="return false;"
onmouseover="window.status='Ne suivez pas ce lien, c est un piege a aspirateurs.'; return true;">.</a>

Dans le fichier bad_bot.php

Code:

<?php
$string = $_SERVER["HTTP_ACCEPT_LANGUAGE"].'+'.$_SERVER['REMOTE_ADDR'].'+'.$_SERVER['REMOTE_HOST'].'+'.$_SERVER['REMOTE_PORT'].'+'.$_SERVER["HTTP_USER_AGENT"].'+'.$_SERVER["HTTP_REFERER"]."\n";
$fp = fopen('bad_bot.txt', 'a+');fwrite($fp, $string); fclose($fp);?>

Et dans le robots.txt

Code:

User-agent: *
Disallow: /bad_bot.php

Derni�re modification par Malaiac (10-12-2006 14:21:13)


One Content to rule them all, One Engine to find them,
One Link to bring them all, And in the darkness bind them.

Hors ligne

 

Pied de page des forums

Propulsé par PunBB
© Copyright 2002–2005 R. Andersson