Forum dédié au moteur de recherche et aux techniques d'optimisation par #taggle
Vous n'�tes pas identifi�.
J'ai un dossier dont je ne veux pas indexer le contenu, jai mis
User-agent: *
Disallow: /
dans un fichier robot.txt du dit dossier...
gg l'a indéxé, j'ai fait une connerie ?
Hors ligne
Le nom de fichier doit être robots.txt (avec un "s"), et ce fichier doit être à la racine, pas dans les repertoires.
Hors ligne
non pas de conséquence mise à part que ton dossier sera bien indexé
donc comme l'a dit Seb il te faut ça à la racine :
User-agent: *
Disallow: /nom-du-dossier/
Hors ligne
ok merci
Hors ligne
bon ce coup ci j'ai blindé, robots.txt sur ma racine + noindex dans les fichier du dossier que je veux pas indexer.
Je vous le donne en mille
GG a quand meme indéxé les pages...
Hors ligne
juste les url maitre
Hors ligne
Demande un remove url
Sinon tu peux laisser juste les noindex, le robots.txt interdit au bot de lire les pages, ça inclut les noindex qu'il y a dedans
Derni�re modification par Phobos (24-11-2006 14:26:19)
Hors ligne
OK ca veut simplement dire qu'il connait les urls.
Donc deux solutions, soit les urls sont passées dans le robot pour crawl du contenu, et là c'est trop tard, il faudra attendre le retour de reloudbot pour prendre en compte le noindex.
Soit c'est pas encore dans la queue listing et il va repasser sur l'url pour vérifier que la page n'a pas encore changé et bien prendre en compte la directive noindex + robots.txt.
Hors ligne
ok merci sid/phobos
moi j'aime bien quand c'est propre que rien ne dépasse et qu'il y a pas de miettes sur la table surtout quand je fais des efforts
Hors ligne
J'ai pu voir que certain bots vérifiaient la présence du robots.txt !
Pour être certain que le bot attaque le bon fichier, j'ai mis en place une petite règle de re-écriture toute simple intégrée dans un fichier HT à la racine.
.htaccess
<IfModule mod_rewrite.c> RewriteEngine on RewriteRule ^robot([s]?).txt$ robots.txt.php [NC,L] Options -Indexes </IfModule>
Le but est d'intercepter toute demande du fichier robot(s).txt et de rediriger vers un script (ici en PHP) qui renvoi le type mime plain/txt est génère les directives user agent.
Par la même occasion, on peut, en fonction du bot interdire ou non certains directories…
robots.txt.php
<?php header('Content-Type: text/plain; charset=iso-8859-1'); session_start(); echo " #Tocra Robot Interceptor User-agent: * Disallow: /provided/trapbot.php "; ?>
De plus, un Disallow vers un dossier/fichier
Disallow: /provided/trapbot.php
Permet de savoir en plus de ses stats qui vient fouiner le robot.txt
Cet exemple est a agrémenter mais il est là pour donner une idée.
Hors ligne
Ohoh c bon ça, thx Mr IncludE
Hors ligne
Yep, c'est collector ça
Hors ligne
J'ai le meme genre de chose d'une autre facon :
Dans la page :
<a id="bad" style="display:none;" href="/bad_bot.php" onclick="return false;" onmouseover="window.status='Ne suivez pas ce lien, c est un piege a aspirateurs.'; return true;">.</a>
Dans le fichier bad_bot.php
<?php $string = $_SERVER["HTTP_ACCEPT_LANGUAGE"].'+'.$_SERVER['REMOTE_ADDR'].'+'.$_SERVER['REMOTE_HOST'].'+'.$_SERVER['REMOTE_PORT'].'+'.$_SERVER["HTTP_USER_AGENT"].'+'.$_SERVER["HTTP_REFERER"]."\n"; $fp = fopen('bad_bot.txt', 'a+');fwrite($fp, $string); fclose($fp);?>
Et dans le robots.txt
User-agent: * Disallow: /bad_bot.php
Derni�re modification par Malaiac (10-12-2006 14:21:13)
Hors ligne