Forum dédié au moteur de recherche et aux techniques d'optimisation par #taggle
Vous n'�tes pas identifi�.
Tout le monde a remarqué que les habitudes de Googlebot ont changé depuis big daddy. On en a parlé ici: http://forum.taggle.org/viewtopic.php?id=1703
On constate notamment qu'il semble avoir du mal avec certains nouveaux sites ou nouvelles pages (mais pas tous), et qu'il passe moins souvent sur des pages qu'il avait l'habitude de visiter tous les jours (les pages ayant beaucoup de BLs, ou un fort PR pour simplifier).
Une partie de l'explication est sans doute le "crawl caching proxy" dont Matt Cutts a révélé la mise en place: http://www.mattcutts.com/blog/crawl-caching-proxy/
Matt Cutts dit aussi que googlebot "has different crawl priorities": http://www.mattcutts.com/blog/indexing-timeline.
Reste à savoir quelles sont ces nouvelles priorités. En regardant l'indexation des pages de mes sites, j'arrive à l'hypothèse suivante: l'apparition de "fresh links" (nouveaux BLs) déclencherait (ou au moins accélèrerait) le re-crawl des pages. Ainsi la fréquence de crawl d'une page ne serait plus seulement fonction de son pagerank (du nombre de ses BLs) ou de sa fréquence de mise à jour, mais du nombre des BLs qu'elle a acquis récemment (en maths, la dérivée temporelle de ses BLs ).
Ainsi pour faire ré-indexer rapidement une page, il faudrait que Google découvre en permanence de nouveaux liens qui pointent vers elle.
On imagine déjà les façons de fausser un tel système (liens "artificiels" dans des splogs, etc...), mais bien sûr si un tel algo existe, il est sans doute pondéré par une dose de "trust" (la qualité des BLs).
Tout ceci n'est qu'une hypothèse (farfelue?) que je cherche à vérifier. Des avis?
Hors ligne
Cet outil capitaliste va générer une attitude empreinte de communisme. Il va falloir monter des trust (rank) de la taille des usines siderurgiques de l'ex empire soviétique. Hyper pollluantes , completement imbriquées, et ravageant l'environnement web. Des armées de camarades webmasters y travaillerons sous la surveillance de commissaires politiques sans état d'ame a fabriquer des liens "naturels" Une fois la taille critique d'un trust rank de valeur atteint la machine s'emballera d'elle même et le système squattera les 30 premières positions sur toutes les requetes.
Voila camarade Jan
Derni�re modification par Erazor (22-05-2006 17:15:03)
Hors ligne
Bien résumé Erazor
Au lieu de nettoyer le web... on va voir apparaître des réseaux énormes de sites poubelles créant des liens chaque jour avec un cron.
Ils deviennent vraiment lourds
Hors ligne
Hé, ce n'est qu'une hypothèse, pas la Vérité (pravda en russe).
Mais quand je serai commissaire du peuple, je serai 1er dans Google, sûr
Hors ligne
concretement je pense que ton hypothèse est bonne
j'anticipe a l'heure actuelle des solutions
Derni�re modification par Erazor (22-05-2006 17:31:55)
Hors ligne
Bon. La solution est évidement celle ci :
>> echo "http://www.taggle.org/refresh-".date("d-m-Y",time()).".php";
qui pointe sur.. chais pas, l'horloge, p'tete.. ou les posts inutiles de wri
Y'en a tous les jours des pages entière inutiles
Hors ligne
Trois remarques que j'ai faites récemment :
1. Dan m'a dit ne pas avoir remarqué de changements dans le comportement des Googlebot sur le Hub (site de contenu, "trusty", avec de nouveaux BL entrants et sortants en permanence.
2. J'avais un petit site que je n'arrivais pas à faire indexer depuis près de 2 mois. J'ai placé le lien dans ma signature du Hub et... oh miracle, 2 jours après il est dans l'index (j'ai pas surveillé les crawls).
3. J'avais un système d'échange de liens auto basique entre mes sites. Un système aléatoire qui pioche 5-6 liens dans une liste à chaque refresh de la page. Cet outil, qui marchait correctement jusqu'à maintenant a échoué à faire indexer le site cité précedemment.
Hors ligne
MagicYoyo a �crit:
2. J'avais un petit site que je n'arrivais pas à faire indexer depuis près de 2 mois. J'ai placé le lien dans ma signature du Hub et... oh miracle, 2 jours après il est dans l'index (j'ai pas surveillé les crawls).
Ah je pensais aussi que c'était l'arme fatale parce que ça a marché pour un de mes sites. Mais pour le second.. rien, nada, le désespoir!
Mon site est très certainement plombé, c'est peut être qu'une exception?
Hors ligne
Pour revenir sur la notion de fresh link; je crois beaucoup à des notions de "cycle de vie de l'information" que Google aurait transposé à la vie d'une page/d'un site web. Les critères sont ceux qu'on évoquait pour la Sandbox et qui affectait les rankings, mais semble affecter aujourd'hui le crawl.
Hors ligne
j'ai un exemple qui tend à rendre raison à l'hypothèse de Jan et concernant ceci :
3. J'avais un système d'échange de liens auto basique entre mes sites. Un système aléatoire qui pioche 5-6 liens dans une liste à chaque refresh de la page. Cet outil, qui marchait correctement jusqu'à maintenant a échoué à faire indexer le site cité précedemment.
à peu près aussi.
moi depuis le post de matt cutts, j'ai viré ces liens, on dirait que ça commence à marcher, mais ça en est qu'au début
Hors ligne