Outils de recherche et référencement

Jan · 22-05-2006 16:35:53

Tout le monde a remarqué que les habitudes de Googlebot ont changé depuis big daddy. On en a parlé ici: http://forum.taggle.org/viewtopic.php?id=1703

On constate notamment qu'il semble avoir du mal avec certains nouveaux sites ou nouvelles pages (mais pas tous), et qu'il passe moins souvent sur des pages qu'il avait l'habitude de visiter tous les jours (les pages ayant beaucoup de BLs, ou un fort PR pour simplifier).

Une partie de l'explication est sans doute le "crawl caching proxy" dont Matt Cutts a révélé la mise en place: http://www.mattcutts.com/blog/crawl-caching-proxy/

Matt Cutts dit aussi que googlebot "has different crawl priorities": http://www.mattcutts.com/blog/indexing-timeline.

Reste à savoir quelles sont ces nouvelles priorités. En regardant l'indexation des pages de mes sites, j'arrive à l'hypothèse suivante: l'apparition de "fresh links" (nouveaux BLs) déclencherait (ou au moins accélèrerait) le re-crawl des pages. Ainsi la fréquence de crawl d'une page ne serait plus seulement fonction de son pagerank (du nombre de ses BLs) ou de sa fréquence de mise à jour, mais du nombre des BLs qu'elle a acquis récemment (en maths, la dérivée temporelle de ses BLs ).

Ainsi pour faire ré-indexer rapidement une page, il faudrait que Google découvre en permanence de nouveaux liens qui pointent vers elle.

On imagine déjà les façons de fausser un tel système (liens "artificiels" dans des splogs, etc...), mais bien sûr si un tel algo existe, il est sans doute pondéré par une dose de "trust" (la qualité des BLs).

Tout ceci n'est qu'une hypothèse (farfelue?) que je cherche à vérifier. Des avis?

Erazor · 22-05-2006 17:12:57

Cet outil capitaliste va générer une attitude empreinte de communisme. Il va falloir monter des trust (rank) de la taille des usines siderurgiques de l'ex empire soviétique. Hyper pollluantes , completement imbriquées, et ravageant l'environnement web. Des armées de camarades webmasters y travaillerons sous la surveillance de commissaires politiques sans état d'ame a fabriquer des liens "naturels" Une fois la taille critique d'un trust rank de valeur atteint la machine s'emballera d'elle même et le système squattera les 30 premières positions sur toutes les requetes.
Voila camarade Jan

Derni�re modification par Erazor (22-05-2006 17:15:03)

Americas · 22-05-2006 17:15:37

Bien résumé Erazor

Au lieu de nettoyer le web... on va voir apparaître des réseaux énormes de sites poubelles créant des liens chaque jour avec un cron.
Ils deviennent vraiment lourds

Jan · 22-05-2006 17:20:34

Hé, ce n'est qu'une hypothèse, pas la Vérité (pravda en russe).
Mais quand je serai commissaire du peuple, je serai 1er dans Google, sûr

Erazor · 22-05-2006 17:28:09

concretement je pense que ton hypothèse est bonne
j'anticipe a l'heure actuelle des solutions

Derni�re modification par Erazor (22-05-2006 17:31:55)

Anonymus · 22-05-2006 22:45:23

Bon. La solution est évidement celle ci :

>> echo "http://www.taggle.org/refresh-".date("d-m-Y",time()).".php";
qui pointe sur.. chais pas, l'horloge, p'tete.. ou les posts inutiles de wri
Y'en a tous les jours des pages entière inutiles

MagicYoyo · 23-05-2006 08:37:44

Trois remarques que j'ai faites récemment :
1. Dan m'a dit ne pas avoir remarqué de changements dans le comportement des Googlebot sur le Hub (site de contenu, "trusty", avec de nouveaux BL entrants et sortants en permanence.
2. J'avais un petit site que je n'arrivais pas à faire indexer depuis près de 2 mois. J'ai placé le lien dans ma signature du Hub et... oh miracle, 2 jours après il est dans l'index (j'ai pas surveillé les crawls).
3. J'avais un système d'échange de liens auto basique entre mes sites. Un système aléatoire qui pioche 5-6 liens dans une liste à chaque refresh de la page. Cet outil, qui marchait correctement jusqu'à maintenant a échoué à faire indexer le site cité précedemment.

Marie · 23-05-2006 08:39:24

MagicYoyo a �crit:
2. J'avais un petit site que je n'arrivais pas à faire indexer depuis près de 2 mois. J'ai placé le lien dans ma signature du Hub et... oh miracle, 2 jours après il est dans l'index (j'ai pas surveillé les crawls).

Ah je pensais aussi que c'était l'arme fatale parce que ça a marché pour un de mes sites. Mais pour le second.. rien, nada, le désespoir!

Mon site est très certainement plombé, c'est peut être qu'une exception?

MagicYoyo · 23-05-2006 08:40:06

Pour revenir sur la notion de fresh link; je crois beaucoup à des notions de "cycle de vie de l'information" que Google aurait transposé à la vie d'une page/d'un site web. Les critères sont ceux qu'on évoquait pour la Sandbox et qui affectait les rankings, mais semble affecter aujourd'hui le crawl.

yeca · 23-05-2006 10:42:06

j'ai un exemple qui tend à rendre raison à l'hypothèse de Jan et concernant ceci :

3. J'avais un système d'échange de liens auto basique entre mes sites. Un système aléatoire qui pioche 5-6 liens dans une liste à chaque refresh de la page. Cet outil, qui marchait correctement jusqu'à maintenant a échoué à faire indexer le site cité précedemment.

à peu près aussi.

moi depuis le post de matt cutts, j'ai viré ces liens, on dirait que ça commence à marcher, mais ça en est qu'au début

Outils de recherche et référencement

#1 22-05-2006 16:35:53

Crawl Googlebot et les "fresh links"?

#2 22-05-2006 17:12:57

Re: Crawl Googlebot et les "fresh links"?

#3 22-05-2006 17:15:37

Re: Crawl Googlebot et les "fresh links"?

#4 22-05-2006 17:20:34

Re: Crawl Googlebot et les "fresh links"?

#5 22-05-2006 17:28:09

Re: Crawl Googlebot et les "fresh links"?

#6 22-05-2006 22:45:23

Re: Crawl Googlebot et les "fresh links"?

#7 23-05-2006 08:37:44

Re: Crawl Googlebot et les "fresh links"?

#8 23-05-2006 08:39:24

Re: Crawl Googlebot et les "fresh links"?

MagicYoyo a �crit:

#9 23-05-2006 08:40:06

Re: Crawl Googlebot et les "fresh links"?

#10 23-05-2006 10:42:06

Re: Crawl Googlebot et les "fresh links"?

Pied de page des forums