Forum dédié au moteur de recherche et aux techniques d'optimisation par #taggle
Vous n'�tes pas identifi�.
Bonjour,
Depuis le déploiement de Big daddy sur tous les data centers de Google, j'observe des changements importants dans l'indexation des pages par google.
1- Googlebot/2.1 remplacé par Mozilla Googlebot
Alors que Googlebot/2.1 (+http://www.google.com/bot.html) (IPs 66.249.64.* et 66.249.71.*) était le seul utilisé par Google pour indexer les pages (mise en cache), il ne passe plus depuis le 28 mars 2006. Les pages sont maintenant indexées par Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) (IPs 66.249.65.*, 66.249.66.* et 66.249.72.*), qui partage d'ailleurs ses IPs avec Mediapartners-Google/2.1, le bot adsense.
2- Rythme des crawls ralenti
Google a ralenti le rythme de ses crawls. Les derniers full crawls sur mes sites datent du 20 mars. Depuis, googlebot crawle beaucoup moins de pages chaque jour.
A noter que sur plus aucune de mes pages je ne vois de passage quotidien du bot. Avant Big daddy, les pages suffisamment linkées (PR 6 et certains PR5) y avaient droit. C'est fini! Googlebot prend maintenant quelques pages différentes chaque jour.
3- 1ere indexation très longue
Tout le monde semble l'avoir remarqué, Google met très longtemps à indexer les nouvelles pages. Aucune de mes pages apparues après le 28/3 n'est indexée.
J'ai aussi remarqué que certaines de mes pages crawlées par Googlebot/2.1 avant qu'il ne disparaisse de mes logs (crawl aux alentours du 20/3), mais jamais crawlées par Mozilla Googlebot ne sont pas dans l'index, ce qui somme toute est logique puisque seul Mozilla Googlebot construit maintenant l'index de Google.
4- Critères de duplicate content relachés
Big daddy était supposé corriger le problème d'URL canonique dû au contenu dupliqué. Ca semble en bonne voie.
J'ai l'impression qu'au passage, google a sérieusement relaché ses critères de duplicate content. Beaucoup de mes pages pénalisées pour cause de duplicate content partiel (en mode listing ou résultats complémentaires) sont réapparues correctement dans l'index. Peut-être n'est-ce que temporaire...
Comment ça se passe chez vous?
Derni�re modification par Jan (13-04-2006 22:38:20)
Hors ligne
Comment ça se passe chez vous ?
Sans pouvoir être aussi précis que toi car mon suivi est moins bon, je confirme tes dire !
Sur mes anciens sites, les nouvelles pages ne sont plus indexées, les bots passent rarement.
J'ai lancé quelques sites depuis fin mars malgrés des liens à droite à gauche, aucune trace dans google.
Je pense que le mode listing était une erreur d'appréciation de GG et maintenant ils reviennent dessus pour revenir à un système plus tradi.
Hors ligne
1- Logique puisque le Mozilla Googlebot est apparemment celui qui suit les liens js, et fait donc partie, trés certainement, de la nouvelle génération de bot Google capable d'indexer plus de choses et différemment (js et autres codes clients).
Le fait que la mise à la casse des anciens bots coincident parfaitement avec la fin de BigDaddy est une coincidence étrange qui me laisse penser que la nouvelle base va de pair avec une nouvelle génération de crawlers capable d'exécuter du code client (suivi des liens js et capable de naviguer plus intelligemment dans une page que sur un crawling classique)
2- Pareil.
3- Oui depuis 3 bonnes semaines chez moi.
4- Relachage de filtres ou recalcul de l'ensemble de ton site (spammy/no spammy), c'est temporaire dans le cas des filtres;), définitif s'il s'agit bien d'un recalcul des critères de positionnement sur ton url avec BigDaddy.
Hors ligne
Que les nouvelles pages et les nouveaux sites soient long à être indexés... c'est certain. Cette lenteur est même désespérante quand on travaille des jours et des jours et que l'on ne voit rien de nouveau dans l'index.
Par contre... Google à Crawlé comme un malade aujourd'hui Americas et Airtropic.
Cependant... je n'ai pas vu beaucoup de pages nouvelles dans ce crawl. Il aurait même tendance à crawler des pages qui n'existent plus comme s'il reprenait un un vieux cache pour suivre les liens
Hors ligne
Excelents observations Jan ! Ca confirme le changement d'infrastructure annoncé par Matt Cutts.
Je partage l'avis de Sid sur le desserrement des filtres liés à la duplication de contenu : si l'ensemble des pages du site gagne des positions, c'est bon signe car ca veut dire que tout le site prend du grade.
Si ce sont juste les pages ayant un taux de similarité important qui bougent, il y a des chances que ca ne soit que temporaire. Ou alors c'est la seule solution qu'a trouvé Google pour regler le problème des URL canoniques - qui n'est pas entièrement reglé d'ailleurs... mais bon, il devait déjà l'être suite à Jagger
Derni�re modification par Seg (14-04-2006 02:31:19)
Hors ligne
Salut
Pour la prise en compte des nouvelles pages, j'ai un délai quasi fixe de 15 jours, après mise à jour de mon site map google.
Par contre j'attend depuis + d'un mois pour un nouveau site ,
.....
Pour le nombre des passages du bot je ne constate pas vraiment la même chose que toi Jan.
Au contraire j'ai une accélération des passages depuis samedi dernier qui passe de 400/500 visites en moyenne à 900/1000 jours.
Pourtant le site est toujours plomber depuis le debut de daddy avec une petite remonter en fin de semaine derniere mais toujours a -90% de trafique GG dessus.
cela ne m'inquiete pas trop il m'avais fait le même coup avec jagger
Hors ligne
coyote a �crit:
Pour le nombre des passages du bot je ne constate pas vraiment la même chose que toi Jan.
Au contraire j'ai une accélération des passages depuis samedi dernier qui passe de 400/500 visites en moyenne à 900/1000 jours.
Pourtant le site est toujours plomber depuis le debut de daddy avec une petite remonter en fin de semaine derniere mais toujours a -90% de trafique GG dessus.
cela ne m'inquiete pas trop il m'avais fait le même coup avec jagger
même chose que coyotte, j'ai en plus changé d'ip (cause migration OVH -> Nikozen) et moi les crawls franchement, je m'en passerai par moment...
A une époque GG avait un bot assez malin, qui crawlait en changeant d'IP régulièrement, et qui créé des sessions à raisons de 10 appels par minutes. Maintenant, ce bot, je ne le vois quasiment plus, et je n'ai que du "mass crawling", comme avec un bête robot MSN.
Et tant qu'il peut crawler, et bien il le fait... Record à battre (pour un site existant, 1 mois env. après avoir changé d'IP, PR5 depuis l'avant dernière maj PR, site de moins de 6 mois d'existence) : 3000 sessions du bot google en 15 minutes ! Et si avant il ne le faisait que de temps à autre, aujourd'hui c'est presque une fois par jours... pénible je me fais réprimander par mon hébergeur
Je ne surveille pas tous mes sites autant, mais j'ai remarqué un phénomène similaire sur mon site de kite qui lui a pas bougé d'ovh
Derni�re modification par Toucouleur (14-04-2006 11:09:52)
Hors ligne
Toucouleur a �crit:
pénible je me fais réprimander par mon hébergeur
Quel goujat, vient chez moi ... merde c'est moi
Il faut dire que c'est assez indecent comme consommation générée
Hors ligne
2- Rythme des crawls ralenti !!!
Je constate de même un serieux ralentissement des crawls depuis le 28 mars idem,
Certaines page de cache date encore du 22 mars pour les sites qui ne sont pas réguliérement mis à jour et pour ces derniers les crawl sont vraiment bien moins fréquent que pour des sites mis à jour quotidiennement.
J'avais fait un test sur ggsitemap pour un site, justement vers le 20 Mars date du dernier full crawl du site en question, je me suis donc dit que cela devait venir de là, mais cela affecte vraiment tout les sites.
De ce fait les nouvelles pages ne sont pas prises en compte rapidemment voir pas du tout pour l'instant depuis ces 15 derniers jours.
Hors ligne
Moi j'ai un site qui est passé de 18000 pages indexées à 750, alors qu'il en a eu 80000 sur big daddy.
c'est la cata, et c'est clair que ça crawle au ralenti
Hors ligne
Depuis 3 jours je note un passage multiplié par 3 des bots de Google sur mon site principal. Tout y passe... les annuaires sont explorés dans les moindre recoins et les nouvelles pages sont examinées.
Un regain d'activité comme rarement j'en ai vu.
Hors ligne
Un léger frémissement sur certaines de mes pages, tout au plus.
Mais il y a de l'espoir. Quand ça crawle sur les gros sites comme celui d'Americas, ça finit souvent par crawler sur les autres dans les jours qui suivent.
Hors ligne
Moi je galère vraiment sur l'indexation des nouvelles pages! GG se fait très très rare sur mes plus gros sites et il est invisible sur les nouveaux site.
Quand il crawl les nouveaux sites il ne change pas les pages dans l'index...
Pourvu que ça ne dure pas!
Hors ligne
D'ailleurs j'ai transféré il y a quelques jours un site espagnol d'un mutu vers mon serveur.
Il est peut être un peu trop tôt pour le dire mais je constate aussi une accélération du passage des bots sur ce site.
Pourtant je n'ai pas donné la même IP à ce site.
Hors ligne