Forum dédié au moteur de recherche et aux techniques d'optimisation par #taggle
Vous n'�tes pas identifi�.
Depuis Big Daddy, Google semble refuser (ou être incapable) d'indexer certains nouveaux sites ou nouvelles pages de sites existants. D'autres sites sont même victimes d'une désindexation réelle, le bug de la commande site: révélé par Google n'expliquant pas tout.
Evidemment beaucoup de théories circulent pour tenter d'expliquer ces phénomènes: certains y voient le signe d'un problème qu'a Google avec big daddy, d'autres, sur le foi des déclarations de Matt Cutts, pensent que certaines pages sont boudées volontairement par Google, par exemple parce qu'elles sont de "mauvaise qualité" (pages faites de RSS, liens sortants spamy, etc...)
Une de ces théories prétend que Google limiterait l'indexation d'un site à un certain nombre de niveaux de sous-répertoires. Ce nombre de niveaux de sous-répertoires indexés ou indexables par Google serait spécifique à chaque site. En gros, plus un site aurait de pagerank (ou de trustrank ou tout autre facteur qui le rend important aux yeux de google), plus google irait chercher les pages bas dans l'arborescence des répertoires du site. Une discussion sur le sujet à lieu à http://www.webmasterworld.com/forum30/34442-1-10.htm
Cette théorie se base notamment sur l'observations de problèmes d'indexation sur des sites rewrités avec des "/". La présence de / dans l'URL correspond à autant de sous-répertoires (virtuels) qui pourraient empêcher les pages d'être indexées, notamment sur les "petits" sites ou les sites récents.
J'observe bien un problème d'indexation de mes blogs dotclear avec les urls en path info, mais je ne suis pas en mesure d'affirmer que ces urls pleines de / sont la cause de mes ennuis.
Constatez-vous des problèmes d'indexation de vos sous-répertoires , notamment sur vos blogs dotclear, qui pourraient conforter cette théorie?
Hors ligne
Intéressant comme théorie...
Mes nouveaux sites sont trop petits et insignifiants pour être un exemple, mais j'ai en effet eu un mal fou à faire rentrer dans l'index des répertoires entiers chez les 7 dragons
Hors ligne
J'ai pour habitude de n'avoir aucun sous rep, de tout indiquer s'il faut au début de l'url, ça tombe bien
Hors ligne
Phobos a �crit:
J'ai pour habitude de n'avoir aucun sous rep, de tout indiquer s'il faut au début de l'url, ça tombe bien
Rien que pour ça, j'ai tendance à croire que cette théorie ne tient pas.
Hors ligne
Ca pourrait être une théorie qui se tient pour un de mes sites. Aucun souci avec mes blogs par contre.
Mais la théorie qui selon moi tient le plus la route pour mon site c'est qu'il est volontairement boudé par Google.
Hors ligne
Phobos a �crit:
J'ai pour habitude de n'avoir aucun sous rep, de tout indiquer s'il faut au début de l'url, ça tombe bien
Kler que je foutrais bien tout à la racine du site. J'ai toujours trouvé que ça marchait mieux (et pas depuis BigDaddy).
Hors ligne
avant, je créais un sous-rep /html où je mettais toutes mes pages, maintenant je mets tout à la racine, par contre je crée toujours des sous-répertoires dès que le contenu "change de sens" vis à vis de la home.
Hors ligne
Pourquoi ces méthodes ne changeraient pas en fonction du type de site ?
Si le site est catégorisé 'blog' (par exemple), la théorie des sous répertoires serait effective, alors que s'il est catégorisé 'truc', ben ca serait une autre théorie.
Je pense que l'on cherche des généralités là où il y aurait beaucoup de 'cas spéciaux', chez google.
Hors ligne
Donc un rep deviendrait plus ou moins un "site"
c'est gros comme histoire ca.. vraiment étrange
De plus en plus logique je dirais, un rep représente un changement de "thématique"
du coup les liens de la home serait moins interessant car pas thématique d'où la perte de vitesse
et ben le bigdaddy il est ambitieu..
En tout cas les sites collé au rep de home perdent forcément quelquechose si cette théorie s'avere vrai, il faudrait un exemple de site ayant un rep bien positionné pour valider ce test
je viens de passer en rep il y a 15jours :
http://www.google.fr/search?hl=fr&q … e+du+monde
j'ai jamais réussit à me positionner là dessus avant justement de passer en rep
edit : mauvais exemples retirés
Derni�re modification par pagetronic (29-05-2006 14:31:37)
Hors ligne
Un rep ne deviendrait pas 'un site', mais une catégorie du site.
On voit, quand google affiche 3 lignes (avec les diff. thématiques d'un site, voir &btnG=Recherche+Google&meta= par exemple) pour un site, qu'il essaie de faire une différence entre les différentes thématiques d'un site. S'il essaie de faire une différence entre ces différentes thématiques (vous suivez ?), c'est bien pour pouvoir noter différemment ce site, ces différentes parties.
Or, comment trouver ces différentes thématiques autrement qu'en regardant le code couleur de la page ?
edit:: trompé de bouton
Derni�re modification par Anonymus (29-05-2006 14:35:38)
Hors ligne
ben en rep il est pas bète gg,
c'est le skynet de terminator
il va bientot prendre le contrôle de vos machines
enfin si ca n'est pas déjà fait : sitemap, toolbar, analytic et meme vos conversations privées, gtalk, gmail, group..
Derni�re modification par pagetronic (29-05-2006 14:47:44)
Hors ligne
Je pense aussi que Google considère dorénavant un répertoire comme un site à part entière, voire une sous-catégorie de site qui écope néanmoins de la popularité, un petit peu comme l'euphorie qu'on a connu (et qui fonctionne encore sur des Trusty sites) avec les sous-domaines profitant de la popularité du dns principal.
J'ai en effet pu voir aussi le contenu d'un rep entier d'un site non indexé et non crawlé alors que tout le reste du site était super bien pris en compte. Pour arriver à faire indexer le contenu de ce dossier, il m'a fallu carrément changer le nom du rep devenu in-indexable et incrawlable. Une fois cela fait, et quelques links pour indiquer à Googlebot le chemin du nouveau rep, 3 jour aprés les pages étaient bel et bien indexé avec le nouveau rep.
Etrange et complètement anormal par rapport à ce qu'on avait l'habitude de voir.
Autre chose me fait penser que ca marche comme ca, c'est les fameux liens que peuvent avoir des sites à fort trafic en plus du lien vers la home, comme dans le voyage par ex
Dans cet exemple, on voit clairement la prise en compte de chaque rubrique du site. mais Il s'agit ici de pages à la racine.Cela ne m'étonnerait pas cependant qu'on est un jour ce même phénomène sur des fichiers (qui serait des entrées de cat/rubriques du site) directement.
Ces infos sont en théorie liés au trafic des pages, mais peut etre a t on supposé trop vite que c'était le seul moyen pour Google de 'trouver' les rubriques que par le trafic entrant qu'elles recoivent.
Par définition, ce sont celles aussi qui recoivent normalement le plus de backlinks interne du site en question, et donc il est possible que ce ne soit pas le trafic, mais ces backlinks internes qui font détecter à Google que cette page/dossier est une rubrique du site, caractéristique certainement implémenté directement dans leurs algos et donc détectable/pénalisable/avantageuse/etc.
Faudrait trouver une méthodologie pour tester ce phénomène sur quelques sites et voir ce qu'on peut en tirer.
Hors ligne
Bon, pour prendre l'exemple de easyvoyage, alors
Lorsque l'on a une url telle que : http://www.easyvoyage.com/choixDestinat … mp;oi=smap
(je l'ai réduite )
On a clairement le nom de domaine, et le http.
Tout le reste peut être dispatché, découpé. On sait qu'on peut faire n'importe quoi avec les sous domaines, et c'est idem avec les extensions. Un fichier .php peut être une vidéo, une image, un xml, etc..
Il reste donc 2 choses : les mots et les 'séparateurs'. On se retrouve dans l'optique :
www
choixDestination
sa
X
oi
smap
A partir de là, il est possible de trouver des synergies entre les différentes rubriques, que celles ci soient des sous répertoires, des sous domaines, voire des "sous fichiers".
Ceux qui comportent (sur le ndd easyvoyage) forum dans la liste ci-dessus font partie d'une catégorie particulière (que le nom 'forum' soit en sous domaine, ou autre,
alors que ceux qui comportent le mot 'sejour' font partie de la catégorie 'sejour', bien que ce mot ne soit pas en sous domaine mais en 'nom de fichier'.
A mon avis, ca se tient. Autant ils ont dû faire une regle particulière lorsqu'ils ont voulu séparer les sous domaines des domaines, autant ils ont dû élargir cette regle pour faire beaucoup plus large : que ce soient des sous domaines, des sous répertoires, des sous-sous, alors c'est une catégorie distincte du site.
Hors ligne
// un peu hors sujet :
Il n'y a pas de pub, sur la requète 'easyvoyage', comme il n'y en a pas sur la requète 'studyrama'. Google prend ces mots pour une 'marque' (ou t'as payé ? ) ?
Hors ligne