• Index
  •  » Google
  •  » Contenu similaire / pages ignorées

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#1 03-10-2005 14:14:08

Seg
Survivors
Date d'inscription: 21-06-2005
Messages: 1073

Contenu similaire / pages ignorées

Je n'avais jamais fais gaffe avant, mais je viens de me rendre compte que GG n'affiche jamais directement les 1000 premiers résultats accessibles. Même lorsqu'on cherche "the", on n'a que 942 résultats. Pour avoir tous les résultats, il faut cliquer sur le lien

Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.

Il suffit de rajouter &start=990 à n'importe quel requête pour se rendre compte qu'il n'y a jamais 1000 résultats présentés. Le lien "relancer la requête..." ajoute notamment à l'URL le fameux &filter=0 et là on peut voir les 1000 premiers résultats au complet.

La première conclusion que j'en tire, mais ça on le savait déjà, c'est que le message "relancer la recherche en incluant les pages ignorées" n'a rien à voir avec le duplicate content. Il s'agit juste de l'affichage d'un nombre de pages jugées "pertinentes" rapporté à une échelle de 1000.

Mais cette conclusion est en contradiction avec ce qu'on a peut constater sur le paramètre &filter=0 qui en plus de permettre l'affichage des 1000 premiers résultats change l'ordre du classement pour certaines requêtes...

Le seul exemple que j'ai trouvé qui affiche les 1000 premiers resultats directement c'est http://www.google.fr/search?q=site:www. … ;start=990 et là on voit que c'est que des url en mode listing. Donc on peut en tirer une deuxième conclusion qui est en totale contradiction avec la première : comme Google n'a pas indexé le contenu des pages, il ne peut pas savoir si c'est du contenu similaire ou pas, donc il affiche tout. Ce qui voudrait dire qu'il s'agit bien d'un filtre lié au taux de similarité entre les documents affichés.

Bref, je suis peaumé, là big_smile S'il y en a qui y voient un peu plus clair sur ce sujet ça m'intéresse smile

Hors ligne

 

#2 03-10-2005 14:23:28

berberber
So White Hat
Lieu: Warszawa, Pologne
Date d'inscription: 25-06-2005
Messages: 516
Site web

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#3 03-10-2005 15:39:22

Seg
Survivors
Date d'inscription: 21-06-2005
Messages: 1073

Re: Contenu similaire / pages ignorées

berberber a �crit:

http://www.google.fr/search?q=site:en.wikipedia.org&start=990

Oui, là les pages sont indexées, donc GG peut comparer les pages

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#4 20-10-2005 12:14:42

Seg
Survivors
Date d'inscription: 21-06-2005
Messages: 1073

Re: Contenu similaire / pages ignorées

Je viens de tomber sur un exemple étonnant :
recherche : immobilier bastia
sur Google
Les résultats s'arrêtent à la page 4 avec le message

Pour limiter les résultats aux pages les plus pertinentes (total : 35), Google a ignoré certaines pages à contenu similaire.

Est-ce que vous voyez la même chose que moi ??

Hors ligne

 

#5 20-10-2005 12:26:12

easyguy
Tagglers
Date d'inscription: 04-10-2005
Messages: 761

Re: Contenu similaire / pages ignorées

Salut Seg,

Je confirme, j'ai le même affichage que toi à partir de la 4e page ???
Mais as tu remarqué le squat d'immovision dans les résultats ?

Clique sur "relancer la recherche en incluant les pages ignorées" à partir de la 4e page.

@

Derni�re modification par @lexandre (20-10-2005 12:31:54)


Trouver un Appartement à Paris ou en région Ile de France. En province :  Immobilier Lyon, ou Immobilier Annecy

Hors ligne

 

#6 20-10-2005 12:31:58

Seg
Survivors
Date d'inscription: 21-06-2005
Messages: 1073

Re: Contenu similaire / pages ignorées

Ah oui, j'avais pas vu immovision... peut-être, comme le suggérait Americas sur un autre thread, que les 900 et quelques résultats restant appartiennent en majeur partie à immovision.
http://www.google.fr/search?q=site%3A+i … ier+bastia

Hors ligne

 

#7 20-10-2005 12:34:29

easyguy
Tagglers
Date d'inscription: 04-10-2005
Messages: 761

Re: Contenu similaire / pages ignorées

C'est clair, t'as qu'à voir le nb de pages indexées : site:immovision.com

Il squattent à fond ...

@


Trouver un Appartement à Paris ou en région Ile de France. En province :  Immobilier Lyon, ou Immobilier Annecy

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#8 20-10-2005 12:34:31

Seg
Survivors
Date d'inscription: 21-06-2005
Messages: 1073

Re: Contenu similaire / pages ignorées

Je viens a l'instant de switcher d'index en prod, j'ai maintenant :

Pour limiter les résultats aux pages les plus pertinentes (total : 317)...

Le filtre n'est donc pas reglé pareil en fonction des bases on dirait..

Hors ligne

 
  • Index
  •  » Google
  •  » Contenu similaire / pages ignorées

Pied de page des forums

Propulsé par PunBB
© Copyright 2002–2005 R. Andersson