#1 10-08-2005 12:14:41

ThickParasite
Survivors
Lieu: Andorra
Date d'inscription: 21-06-2005
Messages: 2335
Site web

% de duplicate

J'étais resté sur l'impression que 30% de similitude était le max que GG pouvait avaler, mais ça fait un bail que je n'ai pas bossé sur des pages qui pouvaient apparaître comme similaires.
Maintenant, je dois bosser sur ce paramètre car le cas se présente.
Spécifiquement, je me pose aussi la question pour les images. C'est à dire de réutiliser certaines images en changeant juste légérement le nom de fichier (key-01.jpg devient 01key.jpg) et bien sûr les alt + liens seront différents.
Vos avis sur la question ?


- Dire tout haut ce que les médias pensent tout bas sur ADICIE
- Tout le référencement Google par les 7 Dragons.
- CHAUFFE MARCEL Wm 0.0  milite pour le Web médiocre.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#2 10-08-2005 12:37:00

Turulillo
Survivors
Lieu: Paris / Malaga
Date d'inscription: 21-06-2005
Messages: 766
Site web

Re: % de duplicate

La question de la similitude est souvent mal abordée par les outils que j'ai pu voir et même par les SEO.
En fait il s'agit d'une notion un peu plus complexe et à ce sujet, le Dr. Garcia, alias Orion en parle brièvement dans un des exposés du SES de San José que j'ai évoqué hier sur un autre topic.
A ce sujet, allez sur Seroundtable, de nouveaux résumés ont été réalisés et c'est tout bonnement bluffant, cela faisait longtemps que je n'avais pas lu quelque chose de ce niveau.
Pour en revenir à ta question, dans le résumé qui s'appelle "Search Algorithms: The Patent Files", il est dit:
http://www.seroundtable.com/archives/002331.html

Dr. Garcia from Mi Islita.com is up next to speak about Patents on Duplicated Content. He states some disclaimers. The first is a patent document does not mean implementation. Dr. Garcia talks about Google Patent Detecting Query Specific Duplicate Documents. He explains how they do this. The does a query, candidate results ranked by relevancy (A,B,C,D,E), it goes through query specific Filters, looks for duplicates, removes duplicates, and finally shows the final set to the user (A,B,E). How Google may test to final duplicate documents is that is first sends the document through linearization. It uses a 15 to 100 character sliding window. The idea is to shift the window over the text and calculate the term frequency in that area. There may be many sliding windows. The idea is to collect the top 2 sliding windows, to define a query relevant to the corresponding documents. He goes on to say the 2003 patent will compare a current snippet with snippets already in the final set. His slide displays a list of ranked results, he says that is result is similar to result number 2, but not 1, then it will keep it. The patent document opens the door for using server detection methods, such as standard IR similarity measures and shingles.

He next goes into more complicated math, relating to how they treat a snippet as vectors and compute a cosine similarity. The idea is to analyze the two coordinates in the space. Based on the displacement of the two points, they can get a magnitude, and a DOT product, which they can use to finally measure similarity. The closer of the cosine to 1, the point of comparison will make the document similar. They can set a limit, that is the cosine is a certain point, they can make a decision to reject or accept the document. Retesting is also possible. He goes on to study another way to compare resemblance, he takes information from Altavista Patent published in 2001. What they do is take two linearizied documents. Count individual and common Shingles (or windows). He gives the examples such as the phrases “ a rose is a” from document A and it tends to be compared with document B. His next slide talks about using Jaccard’s coefficient and computing the resemblance of the documents. This I think helps look for false positives if using short shingles, such as unrelated documents that may look similar\and false negatives who use long negatives such as small changes producing large impact.

En gros, c'est le principe des "fenêtres glissantes" de 15 à 100 caractères, qui se promèneent sur une page (il peut y avoir une ou plusieurs fenêtres) et qui analysent la similitude avec d'autres pages.
Quand je disais en début de post que les outils que j'ai vu n'étaient pas pertinents, c'est qu'ils analysent la similarité entre 2 pages sans prendre compte en le contexte.
Si tu compare 2 pages d'un même site, tu risques d'avoir une très grosse similarité bien que les contenus soient complètement différents, et ce à cause des liens de navigation, du footer, du header, du left, du right, etc...ce qu'il faut analyser, c'est le contenu réel, pas le reste, sauf lorsqu'on souhaite le faire, pour déterminer quelle est la part de réel contenu dans les pages d'un même site, afin d'accorder moins d'importance aux liens de navigation, footer, etc...par rapport aux liens présents dans le contenu ou alors il faudrait qu'on puisse au moins cocher une case dans l'outil pour dire si les 2 pages sont sur le même site ou pas et dans ce cas, l'analyse serait effectuée et présentée différemment.


Learn gambling tips about casino then play poker and other casinos games. The gaming directory CasinoCity is a good ressource of online casino and Bingo websites.

Hors ligne

 

#3 10-08-2005 12:58:32

ThickParasite
Survivors
Lieu: Andorra
Date d'inscription: 21-06-2005
Messages: 2335
Site web

Re: % de duplicate

Yep, j'ai fait 3 heures de lecture sur SES ce matin smile

Pour le duplicate, je n'ai pas noté de problème quand un lien vers la page de référence est fait en bonne et dûe forme, mais pour combien de temps ?

Pour la similitude je me méfie aussi beaucoup du fichier CSS. J'essaye de changer le nom des class mais est-ce bien suffisant ?

Bouh, il me fait tout remettre en cause ce SES


- Dire tout haut ce que les médias pensent tout bas sur ADICIE
- Tout le référencement Google par les 7 Dragons.
- CHAUFFE MARCEL Wm 0.0  milite pour le Web médiocre.

Hors ligne

 

#4 10-08-2005 14:02:55

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: % de duplicate

mouais ça fait flipper tout ça... rédactionnel powa hmm


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#5 10-08-2005 14:34:41

ThickParasite
Survivors
Lieu: Andorra
Date d'inscription: 21-06-2005
Messages: 2335
Site web

Re: % de duplicate

offman a �crit:

mouais ça fait flipper tout ça... rédactionnel powa hmm

Ceux qui ont séché les cours de Français vont avoir du mal big_smile

Plus clairement, c'est certain que le contenu "original" aura de plus en plus de prix. Je suis certain que les BLs ne seront plus le nerf de la guerre en se concentrant sur le rédactionnel.
Bref, on revient à la base des conseils en matière de référencement.
Cependant, on sait aussi que faire le porc marche toujours (avec un peu de chance tout de même), donc la fête n'est peut-être finie et le rêgne des outils magiques peut s'adapter wink


- Dire tout haut ce que les médias pensent tout bas sur ADICIE
- Tout le référencement Google par les 7 Dragons.
- CHAUFFE MARCEL Wm 0.0  milite pour le Web médiocre.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#6 10-08-2005 14:47:55

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: % de duplicate

ThickParasite a �crit:

Cependant, on sait aussi que faire le porc marche toujours (avec un peu de chance tout de même), donc la fête n'est peut-être finie et le rêgne des outils magiques peut s'adapter wink

Oui j'en suis persuadé, surtout sur d'autres moteurs que gg, par contre sur ce dernier les outils magiques s'ils fonctionnent au debut on rarement la pérénité necessaire sur le long terme. Bon y'a aussi certainement moyen de gagner un gros paquet de thunes en 4 ou 5  mois en bourinant comme un cochon, se faire blacklister et laisser le site continuer à gagner petit avec les autres moteurs.

Tiens d'ailleurs, on peut se faire blacklister sur les autres moteurs ?


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#7 10-08-2005 15:35:13

salemioche
Survivors
Lieu: blue sky
Date d'inscription: 06-07-2005
Messages: 4128
Site web

Re: % de duplicate

offman a �crit:

en bourinant comme un cochon

t'as un exemple en tête la ? lol lol lol

Derni�re modification par salemioche (10-08-2005 15:35:31)

Hors ligne

 

#8 10-08-2005 15:43:50

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: % de duplicate

Salamioche il est pire que les filtres de gg, dès que me mot "bourriner" est saisi qq part sur la toile, il apparait comme par enchantement big_smile


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#9 10-08-2005 17:27:03

Turulillo
Survivors
Lieu: Paris / Malaga
Date d'inscription: 21-06-2005
Messages: 766
Site web

Re: % de duplicate

offman a �crit:

Salamioche il est pire que les filtres de gg, dès que me mot "bourriner" est saisi qq part sur la toile, il apparait comme par enchantement big_smile

lollollol
Qu'est ce que tu m'a fait me marrer sur ce coup là Offman...j'ai tellement explosé de rire soudainement que la secrétaire a sursauté comme une poule qu'on dégomme à la caillasse.
Putain, j'en ris encore.
Sinon je suis pas d'accord avec Thick, le contenu, OK c'est bien, il faut mettre un lien vers le site que tu pompes, tu seras moins bien classé que lui mais c'est as trop grave, mais les BL sont super importants et le resteront, par contre va falloir faire gaffe à les faire intelligemment, sinon ils ne serviront pas à grand chose.


Learn gambling tips about casino then play poker and other casinos games. The gaming directory CasinoCity is a good ressource of online casino and Bingo websites.

Hors ligne

 

#10 10-08-2005 17:28:35

coyote
Moderateur -
Lieu: le Perche
Date d'inscription: 22-06-2005
Messages: 2252
Site web

Re: % de duplicate

je pense plutot qu'il est en train de nouer la corde pour ce pendre le gégé tout ce qui est dit la si tu l'aplique a la lettre tu met un rédactionnel et basta !!!
cela veut dire que tout nouveau site n'a aucune chance de prendre un visiteur ? et ont reviens dans 1 ans l'index sera toujours le meme, un peux comme Voila quoi lol
gégé c 'est fini YAHOOOOOOOOOOO tongue


Boxe thai + Ok Bébé au Poker en ligne = plus de
sos croquettes

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#11 10-08-2005 17:36:41

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: % de duplicate

Turulillo a �crit:

...j'ai tellement explosé de rire soudainement que la secrétaire a sursauté comme une poule qu'on dégomme à la caillasse...

ça sent le vecu ça big_smile
ou alors t'es le maitre de la métaphore !!!

Derni�re modification par offman (10-08-2005 17:37:13)


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#12 10-08-2005 17:38:05

offman
Tagglers+
Lieu: Nimes
Date d'inscription: 20-07-2005
Messages: 652
Site web

Re: % de duplicate

coyote a �crit:

je pense plutot qu'il est en train de nouer la corde pour ce pendre le gégé tout ce qui est dit la si tu l'aplique a la lettre tu met un rédactionnel et basta !!!
cela veut dire que tout nouveau site n'a aucune chance de prendre un visiteur ? et ont reviens dans 1 ans l'index sera toujours le meme, un peux comme Voila quoi lol
gégé c 'est fini YAHOOOOOOOOOOO tongue

y'a toujours une logique implacable dans ce que dis coy, c'est pour ça qu'on l'aime lol


Aide au référencement - Echange de liens - Annuaire annonces
Jeux gratuits
Nous sommes tous capables du meilleur... comme du pire.

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#13 10-08-2005 17:57:27

coyote
Moderateur -
Lieu: le Perche
Date d'inscription: 22-06-2005
Messages: 2252
Site web

Re: % de duplicate

ThickParasite a �crit:

Ceux qui ont séché les cours de Français vont avoir du mal big_smile

Plus clairement, c'est certain que le contenu "original" aura de plus en plus de prix.

Jai hâte de voir la tronche de ton contenue original pour les lave linge tongue


Boxe thai + Ok Bébé au Poker en ligne = plus de
sos croquettes

Hors ligne

 

#14 10-08-2005 19:14:43

berberber
So White Hat
Lieu: Warszawa, Pologne
Date d'inscription: 25-06-2005
Messages: 516
Site web

Re: % de duplicate

bon tout ca revient a ma theorie originale, il faut generer des phrases aleatoires.... un ecrivain robot quoi, je suis sur que c est possible, et puis en travaillant un peu, il pourrait meme ecrire qqchose de censé... big_smile

Hors ligne

 

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 313

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/tgarchive/forum/include/parser.php on line 414

#15 10-08-2005 19:19:06

ThickParasite
Survivors
Lieu: Andorra
Date d'inscription: 21-06-2005
Messages: 2335
Site web

Re: % de duplicate

coyote a �crit:

ThickParasite a �crit:

Ceux qui ont séché les cours de Français vont avoir du mal big_smile

Plus clairement, c'est certain que le contenu "original" aura de plus en plus de prix.

Jai hâte de voir la tronche de ton contenue original pour les lave linge tongue

Même avec mon Bac +5 je manque vraiment d'inspiration pour décrire un lave-linge roll


- Dire tout haut ce que les médias pensent tout bas sur ADICIE
- Tout le référencement Google par les 7 Dragons.
- CHAUFFE MARCEL Wm 0.0  milite pour le Web médiocre.

Hors ligne

 

Pied de page des forums

Propulsé par PunBB
© Copyright 2002–2005 R. Andersson