Forum dédié au moteur de recherche et aux techniques d'optimisation par #taggle
Vous n'�tes pas identifi�.
J'étais resté sur l'impression que 30% de similitude était le max que GG pouvait avaler, mais ça fait un bail que je n'ai pas bossé sur des pages qui pouvaient apparaître comme similaires.
Maintenant, je dois bosser sur ce paramètre car le cas se présente.
Spécifiquement, je me pose aussi la question pour les images. C'est à dire de réutiliser certaines images en changeant juste légérement le nom de fichier (key-01.jpg devient 01key.jpg) et bien sûr les alt + liens seront différents.
Vos avis sur la question ?
Hors ligne
La question de la similitude est souvent mal abordée par les outils que j'ai pu voir et même par les SEO.
En fait il s'agit d'une notion un peu plus complexe et à ce sujet, le Dr. Garcia, alias Orion en parle brièvement dans un des exposés du SES de San José que j'ai évoqué hier sur un autre topic.
A ce sujet, allez sur Seroundtable, de nouveaux résumés ont été réalisés et c'est tout bonnement bluffant, cela faisait longtemps que je n'avais pas lu quelque chose de ce niveau.
Pour en revenir à ta question, dans le résumé qui s'appelle "Search Algorithms: The Patent Files", il est dit:
http://www.seroundtable.com/archives/002331.html
Dr. Garcia from Mi Islita.com is up next to speak about Patents on Duplicated Content. He states some disclaimers. The first is a patent document does not mean implementation. Dr. Garcia talks about Google Patent Detecting Query Specific Duplicate Documents. He explains how they do this. The does a query, candidate results ranked by relevancy (A,B,C,D,E), it goes through query specific Filters, looks for duplicates, removes duplicates, and finally shows the final set to the user (A,B,E). How Google may test to final duplicate documents is that is first sends the document through linearization. It uses a 15 to 100 character sliding window. The idea is to shift the window over the text and calculate the term frequency in that area. There may be many sliding windows. The idea is to collect the top 2 sliding windows, to define a query relevant to the corresponding documents. He goes on to say the 2003 patent will compare a current snippet with snippets already in the final set. His slide displays a list of ranked results, he says that is result is similar to result number 2, but not 1, then it will keep it. The patent document opens the door for using server detection methods, such as standard IR similarity measures and shingles.
He next goes into more complicated math, relating to how they treat a snippet as vectors and compute a cosine similarity. The idea is to analyze the two coordinates in the space. Based on the displacement of the two points, they can get a magnitude, and a DOT product, which they can use to finally measure similarity. The closer of the cosine to 1, the point of comparison will make the document similar. They can set a limit, that is the cosine is a certain point, they can make a decision to reject or accept the document. Retesting is also possible. He goes on to study another way to compare resemblance, he takes information from Altavista Patent published in 2001. What they do is take two linearizied documents. Count individual and common Shingles (or windows). He gives the examples such as the phrases “ a rose is a” from document A and it tends to be compared with document B. His next slide talks about using Jaccard’s coefficient and computing the resemblance of the documents. This I think helps look for false positives if using short shingles, such as unrelated documents that may look similar\and false negatives who use long negatives such as small changes producing large impact.
En gros, c'est le principe des "fenêtres glissantes" de 15 à 100 caractères, qui se promèneent sur une page (il peut y avoir une ou plusieurs fenêtres) et qui analysent la similitude avec d'autres pages.
Quand je disais en début de post que les outils que j'ai vu n'étaient pas pertinents, c'est qu'ils analysent la similarité entre 2 pages sans prendre compte en le contexte.
Si tu compare 2 pages d'un même site, tu risques d'avoir une très grosse similarité bien que les contenus soient complètement différents, et ce à cause des liens de navigation, du footer, du header, du left, du right, etc...ce qu'il faut analyser, c'est le contenu réel, pas le reste, sauf lorsqu'on souhaite le faire, pour déterminer quelle est la part de réel contenu dans les pages d'un même site, afin d'accorder moins d'importance aux liens de navigation, footer, etc...par rapport aux liens présents dans le contenu ou alors il faudrait qu'on puisse au moins cocher une case dans l'outil pour dire si les 2 pages sont sur le même site ou pas et dans ce cas, l'analyse serait effectuée et présentée différemment.
Hors ligne
Yep, j'ai fait 3 heures de lecture sur SES ce matin
Pour le duplicate, je n'ai pas noté de problème quand un lien vers la page de référence est fait en bonne et dûe forme, mais pour combien de temps ?
Pour la similitude je me méfie aussi beaucoup du fichier CSS. J'essaye de changer le nom des class mais est-ce bien suffisant ?
Bouh, il me fait tout remettre en cause ce SES
Hors ligne
mouais ça fait flipper tout ça... rédactionnel powa
Hors ligne
offman a �crit:
mouais ça fait flipper tout ça... rédactionnel powa
Ceux qui ont séché les cours de Français vont avoir du mal
Plus clairement, c'est certain que le contenu "original" aura de plus en plus de prix. Je suis certain que les BLs ne seront plus le nerf de la guerre en se concentrant sur le rédactionnel.
Bref, on revient à la base des conseils en matière de référencement.
Cependant, on sait aussi que faire le porc marche toujours (avec un peu de chance tout de même), donc la fête n'est peut-être finie et le rêgne des outils magiques peut s'adapter
Hors ligne
ThickParasite a �crit:
Cependant, on sait aussi que faire le porc marche toujours (avec un peu de chance tout de même), donc la fête n'est peut-être finie et le rêgne des outils magiques peut s'adapter
Oui j'en suis persuadé, surtout sur d'autres moteurs que gg, par contre sur ce dernier les outils magiques s'ils fonctionnent au debut on rarement la pérénité necessaire sur le long terme. Bon y'a aussi certainement moyen de gagner un gros paquet de thunes en 4 ou 5 mois en bourinant comme un cochon, se faire blacklister et laisser le site continuer à gagner petit avec les autres moteurs.
Tiens d'ailleurs, on peut se faire blacklister sur les autres moteurs ?
Hors ligne
offman a �crit:
en bourinant comme un cochon
t'as un exemple en tête la ?
Derni�re modification par salemioche (10-08-2005 15:35:31)
Hors ligne
Salamioche il est pire que les filtres de gg, dès que me mot "bourriner" est saisi qq part sur la toile, il apparait comme par enchantement
Hors ligne
offman a �crit:
Salamioche il est pire que les filtres de gg, dès que me mot "bourriner" est saisi qq part sur la toile, il apparait comme par enchantement
Qu'est ce que tu m'a fait me marrer sur ce coup là Offman...j'ai tellement explosé de rire soudainement que la secrétaire a sursauté comme une poule qu'on dégomme à la caillasse.
Putain, j'en ris encore.
Sinon je suis pas d'accord avec Thick, le contenu, OK c'est bien, il faut mettre un lien vers le site que tu pompes, tu seras moins bien classé que lui mais c'est as trop grave, mais les BL sont super importants et le resteront, par contre va falloir faire gaffe à les faire intelligemment, sinon ils ne serviront pas à grand chose.
Hors ligne
je pense plutot qu'il est en train de nouer la corde pour ce pendre le gégé tout ce qui est dit la si tu l'aplique a la lettre tu met un rédactionnel et basta !!!
cela veut dire que tout nouveau site n'a aucune chance de prendre un visiteur ? et ont reviens dans 1 ans l'index sera toujours le meme, un peux comme Voila quoi
gégé c 'est fini YAHOOOOOOOOOOO
Hors ligne
Turulillo a �crit:
...j'ai tellement explosé de rire soudainement que la secrétaire a sursauté comme une poule qu'on dégomme à la caillasse...
ça sent le vecu ça
ou alors t'es le maitre de la métaphore !!!
Derni�re modification par offman (10-08-2005 17:37:13)
Hors ligne
coyote a �crit:
je pense plutot qu'il est en train de nouer la corde pour ce pendre le gégé tout ce qui est dit la si tu l'aplique a la lettre tu met un rédactionnel et basta !!!
cela veut dire que tout nouveau site n'a aucune chance de prendre un visiteur ? et ont reviens dans 1 ans l'index sera toujours le meme, un peux comme Voila quoi
gégé c 'est fini YAHOOOOOOOOOOO
y'a toujours une logique implacable dans ce que dis coy, c'est pour ça qu'on l'aime
Hors ligne
ThickParasite a �crit:
Ceux qui ont séché les cours de Français vont avoir du mal
Plus clairement, c'est certain que le contenu "original" aura de plus en plus de prix.
Jai hâte de voir la tronche de ton contenue original pour les lave linge
Hors ligne
bon tout ca revient a ma theorie originale, il faut generer des phrases aleatoires.... un ecrivain robot quoi, je suis sur que c est possible, et puis en travaillant un peu, il pourrait meme ecrire qqchose de censé...
Hors ligne
coyote a �crit:
ThickParasite a �crit:
Ceux qui ont séché les cours de Français vont avoir du mal
Plus clairement, c'est certain que le contenu "original" aura de plus en plus de prix.Jai hâte de voir la tronche de ton contenue original pour les lave linge
Même avec mon Bac +5 je manque vraiment d'inspiration pour décrire un lave-linge
Hors ligne