Rédaction web : Méfiez-vous de la duplication de contenu
21 février 2012 par Germain Butrot
Google lutte contre le contenu dupliqué depuis son nouveau filtre d’algorithme : Google Panda. Il vise à privilégier le contenu frais et de qualité, et surtout unique. Mais qu’est-ce que le contenu dupliqué ? Comment le repérer sur son site ? Quelles sont les solutions pour y remédier ?
Qu’est-ce que le contenu dupliqué ?
La duplication de contenu ou le contenu dupliqué (duplicate content en anglais) est pour chaque rédacteur une chose à éviter : c’est-à-dire un même contenu sur deux pages différentes.
Le contenu dupliqué se manifeste de différents types. Il y a du contenu identique sur deux pages différentes de votre site avec deux URLs différentes. On voit souvent une page d’accueil par exemple qui est à l’adresse monsite.com et monsite.com/index.php ce qui pose un problème au niveau de la duplication de contenu.
La duplication de contenu d’une partie d’un texte est aussi une forme de duplicate content. Il se manifeste par exemple sur une page auteur qui reprend exactement le même chapeau des articles publiés récemment pour un blog ou un site n’ayant que deux auteurs.
Les title et les meta description identiques dans les résultats de Google sont aussi reconnus comme du contenu dupliqué. Et c’est aussi le premier aperçu de votre site que l’internaute voit.
Les conséquences du contenu dupliqué ?
En règle générale, tous les sites peuvent avoir du contenu dupliqué. En revanche, Google avec son filtre de nettoyage « Panda » a touché certains sites. Les agrégateurs de contenu comme Wikio, les comparateurs de prix comme Twenga et les sites avec du contenu scrapé c’est-à-dire volé sur d’autres sites, ont beaucoup perdu en visibilité.
Les conséquences directes du contenu dupliqué peuvent se voir dans les pages de résultats des moteurs de recherche. Les pages ou sites accueillant du contenu dupliqué perdent en visibilité. Google par l’intermédiaire de son filtre considère leur contenu de faible qualité.
De manière générale, 4 conséquences peuvent survenir :
- Être désindexé des moteurs de recherche
- Être moins visité (crawlé) par les moteurs
- Être déclassé et perdre des positions
- Être déplacé dans un second index moins souvent interrogé
Mais comment repérer la duplication de contenu sur votre site ?
Plusieurs outils en ligne permettent d’identifier si vos pages ou sites contiennent du contenu dupliqué. Il est important de repérer le duplicate content afin d’en éviter les répercussions.
Avec Google Webmaster Tools, il est possible de repérer la duplication de balise title et meta description. Pour cela il faut aller dans la catégorie « Diagnostiques » onglet « HTML Suggestions ».
Avec la commande « site: » dans Google, vous pouvez repérer si des pages internet ont le même contenu. Il suffit de taper dans la barre de recherche Google : site :www.monsite.fr “texte susceptible d’être dupliqué”
Avec des outils en ligne, vous pouvez constater et comparer la similarité des contenus d’un site ou d’une page. Par exemple, Copyscape permet de voir si le contenu d’une page est copié en crawlant le web. Le service est gratuit et il vous suffit d’entrer l’URL de la page. Positeo propose aussi ce type de service.
Dupecop permet quant à lui de comparer jusqu’à 4 textes. Ce service montre à combien de pourcentage un texte est unique par rapport à un autre. Dupecop est gratuit mais limité à 5 comparaisons par jour.
Quelles solutions pour lutter contre le contenu dupliqué ?
Voici quelques conseils pour éviter la duplication de contenu, qu’elle soit interne ou externe.
Lorsque vous vous rendez compte d’un cas de duplication de contenu sur votre site, vous devez utiliser un lien canonique <link rel=”canonical“ href=”url de la page originale”/>. Ce lien canonique a pour but de guider le moteur sur la page que vous souhaitez indexer et de ne pas indexer l’autre page.
Au niveau de la duplication externe, vous devez contacter le site malveillant afin de trouver une solution avec lui pour qu’il enlève le contenu dupliqué. Si cela ne se passe pas bien, vous pouvez le dénoncer à Google via un formulaire. Et surtout, protégez-vous et garder le maximum de preuves comme des imprim écrans.

Bon rappel sur le contenu dupliqué. Pour avoir été victime de duplicate externe il y a peu, tu le sais, il n’y a rien de pire. Je n’ai pas vu de quelconque pénalité parce que le site qui m’a copié (salement en plus sur ce coup) n’était pas vraiment trusté mais bon :/
Intéréssant cet article, une bonne piqure de rappel ne fait pas de mal, surtout a ceux qui fournissent du contenu pour les annuaires par exemples.
Article qui synthétise bien tout le danger du DC !
De mon coté, je carbure avec un petit script php + Copyscape et j’ai souvent eu la chance de pouvoir intervenir avec diligence là où je suspectais du DC.
Bref, je touche du bois mais je n’ai jamais été confronté à un cas de pénalité de DC, que ce soit interne ou externe.
Pour checker le duplicate interne à un site, Google permet de le faire simplement…
Site:mondomaine.com, on avance dans la pagination jusqu’à retrouver la mention qui dit que les pages suivantes ont été ignorées car considérées comme inutiles. Vu que Google précise qu’elles sont inutiles parce que dupliquées, c’est une source d’information intéressante je trouve, et qui permet souvent de faire un bon ménage en interne.
J’ai toujours eu un doute sur l’influence négative du contenu dupliqué externe.
Il peut avoir un effet sur les sites plus jeunes mais j’ai un doute sur le fait que Google pénalise fortement les sites dont le contenu a été dupliqué. Ce serait trop facile pour le NSEO – non ? Si vous avez des retours d’expérience sur ce point, cela m’intéresse
Mais dans tous les cas, je conseille toujours de bien vérifier ce point et de négocier un retrait du texte – au moins pour les droits d’auteur.
[...] filtre d'algorithme : Google Panda. Il vise à privilégier le contenu frais et de …blog.inextcom.fr/…/redaction-web-mefiez-vous-de-la-duplicati…Lire la suiteTags: algorithme, contenu, duplication, google, lutte, panda, rédaction Posted in SEO [...]
Et créer du contenu unique… c´est génial, mais pour des cancres de la redac c´est la zone (je me vise)! Sous-traiter cette redac à des plateformes online, z´avez essayé? j´essaie un prest. de service independent-publishing.com, pour l´instant c´est correct qualité et timing… Yen a qui connaissent?