Le contenu dupliqué (duplicate content) se définit comme la présence d’un contenu similaire sur une ou plusieurs pages. Les moteurs de recherche, comme Google, diagnostiquent et filtrent toutes les reproductions possibles sur internet. Partielle ou totale, interne ou externe, la duplication du contenu est un élément à considérer sous peine de voir l’indexation du site sérieusement affectée.
Dans cet article, nous ne nous concentrerons que sur les contenus dupliqués propres à un même site (internes).

Quels sont les risques ?

Les contenus dupliqués étant jugés peu qualitatifs par les moteurs de recherche, vous risquez :
– une dilution du link juice du site (explication du concept sur OpenClassrooms), et donc des possibilités d’indexation diminuées;
– une baisse de positionnement, voire un déclassement total de la page concernée;
– une désindexation partielle ou totale du site auquel cas, le site ne s’affichera plus dans les résultats de recherche. 

Causes possibles d’une duplication interne totale

Vos contenus peuvent être jugés comme dupliqués si :
–  Le site est accessible via une url classique (type http://) et via une url sécurisée sous la forme (https://). Dans ce cas, vous indiquez aux moteurs deux chemins d’accès à un même contenu. Chaque chemin perd donc en valeur aux yeux du moteur, puisque le link juice de chaque page est dilué.
– Le site est accessible via une url type www.mon-site.fr et via mon-site.fr (sans le www). On rencontre le même problème que le point précédent, problème de juice dilué.
– L’index du site répond à plusieurs url de type mon-site.fr/index/ ; mon-site.fr/index.php ou encore mon-site.fr/index.html. Là encore, le link juice est dilué inutilement.

Causes possibles d’une duplication interne partielle

Si pour écarter tous risques de contenu dupliqué, 90% du contenu doit être unique, il est recommandé de se pencher également sur les contenus dupliqués partiellement. Des outils permettent ainsi de mesurer le taux de similarité des pages (comme sur WebRankInfo.com ).
Une fois encore, plusieurs pistes sont à explorer :
– Le site propose une version « ordinaire » et une version « imprimable » de certaines pages/articles du site, nous avons donc deux versions de la même page.
– Sur un site multilingue, un contenu similaire non traduit est publié. Il se retrouve alors en double (voire plus) dans les sous domaines ou répertoires du site, ce qui en fait un duplicate content.
– Plusieurs articles en vente aux descriptions sensiblement similaires sont affichés ou liés via plusieurs URL distinctes.

Identification des contenus dupliqués

Pour faire un point sur les contenus dupliqués en interne et les identifier, deux outils intéressants sont mis à notre disposition par Google : Search Console et le moteur de recherche.
Dans la Search Console de Google, la page Améliorations HTML (située dans la rubrique Apparence dans les résultats de recherche) vous présente les éventuelles difficultés rencontrées lors de l’exploration et de l’indexation de votre site.
Dans la fenêtre du moteur de recherche Google, tapez la requête site:mon-site.fr. Vous visualiserez ainsi l’ensemble des pages indexées (et déterminerez celles qui ne le sont pas !).
Afin d’identifier les pages https indexées, utilisez la requête site:mon-site.fr – inurl:http. La méthode est valable également pour vérifier les sous domaines comme www, en remplaçant inurl:https par  inurl:www.

Quelques solutions pour les éviter

Après avoir détecté les contenus dupliqués, voici quelques solutions à mettre en œuvre pour éviter la désindexation de vos pages :
– Indiquez pour chaque page de votre site quelle est l’URL canonique, c’est-à-dire l’URL officielle de la page. Toutes les autres versions, qui jusqu’à présent provoquaient du contenu dupliqué, seront désormais considérées par les moteurs comme étant strictement la même page. Nous abordons cette balise plus en détail dans le chapitre suivant.
– Indiquez à Google l’url à privilégier pour l’indexation en ajoutant une balise no index sur la mauvaise page.
– Demandez à Google la suppression des pages inutiles, toujours à l’aide de Search Console (rubrique Index Google, puis URL à supprimer).
– Mettez à jour votre sitemap.xml.

– Si deux pages proposent un contenu similaire, n’en conservez qu’une. Pour cela, vous pouvez mettre en place une redirection 301 depuis le .htaccess du site. Ainsi, lorsque Google va crawler le site, il sera redirigé vers la bonne page.
En cas de désindexation de votre page, voire du site, vous pouvez procéder à une demande de réexamen auprès de Google.

La balise link rel=canonical

Par le biais d’une balise link dans le code HTML

La manière la plus simple dans la plupart des cas est de placer une balise dans l’entête HTML de votre page (entre <head> et </head>), avec le format très simple suivant :

<link rel="canonical" href="http://www.mon-site.fr/dossiers/url-canonique" />

Par le biais d’un entête HTTP

Il est également possible de définir une URL canonique via une directive dans le fichier .htaccess :

link: <http://www.on-site.fr/dossiers/url-canonique>; rel="canonical"

La balise noindex

On l’utilise sous le format :

<meta name="robots" contents="noindex" />

noindex indique au robot qu’il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt.
Ceci ne peut être pris en compte que si Google est autorisé à crawler la page. Une fois qu’il l’aura crawlée, la page sera rapidement désindexée (supprimée de l’index).

Redirection du site

mon-site.fr vers www.mon-site.fr

Pour cela, nous allons utiliser une règle de réécriture sur le serveur, qui redirigera automatiquement vers la bonne version. Par exemple, pour forcer le sous-domaine www (et interdire l’indexation du site sans ce sous-domaine) , mettez le code suivant en haut de votre fichier .htaccess situé à la racine du site :

# Redirection du site sans www vers www
RewriteEngine On
RewriteCond %{HTTP_HOST} ^mon-site.com [NC]
RewriteRule ^(.*)$ http://www.mon-site.com/$1 [L,R=301]

Chaque fois qu’un visiteur va arriver sur « mon-site.fr » il se verra rediriger proprement et de façon transparente (de type 301) vers « www.mon-site.fr ».
N’oubliez pas malgré tout d’indiquer vous-mêmes la version officielle de votre site (avec ou sans www), appelée « domaine favori » dans Google Search Console.

Redirection HTTP vers HTTPS

Si vous venez de passer votre site de HTTP en HTTPS, n’oubliez pas qu’il faut rediriger toutes les anciennes URL (en HTTP) vers les nouvelles (en HTTPS). Pour cela, ajoutez dans le .htaccess :

# Redirection vers HTTPS
RewriteEngine On
RewriteCond %{HTTPS} off
RewriteRule (.*) https://%{HTTP_HOST}%{REQUEST_URI}