Comment bloquer le Referer spam dans Google Analytics

Mis à jour le 17 septembre, 2020

Savez-vous ce qui me fait réellement grincer des dents? Ouvrir un rapport dans Google Analytics et avoir à l’écran un pourriel de sites référants (referrals spam). À cet effet, je vais vous expliquer quoi faire avec des pourriels de référence et vous dire pourquoi ils sont dangereux.
Cliquez ici pour obtenir directement les solutions...

Au cours de la dernière année, j’ai observé un nombre inquiétant de pourriels de sites référants qui se faufilent à l’ouverture de mes rapports Google Analytics. Le pourriel de référant est une technique qui consiste à envoyer des requêtes bidon vers un site ou produit à promouvoir, laquelle peut sembler inoffensive mais qui risque de devenir à court terme un sérieux problème. Il s'agit ici d'une technique de référencement abussif qui risque de faire d'énormes dégats

Types de référant spammeur

En ce qui a trait à Google Analytics, le pourriel de référant prend deux formes : robot d’indexation et pourriel de trafic référant fantôme.

Le robot d’indexation est un logiciel qui explore les sites Web afin de permettre à un moteur de recherche de les indexer. La plupart des robots d’indexation s’identifient comme tels à des serveurs et sont gardés à l’écart des rapports d’analyse.

Cependant, certains robots d’indexation comme ceux de darodar (YARK!) ne s’identifient pas comme robots et, par conséquent, s’affichent lors de traitement de rapports d’analyse avec un taux de rebond de 100 % et une durée de 0 secondes. Google a récemment lancé une fonction pour filtrer les robots connus, laquelle est toutefois loin d’être parfaite (j’y reviendrai plus tard).

Le pourriel de trafic fantôme, le pire des deux maux, n’explore jamais un site Web. Les polluposteurs tirent avantage du fait que Google Analytics transfère désormais l’information au moyen de demandes HTTP effectuées directement aux serveurs de Google Analytics, facilitant l’accès à une session en simulant leur adresse. Ce type de pourriel peut être créé par un simple programme qui simule des demandes HTTP visant diverses propriétés de Google sans atteindre votre site. Ce qui est encore plus embêtant est que ce pourriel peut être utilisé pour simuler des résultats de recherche organiques. Voir la prise d’écran ci-après à titre d’exemple:

 

Note : Pour le pourriel de trafic fantôme, modifier .htaccess n’aidera pas du tout puisque ces polluposteurs ne visitent jamais votre site – pour plus d’information, consultez les Mesures conformes à la documentation de référence de Google.

Conséquences négatives

 “Un référant est tout simplement une information transmise à un serveur HTTP lorsqu'un visiteur navigue d’une page à l’autre, laquelle indique où est situé le visiteur. Les utilisateurs peuvent le modifier et certains individus peuvent placer un référant sur des pages qu’ils veulent promouvoir et visiter des milliers de personnes sur le web. Les internautes le voient et se disent « ça me tente d’en savoir plus ». Il ne s’agit pas nécessairement d’un lien… Certaines personnes essaient de stimuler le trafic en visitant une panoplie de sites Web à l’aide d’un script automatisé et en configurant le référant comme l’adresse URL qu’ils veulent promouvoir… il n’y a aucune authentification.  Vous n’assumez pas automatiquement qu’il s’agit du propriétaire de l’URL si vous voyez de quoi apparaître sur votre tableau de bord. Quelqu’un essaie de faire du trouble.”

- Matt Cutts, Ancienc chef de l’équipe Google Webspam

Alors pourquoi est-ce que les pourriels de référant sont si dangereux ? Premièrement, ils portent atteinte à mes données analytiques en ligne. L’intrusion en ligne au moyen de pourriels de référant biaisent les données, affectent la précision des paramètres d’engagement et augmentent les données sur le trafic.

Par conséquent, ceux qui n’ont pas conscience de ces pourriels peuvent baser leurs décisions en fonction de données inexactes, surtout en ce qui a trait à des sites avec peu de trafic.

De plus, les référants spammeurs rendent l’optimisation des moteurs de recherche plus difficile pour tout le monde. Un des objectifs des sites référants Spam est d’avoir des liens de sites qui publient leurs journaux d’accès.  

Certains sites web publient des données analytiques au public, ce qui peut inclure des hyperliens donnant accès à l’adresse URL désignée du polluposteur. Ces liens retours peuvent améliorer les résultats du moteur recherche pour cette adresse URL puisque plusieurs sites web publiant des données sur le référant sont présumées fiables.

On fait face également à davantage de fins moins nobles associées à des pourriels de référant. Si un polluposteur veut envoyer un site non désiré et un trafic non admissible, il suffit de changer le nom de l’URL du référant à l’URL de la victime.

Tel que susmentionné par Matt Cutts, le référant spammeur ne peut être réellement authentifié et retracé à une source spécifique. En étant conscient de ce fait, le référant spammeur peut être utilisé pour porter atteinte à une réputation, et possiblement désigner le site web inoffensif comme pourriel de référant.

L’exposition à des logiciels malveillants constitue un autre risque à quiconque s’aventure à visiter l’adresse du site référant spammeur. Avec l’essor du vol de données électroniques, il serait plus simple pour les réseaux de pourriels de référant de se fier aux URL contenant des logiciels malveillants qui visent à voler des informations importantes.

En bout de compte, personne ne veut faire l’objet d’une publicité en regardant les rapports  d’acquisition.

Solutions

À partir de Google Analytics, il y a plusieurs options pour supprimer les courriels de référant :

Exclure les noms de domaines étranges et filtrer les robots de spam

L’un des attributs de plusieurs pourriels de trafic fantôme est l’attribution inexacte du nom de domaine. En passant en revue les données référantielles dans Google Analytics, le nom de domaine sera aucunement associé à votre site web (p.ex. : apple.com).

En sachant ceci, il devient assez simple de créer un filtre pour n’inclure que les données avec un nom de domaine approprié. Pour les utilisateurs de Google Analytics utilisant seulement un ou quelques domaines, cette solution est probablement la plus simple (cliquez ici pour une rapide mise à jour sur les expressions régulières dans Google Analytics):

Dans la plupart des cas, il suffit de remplacer le nom de votre domaine de premier niveau (p. exemple.com). Si vous avez plusieurs domaines, vérifiez vos expressions régulières avec Regex Pal.

Ce premier filtre supprimera tout pourriel de trafic fantôme. Cependant, il sera nécessaire d’ajouter un autre filtre pour supprimer les robots malveillants (comme darodar) puisqu’ils visitent le site et signaleront un nom d’hôte approprié. À titre d’exemple de filtre pour supprimer les deux robots les plus usités, voir le tableau ci-après.


Expression utilisée:

.*(darodar|buttons\-for\-website)\.com.*
Note : Vous devez toujours conserver l’écran sans filtre, puisque qu’une fois traitées par les filtres GA, les données ne peuvent revenir à leur état initial.

Filtrer toutes les sources des référants spams

Dans les cas où les domaines, dont l’affichage est mesuré, peuvent facilement changer, le blocage des pourriels de référant peut nécessiter un filtre de référant plus détaillé afin de pouvoir traiter tous les sites référants fautifs. Au cours des derniers mois, j’ai créé une liste de sites fautifs et réglé les filtres en conséquence, tel qu’illustré ci-après. Petite mise en garde : bien que cette liste cible bon nombre de sources de pourriels de référant, elle est loin d’être complète.


Expression réguliére:

.*((darodar|priceg|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|bestwebsitesawards|o\-o\-6\-o\-o|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*

Segments avancés pour les données historiques

Puisque les filtres ne peuvent traiter que des données actuelles, je vous conseille d’utiliser des segments avancés pour passer en revue les données sauvegardées avant l’implantation des filtres. Tout comme les solutions susmentionnées, c’est à vous de décider laquelle approche est la plus appropriée pour votre site. Utilisez des expressions régulières pour supprimer des sessions des pourriels de référant, tel qu’illustré ci-après :


Expressions régulière :

.*((darodar|priceg|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|bestwebsitesawards|o\-o\-6\-o\-o|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*
Note : Les segments avancés peuvent être appliqués rétroactivement aux données historiques, alors que les filtres ne peuvent que traiter des données actuelles. Si vous n’êtes pas familier avec les segments et les filtres, ci-après se trouve un court sommaire comparatif des deux approches.

Filtrage de bot à partir de Afficher les paramètres de la vue (View Settings)

En juillet 2014, Google a mis en application le filtrage de bots et d’araignées afin de permettre aux utilisateurs d’obtenir des données plus exactes. À partir de l’interface administration, vous pouvez sélectionner cette option, tel qu’illustré ci-après. Cette opération exclut toute session dont le nom apparaît sur la IAB known bots and spiders list (sans aucun frais supplémentaire).

En théorie, il s’agit d’une excellente nouvelle! Cependant, cette fonction est nouvelle et nous observons toujours des pourriels de référant qui réussissent à contourner le filtrage de bots et d’araignées. Ceci étant dit, vous ne risquez rien de cocher la case surtout si Google décide d’y ajouter plus de fonctions.


Pour ceux qui sont familiers avec Google Tag Manager, je vous recommande vivement de lire l’article de Sayf Sharif Eliminating Dumb Ghost Referral Traffic in Google Analytics.
 

Ajouter les sites spammeur dans la Liste d'exclusion de sites référents

Le fait d'utiliser des filtres ne réglera pas le problème à 100 % et risque de rendre les visites des sites malveillants comme étant des visites directes. Pour se débarasser une fois pour toute des référents indésirables dans vos statistisques, il faut les ajouter à " la liste d'eclusion de sites réfrents" sous " informations de suivi" à partir de la section Admin. Voici une vidéo pour vous montrer comment faire:

Liste de sites malveillants

La liste actuelle de sites malveillants inclut :

  • .com
  • buttons-for-website
  • darodar
  • priceg
  • makemoneyonline
  • blackhatworth
  • hulfingtonpost
  • bestwebsitesawards
  • o-o-6-o-o
  • ilovevitaly
  • simple-share-buttons
  • social-buttons
  • .co
  • econom
  • ilovevitaly
  • .ru
  • ilovevitaly
  • .org
  • humanorightswatch
  • 4webmasters
  • best-seo-offer.com
  • siteevaluation.org

 

Il ne s’agit pas d’une solution à long terme

Malheureusement, à l’heure actuelle, les solutions susmentionnées ne sont efficaces qu’à court terme. Alors que les polluposteurs trouvent des moyens novateurs et plus sophistiqués pour trafiquer des pourriels, les utilisateurs de produits comme Google Analytics sont davantage susceptibles d’en subir les conséquences. Google et d’autres fournisseurs de sites analytiques en ligne travailleront à créer de nouveaux mécanismes pour lutter contre les référants spammeurs, du moins espérons-le. Cependant, avec des changements importants au système actuel, l’univers des Web Analytics risque d’avoir des mauvaises surprises.



Liste de backlinks qui nuisent à votre SEO - À désavouer!

Grâce au travail que j'ai effectué pour un certain nombre de clients, j'ai souvent été confronté aux attaques SEO négatives. Ce que j’ai pu constater, c’est qu’il s’agit fort probablement de l’œuvre d’une entité malveillante qui a différentes motivations pour le faire. Il est possible que l’un de v … Continuer

Mis à jour le 11 décembre, 2019

2 Commentaires

50 astuces pour optimiser votre SEO

Il arrive que certains articles se propagent à travers le globe du jour au lendemain, de même qu’ils attirent l’attention des médias locaux et nationaux, mais la question que l’on se pose le plus souvent est « Comment ces éditeurs d’articles  optimise leur SEO ? » Je pense que la plupart des gens q … Continuer

Mis à jour le 15 janvier, 2015

0 Commentaires