Spam dans Google Analytics : Le guide pour s’en débarrasser définitivement
La désaffection d’un compte Google Analytics s’explique, souvent, par le manque de confiance porté par le(s) propriétaire(s) du compte envers les données remontées par l’outil. Ce ressentiment peut facilement vous gagner si, au moment où vous souhaitez aller plus loin dans l’analyse de votre audience, vous vous rendez compte que vos rapports sont largement pollués par des spams.
Rassurez-vous, ce problème a été rencontré par l’ensemble des administrateurs de compte Google Analytics. Pire, les spams ne cessent d’être de plus en plus intrusifs.
Cantonnés, il y a quelques années, au rapport de sites référents, vous pouvez désormais les remarquer lors de l’étude de vos pages, de vos événements ou encore lors de l’analyse des langues des navigateurs de vos visiteurs…
Le vitaly rules google ? Une langue parlée par les spams fantômes
Heureusement, des solutions accessibles à tous, existent. Je vais d’ailleurs vous donner, étape par étape, la procédure à suivre afin de libérer vos rapports de ces données erronées.
1) Appliquer un filtre
Vous l’avez peut être déjà deviné, l’idée est donc de purifier vos données en établissant des filtres censés discriminer toute visite n’étant pas réalisée par un humain. Avant de commencer, rappelons que chaque propriété GA devrait, au minima, disposer de 3 vues distinctes :
- Une vue sans filtre.
- Une vue pour effectuer vos test, servant d’environnement de pré-production Analytics.
- Une vue pour effectuer vos analyses. Celle-ci doit donc refléter le mieux possible le comportement de vos visiteurs.
Si vous n’avez qu’une seule vue, créez-en impérativement une seconde ( Administration => Vue => Créer une vue ). Si c’est déjà le cas, alors sélectionnez celle destinée à l’analyse.
2) Filtrer les robots déjà connus de Google Analytics
Dans ce jeu du chat et de la souris que mène Google face aux éditeurs de spams, le géant états-unien a livré début 2016, une nouvelle, modeste, avancée. Il est désormais possible d’exclure une partie des robots connus en cochant une simple case dans les propriétés de la vue.
Il serait dommage de s’en priver, mais sachez que cette précaution est loin de bloquer l’accès à l’ensemble des spams. Il faut donc rendre plus robuste notre système de filtres.
3) Raisonner en terme d’inclusion, et non plus d’exclusion
Après avoir essayé plusieurs techniques et utilisé différents outils, (comme celui développé par l’équipe néerlandaise de Stijlbreuk) pour me débarrasser, une fois pour toute, de ce problème récurrent, je me suis résolu à changer de paradigme.
Au lieu d’exclure au sein du filtre l’ensemble des spams recensés sur la Toile, il est plus efficace d’inclure seulement les noms d’hôtes (hostname) liés au site en question.
En effet, les spams fantômes ne visitent pas votre site. Ils se servent simplement du protocole de mesure (et donc de votre code de suivi ) pour atterrir dans votre GA. Ils n’ont donc pas la capacité de renseigner votre nom d’hôte.
Du coup ces derniers apparaissent au sein de vos rapports en tant que « not set » ou sous des noms d’hôtes étrangers à votre nom de domaine. On retrouve ainsi souvent « foxnews.com », « lifehacker.com » etc…
Détail des avantages de la méthode d’inclusion de nom d’hôtes comparés à celle de l’exclusion de spams ©Carlos Escalera
4) Déterminer l’ensemble des noms d’hôtes valides afin d’exclure définitivement les ghost spams
Dans leurs immenses majorités, vos sessions enregistrées par de réels visiteurs devraient avoir pour nom d’hôte votre nom de domaine. Toutefois pour s’assurer de n’oublier aucune donnée méritant d’être collectée, il est recommandé d’étudier son rapport Nom d’hôte afin d’établir la liste de ceux étant en capacité d’accueillir du trafic réel.
Assurez-vous, pour commencer, de bien baser cette recherche sur une période de temps assez étendue (supérieure à 30 jours) en utilisant le calendrier se trouvant en haut à droite de votre écran.
Empruntez ensuite le chemin suivant : Audience > Technologie > Réseau puis cliquez sur Nom d’hôte en tant que Dimension Principale.
Relevez tous les noms d’hôtes du rapport où figurent votre code de suivi Analytics. Ne vous laissez pas impressionner par des noms de sites connus, vous n’êtes pas censé avoir des pages hébergées dessus comportant votre code de suivi… Il peut néanmoins exister quelques exceptions. Parmi elles :
translate.googleusercontent.com
pour la traduction Google.webcache.googleusercontent.com
pour l’affichage de la version en cache.googleweblight.com
qui est un outil de simulation de mobile proposé par Google. Pour l’URLvotresite.com/mapage.html
vous pourriez trouvervotresite.com.googleweblight.com/mapage.html.
Si vous avez votre code de suivi sur un site tiers de paiement ou équivalent, il faut aussi l’inclure dans votre liste de noms d’hôtes.
5) Création du filtre Hostname
Une fois que vous avez votre liste de nom d’hôte valide, vous allez pouvoir les assembler sous forme d’expression régulière (si toutefois cette expression peu compter moins de 256 caractères. Dans le cas contraire, il faudra en créer plusieurs).
Pour créer le filtre souhaité, retournez dans l’onglet > Administration, sélectionnez votre vue vouée à vos analyses, cliquez sur >Filtres, nommez le « Nom d’hôte valide », cliquez sur type > Personnalisé, choisissez > Inclure puis > Nom d’hôte sous champ de filtrage. Et enfin insérez l’expression régulière correspondant à votre liste de nom d’hôte pour Règle de filtrage.
Supposons que votre site soit votresite.com et que vous désiriez intégrer les noms d’hôtes issus de la traduction Google ainsi que celui de votre gestionnaire de paiement, hébergé sur shopify.com. Dans ce cas, l’expression régulière à indiquer est la suivante : votresite\.com|translate\.googleusercontent\.com|shopify\.com
Il est recommandé de tester votre expression régulière, avant d’ensuite l’enregistrer.
À ce stade vous vous êtes libéré de la grande majorité des spams qui polluaient vos données. Cependant, un certain nombre de spams, (Spam Crawlers) visitent réellement votre site et laissent donc trace d’un nom d’hôte valide. Ils passent donc à travers les mailles du filet que nous venons de tendre.
C’est pourquoi, pour perfectionner notre système, je vais à présent appliquer des filtres d’exclusions.
Pour information, sachez que ceux-ci se basent sur les travaux, de Carlos Escalera, auteur du site Carloseo et, sans nul doute, l’un des experts les plus informés sur le sujet.
6) Création du filtre Source de Campagne pour exclure les Spam Crawlers
Pour stopper les derniers spams susceptibles de corrompre votre rapport sites référents, suivez les étapes suivantes :
- Accédez à l’onglet Admin.
- Sous l’onglet Vue, sélectionnez Filtres, puis cliquez sur «+ Ajouter un filtre»
- Donnez lui un nom, ici «Crawler Spam»
- Type de filtre > Personnalisé> Exclure
- Champ de filtrage> Source de campagne
- Entrez alors l’expression régulière suivante, contenant la 1ère partie de la liste des spams recensés par l’équipe de Ohow.co puis sauvegardez :
uptime(robot|bot|check|\alpha|\.com)|vitaly|sharebutton|semalt|ranksonic|share\-button|anticrawler|timer4web|free\-video\-tool|responsive\-test|dogsrun|fix\-website\-er|dailyrank|sitevaluation|seo\-2\-0\.|99seo|top10\-way
- Le nombre de caractère de l’expression régulière étant limité à 225 caractères, vous devez répéter les étapes de la création de ce filtre à 3 reprises, afin d’exclure l’ensemble des spams référents (pensez au passage à nommer ces 3 filtres jumeaux de façon différentes).
- L’expression régulière de la liste de Spam référent n° 2 est :
(videos|buttons)\-for\-your|best\-seo\-(solution|offer)|buttons\-for\-website|profit\.xyz|dbutton|keywords\-monitoring|platezhka|7makemoney|forum69|kings\-analytics|checkpagerank|pr\-cy\.ru|\-\-(production|website|sale)\.com
- L’expression régulière de la liste de Spam référent n° 3 est :
oldfaithfultaxi|christopherlane|hollywoodweeklymagazine|losangeles\-ads|anniemation|timdreby|pcimforum|yellowstonesafaritours|autoseo|blogarama|for\-placing|brainwizard|casinos4|ḷ\.com
- Enfin, la n° 4 est :
(express|audit|dollars|success|top1|amazon|commerce)\-seo|free\-video\-tool|datract|hacĸer|ɢoogl|slifty\.github|\-liar.ru|3\-letter\-|foxweber|free\-fbook|goodwriterssales|your\-rankings|tourcroatia|spinnerco|justkillingti|suralink|worldtraveler\.
7) Création du filtre Titre de la page pour exclure les combo de Ghost et Crawler Spam
Depuis Février 2017, certains propriétaires de compte ont, malgré ces précautions, constaté l’apparition de nouveaux spams (avec par exemple la présence injustifiée du site motherboard.vice.com au sein de leurs rapports). Voici la démarche à suivre pour les faire disparaître, ou les empêcher d’apparaître :
- Accédez à l’onglet Admin.
- Sous l’onglet Vue, sélectionnez Filtres, puis cliquez sur «+ Ajouter un filtre»
- Donnez lui un nom
- Type de filtre > Personnalisé >Exclure
- Champ de filtrage >Titre de la Page
- Entrez l’expression ci-dessous et sauvegardez :
-
google-liar|whitehouse\.gov|life\.ru|vice\.com|vc\.ru|rencer\.ru|blackhatworld
Félicitations à vous si vous êtes arrivé au bout de cet article !
Vous disposez, à présent, des ressources nécessaires pour ne plus voir la qualité de vos analyses effectuées sur Google Analytics, être altérée par la présence de données bidonnées.
Si vous avez rencontré un problème, n’hésitez pas à me l’indiquer en commentaire, je ferai au mieux pour vous y répondre.