Sélectionner une page

Spam dans Google Analytics : Le guide pour s’en débarrasser définitivement

par | Mis à jour le 28/02/2018 | Publié le 10/04/2017 | Tutoriel

La désaffection d’un compte Google Analytics s’explique, souvent, par le manque de confiance porté par le(s) propriétaire(s) du compte envers les données remontées par l’outil. Ce ressentiment peut facilement vous gagner si, au moment où vous souhaitez aller plus loin dans l’analyse de votre audience, vous vous rendez compte que vos rapports sont largement pollués par des spams.

Rassurez-vous, ce problème a été rencontré par l’ensemble des administrateurs de compte Google Analytics. Pire, les spams ne cessent d’être de plus en plus intrusifs.

Cantonnés, il y a quelques années, au rapport de sites référents, vous pouvez désormais les remarquer lors de l’étude de vos pages, de vos événements ou encore lors de l’analyse des langues des navigateurs de vos visiteurs…

Spam language Google Analytics

Le vitaly rules google ? Une langue parlée par les spams fantômes

Heureusement, des solutions accessiblent à tous, existent. Je vais d’ailleurs vous donner, étape par étape, la procédure à suivre afin de libérer vos rapports de ces données bidons.

1) Appliquer un filtre

Vous l’aurez deviné, la purification de vos données passe par l’établissement de filtres censés discriminer toute visite n’étant pas réalisée par un humain. Avant de commencer, rappellons que chaque propriété GA devrait, au minima, disposer de 3 vues distinctes :

  • Une vue sans filtre.

  • Une vue pour effectuer vos test, servant d’environnement de pré-production Analytics.

  • Une vue pour effectuer vos analyses. Celle-ci doit donc refléter le mieux possible le comportement de vos visiteurs.

Si vous n’avez qu’une seule vue, créez-en impérativement une seconde ( Administration => Vue => Créer une vue ). Si c’est déjà le cas, alors sélectionnez celle destinée à l’analyse.

2) Filtrer les robots déjà connus de Google Analytics

Dans ce jeu du chat et de la souris que mène Google face aux éditeurs de spams, le géant états-unien a livré début 2016, une nouvelle, modeste, avancée. Il est désormais possible d’exclure une partie des robots connus en cochant une simple case dans les propriétés de la vue.

Exclure appel robots Google Analytics

Il serait dommage de s’en priver, mais sachez que cette précaution est loin de bloquer l’accès à l’ensemble des spams. Il faut donc rendre plus robuste notre système de filtres.

3) Raisonner en terme d’inclusion, et non plus d’exclusion

Après avoir essayé plusieurs techniques et utilisé différents outils, (comme celui développé par nos confrères néerlandais de Stijlbreuk) pour se débarrasser, une fois pour toute, de ce problème récurrent, je me suis résolu à changer de paradigme. Au lieu d’exclure au sein du filtre l’ensemble des spams recensés sur la Toile, il est plus efficace d’inclure seulement les noms d’hôtes ( hostname ) liés à votre site.

En effet, les spams fantômes ne visitent pas votre site. Ils se servent simplement du protocole de mesure ( et donc de votre code de suivi ) pour atteindre votre GA. Ils n’ont donc pas la capacité de renseigner votre nom d’hôte.

Du coup ces derniers apparaissent au sein de vos rapports en tant que « not set » ou sous des noms d’hôtes étrangers à votre nom de domaine. On retrouve ainsi souvent « foxnews.com », « lifehacker.com » etc…

Google Analytics se débarrasser des spams

Détail des avantages de la méthode d’inclusion de nom d’hôtes comparés à celle de l’exclusion de spams ©Carlos Escalera

4) Déterminer l’ensemble des noms d’hôtes valides afin d’exclure définitivement les ghost spams

Dans leurs immenses majorités, vos sessions enregistrées par de réels visiteurs devraient avoir pour nom d’hôte votre nom de domaine. Toutefois pour s’assurer de n’oublier aucune donnée méritant d’être collectée, il est recommandé d’étudier son rapport Nom d’hôte afin d’établir la liste de ceux étant en capacité d’accueillir du trafic réel.

Assurez-vous, pour commencer, de bien baser cette recherche sur une période de temps assez étendue (supérieure à 30 jours) en utilisant le calendrier se trouvant en haut à droite de votre écran.

Empruntez ensuite le chemin suivant : Audience > Technologie > Réseau puis cliquez sur Nom d’hôte en tant que Dimension Principale.

Relevez tous les noms d’hôtes du rapport où figurent votre code de suivi Analytics. Ne vous laissez pas impressionner par des noms de sites connus, vous n’êtes pas censé avoir des pages hébergées dessus comportant votre code de suivi… Il peut néanmoins exister quelques exceptions. Parmi elles :

  • translate.googleusercontent.com pour la traduction Google.
  • webcache.googleusercontent.com pour l’affichage de la version en cache.
    • googleweblight.com qui est un outil de simulation de mobile proposé par Google. Pour l’URL votresite.com/mapage.html vous pourriez trouver votresite.com.googleweblight.com/mapage.html
  • Si vous avez votre code de suivi sur un site tiers de paiement ou équivalent, il faut aussi l’inclure dans votre liste de noms d’hôtes.
  • 5) Création du filtre Hostname

    Une fois que vous avez votre liste de nom d’hôte valide, vous allez pouvoir les assembler sous forme d’expression régulière ( si toutefois cette expression peu compter moins de 256 caractères. Dans le cas contraire, il faudra en créer plusieurs ).

    Pour créer le filtre souhaité, retournez dans l’onglet > Administration, sélectionnez votre vue vouée à vos analyses, cliquez sur >Filtres, nommez le « Nom d’hôte valide », cliquez sur type >Personnalisé, choisissez >Inclure puis >Nom d’hôte sous champ de filtrage. Et enfin insérez l’expression régulière correspondant à votre liste de nom d’hôte pour Règle de filtrage.

    Supposons que votre site soit votresite.com et que vous désiriez intégrer les noms d’hôtes issus de la traduction Google ainsi que celui de votre gestionnaire de paiement, hébergé sur shopify.com. Dans ce cas, l’expression régulière à indiquer est la suivante : votresite\.com|translate\.googleusercontent\.com|shopify\.com

    Il est recommandé de tester votre expression régulière, avant d’ensuite l’enregistrer.

     

    Filtre Inclure nom d'hôte valide

    À ce stade vous vous êtes libérés de la grande majorité des spams qui polluaient vos données. Cependant, un certain nombre de spams, ( Spam Crawlers ) visitent réellement votre site et laissent donc trace d’un nom d’hôte valide. Ils passent donc à travers les mailles du filet que nous venons de tendre. C’est pourquoi, pour perfectionner notre système, je vais à présent appliquer des filtres d’exclusions.

    Pour information, sachez que ceux-ci se basent sur les travaux, de Carlos Escalera, auteur du site Carloseo et, sans nul doute, l’un des experts les plus informés sur le sujet.

    6) Création du filtre Source de Campagne pour exclure les Spam Crawlers

    Pour stopper les derniers spams susceptibles de corrompre votre rapport sites référents, suivez les étapes suivantes :

        • Accédez à l’onglet Admin.
        • Sous l’onglet Vue, sélectionnez Filtres, puis cliquez sur «+ Ajouter un filtre»
        • Donnez lui un nom, ici «Crawler Spam»
        • Type de filtre > Personnalisé> Exclure
        • Champ de filtrage> Source de campagne

         

        • Entrez alors l’expression régulière suivante, contenant la 1ère partie de la liste des spams recensés par l’équipe de Ohow.co puis sauvegardez :

        uptime(robot|bot|check|\-alpha|\.com)|vitaly|sharebutton|semalt|ranksonic|share\-button|anticrawler|timer4web|free\-video\-tool|responsive\-test|dogsrun|fix\-website\-er|dailyrank|sitevaluation|seo\-2\-0\.|99seo|top10\-way

        • Le nombre de caractère de l’expression régulière étant limité à 225 caractères, vous devez répéter les étapes de la création de ce filtre à 3 reprises, afin d’exclure l’ensemble des spams référents ( pensez au passage à nommer ces 3 filtres jumeaux de façon différentes).
        • L’expression régulière de la liste de Spam référent n° 2 est :

        (videos|buttons)\-for\-your|best\-seo\-(solution|offer)|buttons\-for\-website|profit\.xyz|dbutton|keywords\-monitoring|platezhka|7makemoney|forum69|kings\-analytics|checkpagerank|pr\-cy\.ru|\-\-(production|website|sale)\.com

        • L’expression régulière de la liste de Spam référent n° 3 est :

        oldfaithfultaxi|christopherlane|hollywoodweeklymagazine|losangeles\-ads|anniemation|timdreby|pcimforum|yellowstonesafaritours|autoseo|blogarama|for\-placing|brainwizard|casinos4|ḷ\.com

        • Enfin, la n° 4 est :

        (express|audit|dollars|success|top1|amazon|commerce)\-seo|free\-video\-tool|datract|hacĸer|ɢoogl|slifty\.github|\-liar.ru|3\-letter\-|foxweber|free\-fbook|goodwriterssales|your\-rankings|tourcroatia|spinnerco|justkillingti|suralink|worldtraveler\.w

        7) Création du filtre Titre de la page pour exclure les combo de Ghost et Crawler Spam

        Depuis Février 2017, certains propriétaires de compte ont, malgré ces précautions, constaté l’apparition de nouveaux spams ( avec par exemple la présence injustifiée du site motherboard.vice.com au sein de leurs rapports ). Voici la démarche à suivre pour les faire disparaître, ou les empêcher d’apparaître :

        1. Accédez à l’onglet Admin.
        2. Sous l’onglet Vue, sélectionnez Filtres, puis cliquez sur «+ Ajouter un filtre»
        3. Donnez lui un nom
        4. Type de filtre > Personnalisé >Exclure
        5. Champ de filtrage >Titre de la Page
        6. Entrez l’expression ci-dessous et sauvegardez :
        7. google-liar|whitehouse\.gov|life\.ru|vice\.com|vc\.ru|rencer\.ru|blackhatworld

        Félicitations à vous si vous êtes arrivé au bout de cet article !

        Vous disposez, à présent, des ressources nécessaires pour ne plus voir la qualité de vos analyses effectuées sur Google Analytics, être altérée par la présence de données bidonnées.

        Si vous avez rencontré un problème, n’hésitez pas à me l’indiquer en commentaire, je ferai au mieux pour vous y répondre.

      Réseaux Sociaux

      Voir les tutos vidéos

      copywriitng La Strat

      Apprenez à transformer vos visiteurs en clients

      Recevez de lundi à dimanche prochain, 1 email par jour pour vous aider à rendre votre contenu plus persuasif.

      Félicitations ! Vous recevrez votre 1er email lundi !

      Téléchargez la Checklist des configurations à mettre en place sur un compte GA

      Checklist La Strat Google Analytics

      Bonne analyse !

      Share This