Spam in Google Analytics erkennen & entfernen

Immer wieder findet störender Spam einen Weg in die Berichte des Web-Analyse-Tools Google Analytics. Das ist nicht nur ärgerlich, sondern kann mitunter auch die Berichte nachhaltig verfälschen. Deshalb gilt es, den Spam möglichst aus den eigenen Daten zu verbannen. Welche Arten von Google-Analytics-Spam es gibt und wie Sie ihn aus ihren Berichten entfernen, erfahren Sie in diesem Artikel.

Schnelleinstieg:

Google Analytics bietet eine Vielzahl von Berichten, die Ihnen dabei helfen, das Verhalten Ihrer Visitors besser zu verstehen. Doch erscheinen dort nicht nur die Daten von echten Visitors, sondern auch absichtlich verteilte falsche Daten: Spam. Besonders gut sichtbar wird Spam in den Feldern für Keywords oder für Referrer im Akquisition-Bericht. Denn das ist es, was die Spammer wollen. Sichtbar werden. Um diejenigen, die die gespammten Werte lesen, dazu zu verführen, die angezeigten URLs aufzurufen oder nach den entsprechenden Begriffen zu suchen.

Arten von Spam und Maßnahmen gegen Spam

Nun stellt sich die weitere Frage, wie Spam in die Google-Analytics-Berichte kommt. Grundsätzlich kann dabei zwischen zwei Arten von Spam in Google Analytics unterschieden werden: Crawlern, die sozusagen „echte“ Visits auf dem eigenen Host simulieren oder nur durch Tracking-Code ausgelöstem Spam.

Vom eigenen Host

Spam-Crawler schleusen falsche Daten in Google-Analytics-Berichte, indem sie Seiten der Webseite wirklich aufrufen. Dabei senden sie gefälschte Informationen wie Verweis-Quellen oder Keywords.

Maßnahme: Crawler-Spam aus den Berichten von Google Analytics auszuschließen, kann unter Umständen aufwändiger sein. Grundsätzlich hilft es hier, eine gefilterte Datenansicht anzulegen. Aus dieser Datenansicht werden die Daten aller Visits ausgeschlossen, die über Keywords und Verweis-Quellen auf die eigene Webseite gelangen, die als Spam definiert werden. Aufwändiger ist es deshalb, weil zunächst herausgesucht werden muss, was überhaupt Spam ist und anschließend die entsprechenden Einträge gemacht werden. Um die Arbeit an dieser Stelle etwas zu vereinfachen, werden auf verschiedenen Webseiten vorgefertigte Listen mit Google-Analytics-Spam angeboten.

Durch den Tracking-Code

Einfacher von der Messung ausschließen lassen sich dagegen gefälschte Aufrufe, die direkt an das Google Measurement Protocol gesendet werden. Einem Spammer muss in diesem Falle nur die ID der Google Analytics Property bekannt sein. So kann der Spam ohne den Besuch eines Crawlers direkt verbreitet werden. IDs von Google Analytics Properties werden vermutlich in großem Stil durch zufällige Versuche gefunden, da die IDs stets nach demselben Muster gebildet werden. Dieses Spam-Vorgehen wird auch Ghost-Referrer genannt.

Maßnahme: Für den Ausschluss dieser Daten aus den eigenen Google-Analytics-Berichten kann man sich nun zunutze machen, dass es keinen wirklichen gecrawlten Aufruf der eigenen Webseite gibt. Jeder Aufruf der eigenen Webseite hat in der Regel im Feld Hostname den Wert der eigenen Domain. Im Falle von converlytics.com zum Beispiel also converlytics.com. Deshalb kann ein Filter der Datenansicht eingerichtet werden, der nur Aufrufe mit dem entsprechenden Hostnamen zulässt. Dieser deckt dann anders als bei Crawler-Spam auf einmal die ganze Bandbreite von verschiedenen Spammern ab.

Der folgende Screenshot zeigt, wie auf diesem Weg Spam ausgeschlossen werden kann.

hostname-ausschluss

Erkennen von Spam in den Berichten

Es stellt sich die Frage, wie Spam-Aufrufe in den Google-Analytics-Berichten zu erkennen sind. Das ist manchmal gar nicht so einfach. Hier gehören ein bisschen Erfahrung und ein waches Auge dazu. Einfacher ist es zunächst, Spam im Keyword-Bericht von Google Analytics zu entdecken. So sind doch vergleichsweise einfach Keywords zu erkennen, mit denen ein Visitor vermutlich nicht auf die eigene Webseite gekommen ist.

Analytics-Spam in Keyword-Berichten loswerden

Auf dem folgenden Screenshot ist ein Auszug aus den converlytics-Keyword-Berichten von Google Analytics zu sehen.

referrer-spam-01

So ist es für die Webseite der converlytics GmbH converlytics.com äußerst unwahrscheinlich, dass ein Visitor über das Keyword sharebutton.org share buttons kam. Genauso fällt das
Keyword www.social-button.xyz sofort auf.

Um Crawler-Spam im Feld Keyword aus den Google-Analytics-Berichten mithilfe eines Datenansicht-Filters auszuschließen, können Sie wie im folgenden Screenshot gezeigt vorgehen:

keywords-ausschluss

Analytics-Spam in Sprache-Berichten loswerden

Auch recht einfach ist es, Spam im Sprache-Bericht von Google Analytics aufzuspüren. Im Laufe des letzten Jahres fanden sich im Sprache-Bericht zum Beispiel Aufrufe dazu, Donald Trump zum Präsidenten zu wählen. Ein Beispiel für Sprache-Spam ist im folgenden Screenshot zu sehen.

sprach-spam-01

Um schließlich Crawler-Spam im Feld Sprache aus ihren Berichten auszuschließen, lässt sich ein Datenansicht-Filter wie folgt einrichten:

sprachfilter-google-analytics

Der reguläre Ausdruck erkennt, ob es sich um eine gängige Sprachekombination handelt und lässt nur Zugriffe zu, die folgendes Muster haben: BuchstabeBuchstabe-BuchstabeBuchstabe, BuchstabeBuchstabe, die nicht gesetzte Spracheinstellung „(not set)“ sowie das „c“.

Der reguläre Ausdruck zum kopieren:

^([a-z][a-z]-[a-z][a-z])$|^[a-z][a-z]$|^\(not set\)$|^c$

Die Suche nach auffälligen Keywords oder Sprachkonfigurationen sollte regelmäßig durchgeführt werden. Werden Spam-Keywords oder Spam-Spracheinträge in Google Analytics gefunden, sollten diese möglichst schnell aus den Berichten entfernt werden, damit sie die Zahlen nicht länger verfälschen.

Analytics-Spam in Referrer-Berichten loswerden

Etwas schwieriger ist es, Spam im Referrer-Bericht von Google Analytics aufzuspüren. Prinzipiell ist das Vorgehen aber dasselbe. Schwieriger ist es, weil oft nicht ohne weiteres unterscheidbar ist, ob eine Domain, die in den Referrrer-Berichten angezeigt wird, ein echter Referrer ist oder ein Spam.

Der folgende Screenshot zeigt einen Auszug aus den converlytics-Quelle-Berichten.

referrer-spam-02

Hier fallen unter anderem die Domains law-enforcement-ee.xyz, law-enforcement-ee.xyz und slow-website.xyz auf. Auch share-button.xyz ist hier wieder vertreten.

Um diesen Crawler-Spam im Feld Verweis-Quelle auszuschließen, können Sie Ihre Datenansicht wie im folgenden Screenshot gezeigt filtern:

kampagnenquellen-ausschluss

Der Filter kann durch weitere Domains ergänzt werden. Dazu wird das Pipe-Zeichen „|“ genutzt, das für den Ausdruck „ODER“ steht. SO wird die Anzahl der Filter möglichst gering gehalten. Auf GitHub ist eine Liste der möglichen Referrer-Spam Domains einsehbar. Aufgrund eienr Google Analytics-Beschränkung darf jeder Filter nur 255 Zeichen lang sein. Deshalb können auch hier reguläre Ausdrücke angewandt werden. Der folgende erkennt alle Anfragen mit folgendem Muster: irgendwas.spamdomainname.domainendung
(?:([^. ]+)\.)?(?:([^.]+)\.)?(hier Spam-Domain-Name hinzufügen)\.(com?|de|net|info)

Mögliche Ziele von Google-Analytics-Spammern

Im Wesentlichen verfolgen Spammer vermutlich das Ziel, möglichst viele Visitors auf die von ihnen betriebenen Webseiten zu locken. Dazu belegen sie, wie oben beschrieben, die Werte für Keyword oder Quelle in den Google-Analytics-Berichten mit Werten, die auf ihre URLs verweisen.

Spammer spekulieren also darauf, dass die User von Google Analytics, in deren Berichten solche Einträge erscheinen, die entsprechenden URLs aufrufen.

Mit dem so massenhaft generierten Traffic sind grundsätzlich zwei Szenarien denkbar: zum einen das Andrehen eines Produkts und zum anderen Affiliate-Betrug.

Unter den URLs können sich zum Beispiel Angebote befinden, die sich speziell an Webseiteneigentümerinnen oder -betreiberinnen richten. Wird ein solches Produkt gekauft, profitiert der Spammer von seinem Betrug.

Affiliate-Betrug dagegen findet dann statt, wenn die aufgrund eines Spam-Eintrags aufgerufene URL mit einem Affiliate-URL-Parameter weiterleitet und der Spammer auf diesem Weg eine Provision erhält.

Empfehlung: ungefilterte Datenansicht behalten

Werden zum Ausschluss von Spam aus Google-Analytics-Berichten gefilterte Datenansichten erstellt, empfiehlt es sich unbedingt, eine ungefilterte Datenansicht zu behalten. Alle herausgefilterten Daten sind nämlich dauerhaft verloren. Sollten also zum Beispiel fälschlicherweise bestimmte Daten herausgefiltert worden sein, lassen diese sich nur über eine ungefilterte Datenansicht rekonstruieren.

Wenn Sie weitere Fragen rund um Spam in Google Analytics haben, zögern Sie nicht, uns zu kontaktieren.