Im Blog-Beitrag Sampling in Google (Universal) Anlaytics wurde vor einer Weile die Funktionsweise des Google Analytics Sampling beschrieben. Zur Erinnerung: Von Sampling wird bei Google Analytics immer dann gesprochen, wenn nur eine Teilmenge der gesamten Datenmenge für die Analyse verarbeitet und hochgerechnet wird.

Probleme durch Google Analytics Sampling

In vielen Fällen führt das Sampling in den Analysen von Google Analytics zu keinen größeren Schwierigkeiten. Wenn die Datenmenge ausreichend groß ist und Kennzahlen keine zu geringen Werte aufweisen, sind die durch Sampling gewonnenen und anschließend hochgerechneten Daten mit sehr großer Wahrscheinlichkeit nahe an den tatsächlichen Daten. Um diesen Sachverhalt zu verdeutlichen, soll ein kleines Beispiel anhand der Conversion Rate gemacht werden. Das Beispiel ist etwas vereinfacht, da in Wahrheit nicht die Daten ganzer Tage vom Sampling betroffen sind, sondern die Stichprobe auf Visit-Basis erhoben wird. Das Prinzip ist jedoch vergleichbar.

Beispiel für unproblematisches Sampling

Nehmen wir an, Ihre Webseite zeigt Traffic mit etwas um 10.000 Visits täglich und es gibt dabei etwa 50 Bestellungen am Tag, dann könnten wir es mit einem Datensatz wie dem folgenden zu tun haben.

Google-Analytics-Sampling-kein-Problem

Das Sampling besteht nun aus 10% der Daten (rechts im Kasten zu sehen), das bedeutet, die Stichprobe enthält nun nur noch jeweils zehn Zahlen für Visits und Bestellungen.

Diese werden wieder auf alle Tage hochgerechnet, um für alle Tage Daten zu haben. Jeder Wert wiederholt sich also zehn Mal.

Aus diesen hochgerechneten Daten wird nun wiederum die Conversion Rate berechnet. Je weniger die einzelnen Datenpunkte schwanken (und das ist vor allem auch der Fall, wenn die absoluten Werte nicht zu klein sind) und je größer die Stichprobe ist, desto höher ist die Wahrscheinlichkeit, dass die hochgerechneten Daten den tatsächlichen Daten ziemlich gut entsprechen.

Beispiel für problematisches Sampling

Nun kann es aber auch Szenarien geben, in denen das Google Analytics Sampling zu Problemen in Ihren Analysen führen kann. Nehmen wir dazu an, der Traffic Ihrer Webseite bewegt sich um die 1.000 Visits am Tag und es werden etwa zwischen null und zehn Bestellungen täglich ausgeführt. Zusätzlich schwanken die einzelnen Werte noch etwas mehr als im ersten Beispiel.

Werden wie vorher beschrieben 10% der Daten als Stichprobe erhoben und wieder auf alle Tage hochgerechnet, so sehen wir, dass die berechnete Conversion Rate teilweise stark von der tatsächlichen abweicht. Im Durchschnitt erhalten wir durch die Hochrechnung eine durchscnittliche Conversion Rate, die mehr als doppelt so hoch ist, wie die tatsächliche Conversion Rate. Hier verursacht das Google Analytics Sampling also Probleme in der Analyse Ihrer Daten.

Google-Analytics-Sampling-Problem

Was können wir also machen, um uns auf solche Schwierigkeiten vorzubereiten? Zuallererst ist es sinnvoll, einen Blick auf die eigene Datensituation zu werfen: Besonders, wenn wir es mit wenigen Bestellungen, die vielleicht noch dazu sehr hohe Bestellwerte haben, zu tun haben, sollten wir uns bewusst sein, dass Sampling die einzelnen Kennzahlen stark verzerren kann. Gibt es die Möglichkeit, auf eine höhere Sampling Rate zu wechseln (siehe hier), sollten wir davon Gebrauch machen. Auch kann es unter Umständen sinnvoll sein, die Methode der Datenerhebung anzupassen. Zum Beispiel könnten andere Conversion-Punkte gewählt werden, die höhere Werte erwarten lassen.

Wollen Sie Ihre Analysen grundsätzlich ohne Sampling durchführen, besteht die Möglichkeit, auf ein Premium-Tool (Google Analytics Premium, Webtrekk, …) auszuweichen, das auch eine Rohdatenanalyse erlaubt.

Das sollten Sie dazu auch lesen