morefire
MENÜ

Endlich Sampling in Google Analytics verstehen – Tu das nicht!

Du arbeitest mit der kostenlosen Version von Google Analytics (Google Analytics Standard)? Du betreibst eine Website, die ziemlich viel Traffic generiert? Du arbeitest gerne mit Google-Analytics-Segmenten und Filtern oder das Tracking wurde ineffizient aufgestellt? 

Dann ist die Wahrscheinlichkeit hoch, dass Du oft nur mit geschätzten Zahlen basierend auf einem (kleinen) Teil von tatsächlichen Daten arbeiten musstest.

Was das bedeutet? Das erfährst Du in diesem Artikel.

Dieser Artikel sollte für Dich besonders hilfreich sein, wenn Du Webanalyst:in bist und viel mit Google Analytics arbeitest. Aber auch als Nicht-Webanalyst:in entdeckst Du hier einiges Nützliches.

Sampling in Google Analytics

Du kennst das bestimmt: Seit mehreren Jahren machst Du einen guten Job. Plötzlich bekommst Du eine Anfrage von eine/m Kolleg:in oder einer/m Kund:in und stellst fest, dass Du etwas betriebsblind für gewisse Details geworden bist.

So ist es mir Ende letzten Jahres passiert. Ich erhielt eine E-Mail, die mich mich inspiriert hat diesen Artikel zu schreiben.

Zusammengefasst lautete die Nachricht: “Ich sehe in Google Analytics, im selben Reporting, bei identischen Filtereinstellungen, sehr unterschiedliche Daten je nachdem, wie ich den Zeitraum definiere. Was ist der Grund dafür?” 


Für ein besseres Verständnis die graphische Darstellung des Problems ↓

Darstellung von Sampling in GA


Die einfachste Antwort auf die Frage lautet: “Sampling” auf Deutsch “Stichprobenerhebung”.

Um diese Frage ausführlicher zu beantworten, habe ich mich entschieden einen Blogartikel zu schreiben.

Denn das Sampling könnte Deine Marketing-Entscheidungen erheblich beeinflussen und zwar negativ. 

Was ist Sampling (Stichprobenerhebung)?

Mit Stichprobe ist eine Teilmenge einer Grundgesamtheit gemeint und besonders in der Statistik wird viel damit gearbeitet. Ist die Grundgesamtheit so groß, dass sie nicht komplett in eine Untersuchung einbezogen werden kann (wie zum Beispiel die Bevölkerung Deutschlands), wird versucht Stichproben zu erheben und die Ergebnisse der Erhebung auf die Grundgesamtheit zu übertragen.

Auch im Google-Analytics-Kontext funktioniert das Sampling fast genau so, jedoch wird es nur in bestimmten Fällen und Reportings angewendet. Ein bisschen anders als bei der “normalen” Stichprobenerhebung, wird hier die Größe der Stichprobe proportional zur täglichen Verteilung der Sitzungen für die Property im ausgewählten Zeitraum definiert und kann auch von ein paar Faktoren beeinflusst werden, die unten erläutert werden.

Proportionaler Anteil der Stichproben an den Sitzung

Warum Sampling?

Laut Google, damit wir schnell genaue Berichte erhalten”. 

Und ja, das stimmt auch, aber nicht nur unsere Zeit spielt hier eine Rolle , sondern auch die von Google. Und natürlich hängt mit der Zeit auch der Kostenfaktor zusammen. 

Logisch: Wollen wir die Daten für das ganze Jahr haben, wird es dauern, sie zur Verfügung zu stellen. Sollten dazu weitere Filtereinstellungen kommen, wird der Datensatz, den wir abfragen, mit jeder weiteren Anpassung immer komplexer und die Rechenzeit wird immer länger. Längere Rechenzeit bedeutet die Notwendigkeit von mehr Rechenleistung und mehr Rechenleistung braucht mehr finanzielle Ressourcen. 

Wie findest Du heraus, ob Sampling angewendet wurde?

Ganz einfach. In jedem Bericht, in dem Sampling angewendet wurde, siehst Du oben auf dem Bericht ein gelbes Zeichen. Ein Klick darauf verrät, wie hoch der Stichprobenanteil bei dieser einen bestimmten Abfrage, für diesen Zeitraum, ist. 

Zwei Arten von Sampling

Wie Du oben auf dem Screenshot ↑ siehst, gibt es zwei Arten von Sampling: 

Sampling mit höherer Genauigkeit – es wird die maximale Stichprobengröße für genauere Ergebnisse genommen. 

Sampling mit kürzeren Antwortzeit – hierbei gilt: Schnelligkeit über Qualität. Die Abfrage wird schnell bearbeitet, die Ergebnisse sind jedoch ungenau. 

Unsere Empfehlung ist die Daten immer mit höherer Genauigkeit zu betrachten, sollte das Sampling unvermeidbar sein. 

Wo und wann kann Sampling auftreten?

In der Standardversion von Google Analytics geschieht Sampling auf der Property-Ebene. Das bedeutet, dass die Daten für jede Property ungefiltert gespeichert werden. So haben wir die Möglichkeit, Standardberichte ohne Stichprobenerhebung zu erstellen. 

Zu den Standardberichten gehören alle Berichte, die Du im linken Bereich in Analytics findest.

Standardbericht

Sampling kann dann auftreten, wenn Du die Standardberichte anpasst und zwar, wenn Du: 

  • Tabellenfilter und
  • Sekundäre Dimension(en) erstellst
  • (benutzerdefinierte) Segmente anwendest
  • Benutzerdefinierte Berichte erstellst 
  • Unterschiedliche Zeiträume vergleichst

Denn durch solche Anpassungen von Standardberichten generierst Du eine Ad-hoc-Abfrage von Analytics Daten (ad hoc – lateinisch für “aus dem Augenblick heraus”, “dafür”, “zu diesem Zweck”). Wenn die angeforderten Informationen nicht in Standardberichten bereitgestellten Daten zu finden sind, wird der ungefilterte Datensatz danach abgefragt. 


Außerdem gibt es für jede Property einen Schwellenwert, der für Ad-hoc-Abfragen gilt. 

In der Standardversion von Google Analytics liegt dieser bei 500.000 Sitzungen für den ausgewählten Zeitraum. Zu beachten ist, dass auch Websites mit weniger Traffic Sampling-Probleme bekommen könnten, wenn die Ad-hoc-Abfrage viel zu kompliziert ist (siehe oben). 

Zum Sampling kann kann auch die Überschreitung des Trefferlimits führen, das in Google Analytics Standard bei 10 Millionen Treffern pro Monat liegt. 

Achtung: Deine Seite ist klein, aber bekommt trotzdem viele Treffer? Dann kann das an einem fehlerhaften Tracking liegen und bedarf eines Qualitätschecks.  

Die Anzahl der Treffer, die in den letzten 30 Tagen an Analytics gesendet wurden, findest Du unter Admin → Property → Property Settings 


Die Anzahl der Treffer, die in den letzten 30 Tagen an Analytics gesendet wurden

Zu den weiteren Sampling-Gründen gehören:  

High Cardinality (“(other)”)

Cardinality auf Deutsch “Kardinalität” steht für die Gesamtanzahl der eindeutigen Werte für eine Dimension.
Ein Beispiel auf dem Screenshot ↓

Für die Dimension “Source/Medium” liegt die Kardinalität in diesem Fall bei 10. 

Kardinalität

Zum High-Cardinality-Problem kommt oft, wenn zum Beispiel URLs mit verschiedenen Parametern in Analytics einlaufen. 

Hat Deine Website nur 1500 Seiten, aber die URLs laufen mit Suchparametern oder individuellen Usercodes ein, erhöht sich die Anzahl der aufgerufenen URLs  in Analytics künstlich und es kann sein, dass Analytics Datenlimits überschritten werden ↓

Datenlimits

Es gibt folgende Analytics Datenlimits:

Für eine Single-Day-Tabelle gibt es im Google Analytics Standard ein Limit von maximal 50.000 Zeilen pro Tag. Wenn eine Tabelle mehr Werte aufweist, werden alle weitere Werte unter “Sonstiges” (“(other)”) zusammengefasst.

Für eine Multi-Day-Tabelle gilt ein Limit von 100.000 Zeilen. Diese Tabellen werden aus täglich zusammengestellten Tabellen erstellt. Auch hier werden die obersten Werte gespeichert und alles Andere unter “Sonstiges” zusammengefasst. 

Für jede Abfrage Suchanfrage werden jedoch für jeden Zeitraum maximal eine Million Zeilen ausgegeben und der Rest wird zusammengefasst. 

Filter und Segmente

Obwohl ungefilterte Daten auf Property-Ebene gespeichert werden, werden Stichproben auf Datensichtebene unter Berücksichtigung von Datenansichtsfiltern erhoben. Verwendest Du ein- oder ausschließende Filter, werden nur die gefilterten und eingeschlossenen Daten für die jeweilige Abfrage berücksichtigt.
Außerdem zu beachten ist, dass Segmente noch weniger Daten enthalten können, da sie nach den Berichtsfiltern und nach der Stichprobenerhebung generiert werden. 

Für die Berichte wie die Multi-Channel-Funnel und Besucherfluss gelten andere Einschränkungen und zwar: 

Multi-Channel-Funnels: Passt Du den Standardbericht an, wird nur eine Stichprobe mit maximal einer Million Conversions erhoben. 

Besucherfluss-Berichte wie “Nutzerfluss”, “Verhaltensfluss”, Zielvorhabenfluss”, “Ereignisfluss” werden für den ausgewählten Zeitraum anhand von maximal 100.000 Sitzungen generiert. 

Sampling in Data Studio

Im Data Studio wird dieselbe Sampling-Methode verwendet, wie in Google Analytics. Die Stichprobengröße wird von Google Analytics festgelegt und kann nicht geändert werden. 

Um zu überprüfen, ob die Daten im Data Studio vom Sampling betroffen sind, reicht ein Blick nach unten.

Falls mindestens ein Diagramm vom Sampling betroffen ist, wird Dir am Ende des Data-Studios-Berichts die Option angezeigt, Dir die betroffenen Diagramme anzuschauen. Die betroffenen Diagramme werden mit einem Kästchen markiert. 

Es können jedoch nur die Diagramme mit Sampling markiert werden, die auf Google Analytics basieren. Für die eingebetteten Berichte gilt diese Option nicht. 

Auf dem Screenshot siehst Du ein Beispiel ↓

Es können nur die Diagramme mit Sampling markiert werden, die auf Google Analytics basieren

Tipp: Versuche beim Definieren des Zeitraums, nicht den heutigen Tag einzuschließen. So bekommst Du die Daten mit höherer Genauigkeit angezeigt und dementsprechend mit einem niedrigeren Sampling.  

Warum ist Sampling schlecht?

Wenn Sampling angewendet wird, werden Dir nicht die wirklichen Daten angezeigt, sondern Schätzungen, basierend auf einen Teil von wirklichen Daten. 

Diese Schätzungen können ziemlich genau sein, da sie auf einem validen statistischen Verfahren basieren. Ist die Stichprobe jedoch zu klein, wie im Falle des Samplings mit “kürzerer Antwortzeit”, werden sie nicht alle Daten repräsentativ darstellen können. 

Besonders für E-Commerce-Seiten kann das Sampling ein echtes Problem darstellen, da die Umsätze und die Insights, die durch Google Analytics generiert werden, wegen des Samplings fehlerhaft sein können und zu kostspieligen Entscheidungen führen können.

Du kannst keine richtige Analyse machen, da Du wegen fehlenden Daten keine Muster erkennen kannst. 

Zu guter Letzt: Bekommt Deine Seite mehr als 10 Million Treffer pro Monat, verstößt Du gegen die Google Analytics Richtlinien. Eines Tages bekommst Du eine E-Mail von Google mit der Warnung, dass Du das Trefferlimit überschritten hast und wenn nichts dagegen unternommen wird, werden Deine Daten nicht mehr weiter verarbeitet. Sprich, Du kannst Google Analytics Standard nicht mehr nutzen.

Wie vermeide ich Sampling?

Es gibt ein paar Möglichkeiten, Daten ohne Sampling betrachten zu können:

Versuche, so viel wie möglich, mit Standardberichten zu arbeiten. Sie verwenden grundsätzlich kein Sampling. 

Vermeide jedoch, besonders für E-Commerce-Seiten, sekundäre Dimensionen oder Segmente zu nutzen. Denn es kann dabei zum Sampling kommen. 

Eine Alternative könnte sein, statt zu segmentieren, extra für die wichtigsten Segmente separate Datenansichten zu erstellen und nur die relevanten Daten einfließen zu lassen. Das Property-Trefferlimit von 10 Million Treffern sollte jedoch auch in diesem Fall nicht überschritten werden.  

Wenn möglich kürzere Zeiträume betrachten. Jedoch nicht optimal, da Du so längere Zeiträume nicht analysieren kannst. 

Kommt es doch zum Sampling, nutze die Option “höhere Genauigkeit” statt “kürzere Antwortzeit”. Zwar werden die Daten langsamer geladen, dafür ist die Qualität besser. 

Vermeide High Cardinality, indem Du unnötige Parameter aus den URLs entfernst und nur für die Auswertung erforderliche Suchparameter an Google Analytics sendest

unnötige Parameter aus den URLs entfernen

 

Hierbei gilt Folgendes zu beachten:

👉 Werte werden nur mit dem Komma getrennt

👉 Groß- und Kleinschreibung spielt eine Rolle

👉 RegEx kann hier nicht angewendet werden

👉 Maximale Länge der eingetragenen Parameter liegt bei 2048 Zeichen

👉 Das ausschließen der Parameter funktioniert nicht rückwirkend

Vermeide zu viele Treffer an GA zu senden. 

Wird zum Beispiel eine Seite durch Filteranpassungen oder Ähnliches mehrmals geladen, passe das entsprechende Tag im GTM so, dass sie nur einmal geladen wird. 

Weitere Möglichkeiten, die Trefferanzahl zu reduzieren sind, das Video- und Scrolltracking anzupassen. Da durch das Tracking von allen Prozent-Meilensteinen viel zu viele unnötige Ereignisse generiert werden. 

Erstelle separate Properties für jede Website, die Du betreibst. Auch, wenn die Websites irgendwie miteinander verwandt sind und Du sie am liebsten in einer Property betrachten möchtest.

Warum? Hier ein Beispiel: 

  • Du nutzt kostenlose Version von Google Analytics mit dem Limit von 500.000 Sitzungen auf der Property-Ebene
  • Du hast 3 Websites
  • 1 Property mit 3 Datenansichten für jede Website
  • Insgesamt 1,5 Million Sitzungen 

Sampling sieht für jede Datenansicht folgendermaßen aus: 

Datenansicht mit Sampling

Wechsle zu Google Analytics 360: Diese Version bringt viele Vorteile mit sich, lohnt sich jedoch besonders für Websites, die viel Traffic generieren und viele Daten sammeln.

Fazit

Sampling in Google Analytics ist ein sehr wichtiges und relevantes Thema, wird jedoch viel zu selten angesprochen. Oftmals wird angenommen, dass das Problem nur große Analytics Konten betreffen könnte. Wie Du gesehen hast ist die Traffic-Größe nicht der einzige Grund, warum es von Google angewendet wird und muss in den allermeisten Fällen tiefer analysiert werden. Auf jeden Fall ein Thema, das sowohl beim Aufsetzen des Trackings als auch während der Analytics-Betreuung nicht vernachlässigt werden sollte. 

Tata Tabatadze

Geschrieben von

Tata ist Webanalyse Consultant bei morefire. Sie kommt aus Georgien und studiert Sozialwissenschaften (B.Sc.) an der Universität zu Köln. Privat interessiert sie sich für Arthouse- und europäische Filme, sowie 50er, 60er und 70er Musik und findet den täglichen Ausgleich beim Kickboxen.

5 / 5 (1 votes)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.