Statistiken
p-Wert
.webp)
Ein statistisches Maß, das im frequentistischen Ansatz verwendet wird, um die Wahrscheinlichkeit anzugeben, dass die Ergebnisse (oder noch extremere Ergebnisse) beobachtet werden, wenn die Nullhypothese wahr wäre. Anders ausgedrückt, quantifiziert sie den Grad der Überraschung der Beobachtung im Vergleich zu einer Situation, in der es keine tatsächlichen Unterschiede zwischen den getesteten Varianten gäbe.
Im Kontext CRO / A/B-Testing :
In einem A/B-Test besagt die Nullhypothese, dass die Variation B keinen Effekt im Vergleich zu A hat.
➡️ Ein niedriger p-Wert (z. B. 0,03) bedeutet, dass die beobachteten Ergebnisse mit dieser Hypothese nicht vereinbar sind, was die Annahme verstärkt, dass ein tatsächlicher Effekt vorliegt.
Zum Vormerken:
- Ein p-Wert unter 0,05 (klassischer Schwellenwert) wird oft als statistisch signifikant angesehen → man lehnt die Nullhypothese ab.
- Ein p-Wert über 0,05 beweist nicht, dass es keinen Effekt gibt, sondern dass nicht genügend Beweise vorliegen, um eine Schlussfolgerung zu ziehen.
- Der p-Wert misst weder die Wahrscheinlichkeit, dass die Variation besser ist, noch die Größe des Effekts. Dafür schaut man sich denUplift, die Konfidenzintervalle oder dengeschätzten Business Impact an.
Häufige Fallen in CRO :
- Einen p-Wert isoliert interpretieren, ohne die Datenmenge, den MDE oder den geschäftlichen Kontext zu berücksichtigen.
- "P-Hacking": Einen Test bei Erreichen von 0,049 abzubrechen, kann zu falsch positiven Ergebnissen (irreführenden Ergebnissen) führen.
- Vergessen Sie, dass der p-Wert nichts über die praktische Signifikanz aussagt: Ein kleiner Effekt kann signifikant, aber nutzlos sein.