In jedem Experiment, das durchgeführt wird, verlassen wir uns oft auf Wahrscheinlichkeiten, um eine Hypothese zu beweisen (oder zu widerlegen).

Wenn wir zum Beispiel einen A/B-Test durchführen, streben wir oft statistisch signifikante Ergebnisse an.

Wir sind große Befürworter von Tests in der Produktion, und A/B-Tests sind eine effektive Möglichkeit, deine Funktionen an einer ausgewählten Anzahl von Nutzern zu testen, um sicherzustellen, dass sie wie gewünscht funktionieren, bevor sie für alle freigegeben werden.

Da solche Tests jedoch immer auf Wahrscheinlichkeiten basieren, da kein Hypothesentest zu 100 % sicher sein kann, kommt es manchmal zu falschen Schlussfolgerungen, was als Typ-I- und Typ-II-Fehler bezeichnet wird.

Statistische Signifikanz

„Statistische Signifikanz“ ist das Ziel jedes Experiments. In den durchgeführten Experimenten möchtest du sicherstellen, dass eine Beziehung zwischen den in deiner Hypothese vorgeschlagenen Variablen tatsächlich existiert, was der Zweck eines A/B-Tests ist.

Letztendlich möchtest du sicherstellen, dass deine A/B-Tests statistische Signifikanz erreichen, bevor du Entscheidungen triffst.

Wenn du oft A/B-Tests durchgeführt hast, bist du wahrscheinlich mit diesem Begriff vertraut, da er dir die Werkzeuge bietet, um fundierte Entscheidungen zu treffen, die deinen Geschäftszielen entsprechen.

Zur weiteren Verdeutlichung: Ein statistisch signifikantes Ergebnis in solchen Tests bedeutet, dass das Ergebnis höchstwahrscheinlich nicht zufällig aufgetreten ist, sondern auf eine bestimmte Ursache oder einen Trend zurückzuführen ist.

Einfach ausgedrückt ist es die Wahrscheinlichkeit, dass der Unterschied zwischen Varianten und Kontrolle nicht zufällig oder zufallsbedingt ist, sondern auf ein gut begründetes Experiment zurückzuführen ist. Es zeigt deine Risikotoleranz und dein Vertrauensniveau an.

Wenn du also einen A/B-Test mit einem Signifikanz- oder Vertrauensniveau von 95 % durchführst, bedeutet dies, dass du zu 95 % sicher sein kannst, dass, wenn du die gewinnende Variante bestimmst, die erzielten Ergebnisse real sind und nicht zufallsbedingt.

Wie bei jedem auf Statistik und Wahrscheinlichkeiten basierenden Hypothesentest können jedoch zwei Arten von Fehlern in deinen Ergebnissen auftreten.

Hypothesentests

Bevor wir tiefer in Typ-I-Fehler eintauchen, wäre es sinnvoll, einen Überblick darüber zu geben, was Hypothesentests sind.

In einem Hypothesentest wird eine Hypothese gegen ihr Gegenteil getestet, um festzustellen, ob sie wahr ist oder nicht. In diesem Fall hast du die Nullhypothese und die Alternativhypothese oder zwei Variablen.

Ein statistischer Hypothesentest wird also verwendet, um eine mögliche Schlussfolgerung aus zwei unterschiedlichen und widersprüchlichen Hypothesen zu ziehen.

Die Nullhypothese besagt, dass es keine Beziehung zwischen den beiden vorgeschlagenen Phänomenen gibt, während die Alternativhypothese das Gegenteil dessen ist, was in der Nullhypothese angegeben wird.

P-Werte, die in statistischen Tests verwendet werden, helfen zu entscheiden, ob die Nullhypothese verworfen werden soll. Je kleiner der Wert, desto wahrscheinlicher ist es, dass du die Nullhypothese ablehnst. Mit anderen Worten, er gibt dir an, wie wahrscheinlich deine Daten unter der Nullhypothese aufgetreten wären.

Der P-Wert wird am häufigsten auf p < 0,05 festgelegt, um statistische Signifikanz zu deklarieren.

In jedem statistischen Test gibt es jedoch immer ein gewisses Maß an Unsicherheit, sodass das Risiko, einen Fehler zu begehen, ziemlich hoch ist.

Die folgende Tabelle zeigt diese Fehler in Bezug auf die Nullhypothese:

Typ-1-Fehler

Ein solcher Fehler ist der Typ-1-Fehler (oder Typ-I-Fehler), auch als false positive bekannt, bei dem eine Nullhypothese fälschlicherweise abgelehnt wird, obwohl sie wahr ist. Mit anderen Worten, du schlussfolgerst, dass die Ergebnisse statistisch signifikant sind, obwohl sie einfach zufallsbedingt oder auf nicht zusammenhängende Faktoren zurückzuführen sind.

Einfach ausgedrückt tritt ein Typ-1-Fehler auf, wenn der Tester einen statistisch signifikanten Unterschied bestätigt, obwohl keiner vorhanden ist.

Bei einem A/B-Test bedeutet ein Typ-1-Fehler, dass du eine schlechte Variante als Gewinner erklärst, obwohl der durchgeführte Test nicht schlüssig war. Mit anderen Worten, als false positive glaubst du, dass eine Variante im Test einen statistisch signifikanten Unterschied gemacht hat.

Typ-1-Fehler haben eine Wahrscheinlichkeit von „α“ oder Alpha, die mit dem festgelegten Vertrauensniveau korreliert ist. Wenn du zum Beispiel ein Vertrauensniveau von 95 % festlegst, besteht eine Chance von 5 Prozent, dass du einen Typ-1-Fehler machst.

Konsequenz von Typ-1-Fehlern

Typ-1-Fehler bedeuten, dass du fälschlicherweise annimmst, dass dein Hypothesentest funktioniert hat, obwohl er es nicht hat. Folglich besteht der Hauptgrund, auf solche Fehler zu achten, darin, dass sie dein Unternehmen viel Geld kosten könnten, da sie möglicherweise zu Umsatzeinbußen führen.

Wenn du beispielsweise eine Änderung der Farbe eines Buttons auf deiner Startseite getestet hast und frühzeitig feststellst, dass der Button zu mehr Klicks geführt hat. Du bist dann überzeugt, dass diese Variante einen Unterschied gemacht hat, und beschließt, den Test vorzeitig zu beenden, indem du fälschlicherweise schlussfolgerst, dass es tatsächlich einen Zusammenhang zwischen dieser Farbänderung und den Conversion Rates gibt.

Am Ende führst du diese Variante für alle deine Nutzer ein und stellst fest, dass sie tatsächlich keinen Einfluss hatte. Das Endergebnis ist, dass du langfristig dein Kundengewinnungsrate riskierst.

Der beste Weg, solche Fehler zu vermeiden, besteht möglicherweise darin, die Testdauer zu verlängern, um sicherzustellen, dass deine Variante die Kontrolle langfristig übertrifft und die Stichprobengröße zu erhöhen.

Mehr dazu: Stichprobenrechner für A/B Testing

Typ-2-Fehler

Typ-2-Fehler (oder Typ-II-Fehler), auch als false negatives bekannt, treten auf, wenn du die Nullhypothese nicht ablehnst, obwohl sie tatsächlich falsch ist, und du deine eigene Hypothese und Variante ablehnst. Typ-2-Fehler haben eine Wahrscheinlichkeit von „β“ oder Beta.

Bei einem A/B-Test bedeutet dies, dass du nicht zu dem Schluss kommst, dass es eine Wirkung gab, obwohl es eine gab, und daher kein schlüssiger Gewinner zwischen der Kontrolle und den Varianten erklärt wird, obwohl es einen geben sollte.

Du nimmst also an, dass eine Variante keinen statistischen Unterschied gemacht hat, und du glaubst fälschlicherweise der Nullhypothese, dass keine Beziehung existiert, obwohl sie tatsächlich existiert.

Ein Typ-2-Fehler ist umgekehrt proportional zur statistischen Power eines Tests, wobei Power die Wahrscheinlichkeit ist, dass ein Test einen tatsächlich vorhandenen Effekt erkennen kann. Je höher die statistische Power, desto geringer die Wahrscheinlichkeit, einen Typ-2-Fehler zu begehen.

Die statistische Power hängt normalerweise von drei Faktoren ab: Stichprobengröße, Signifikanzniveau und dem „wahren“ Wert des getesteten Parameters.

Konsequenz von Typ-2-Fehlern

Genauso wie Typ-I-Fehler können Typ-II-Fehler zu falschen Annahmen und schlechten Entscheidungen führen, indem der Test zu früh beendet wird.

Darüber hinaus können false negatives und das Versäumnis, die Wirkung deiner Varianten zu bemerken, zu verpassten Chancen führen, da du die Chancen zur Steigerung deiner Conversion Rate nicht nutzt.

Um das Risiko eines solchen Fehlers zu verringern, solltest du sicherstellen, dass du die statistische Power deines Tests erhöhst, zum Beispiel indem du eine ausreichend große Stichprobengröße hast. Dies würde das Sammeln von mehr Daten über einen längeren Zeitraum erfordern, um zu vermeiden, dass du fälschlicherweise zu dem Schluss kommst, dass dein Experiment keine Auswirkungen hatte, obwohl das Gegenteil der Fall ist.

Die Wahrscheinlichkeit, Typ-I- und Typ-II-Fehler zu begehen, ist in der folgenden Abbildung dargestellt, wobei die Nullhypothesenverteilung alle möglichen Ergebnisse zeigt, wenn die Nullhypothese wahr ist, während die Alternativhypothesenverteilung alle möglichen Ergebnisse zeigt, wenn die Alternativhypothese wahr ist:

Wie zu sehen ist, treten Typ-I- und Typ-II-Fehler dort auf, wo sich diese beiden Verteilungen überschneiden.

Zusammenfassung

Betrachten wir diese beiden Szenarien:

  • Wenn deine Ergebnisse statistische Signifikanz zeigen, bedeutet dies, dass es einen Unterschied zwischen den Varianten gibt. In diesem Fall kannst du die Nullhypothese ablehnen. Dies könnte jedoch manchmal ein Typ-I-Fehler sein.
  • Wenn deine Ergebnisse keine statistische Signifikanz zeigen, kann die Nullhypothese nicht abgelehnt werden. Dies könnte manchmal ein Typ-II-Fehler sein.

Am Ende ist es wichtig, ein Gleichgewicht zwischen Typ-I- und Typ-II-Fehlern zu finden. Viele argumentieren, dass Typ-I-Fehler schädlicher sein können, da sie zu Änderungen führen können, die Ressourcen verschwenden und Zeit und Geld kosten, während Typ-II-Fehler eher „verpasste Chancen“ bedeuten (obwohl auch diese erhebliche Folgen haben können).

Das Wesentliche, das man sich merken sollte, ist, dass A/B-Tests auf statistischen Wahrscheinlichkeiten basieren, was bedeutet, dass die erzielten Ergebnisse niemals zu 100 % sicher sind.

Dennoch sind diese Tests ein wertvolles Werkzeug, um Vermarktern zu helfen, den Umsatz und die Conversion Rate zu steigern. Auch wenn deine Ergebnisse möglicherweise nicht so sicher sind, wie du es gerne hättest, kannst du die Wahrscheinlichkeit erhöhen, dass das Testergebnis richtig ist, indem du die oben genannten Fehler vermeidest.

Um die Wahrscheinlichkeit von Fehlern zu verringern, ist es wichtig, die Stichprobengröße zu erhöhen und den Test so lange wie möglich durchzuführen, um sicherzustellen, dass so genaue Daten wie möglich gesammelt werden und die Glaubwürdigkeit der Testergebnisse erhöht wird.

Erfahre mehr über A/B-Test-Statistiken in unserem A/B-Test-Leitfaden.

Schneller wachsen
mit ABTasty

Erhalten Sie eine individuelle Komplettlösung für die Plattform

Demo anfordern