Statsitische Methodik Archives - abtasty https://www.abtasty.com/de/topics/statsitische-methodik/ Tue, 27 Feb 2024 10:45:10 +0000 de-DE hourly 1 https://wordpress.org/?v=6.4.2 https://www.abtasty.com/wp-content/uploads/2024/02/cropped-favicon-32x32.png Statsitische Methodik Archives - abtasty https://www.abtasty.com/de/topics/statsitische-methodik/ 32 32 Die kundenzentrierte Datenreihe https://www.abtasty.com/de/resources/die-kundenzentrierte-datenreihe/ Wed, 14 Dec 2022 10:41:48 +0000 https://www.abtasty.com/?post_type=resources&p=103686 Unsere Welt wird immer digitaler, und damit steigen auch die Erwartungen der VerbraucherInnen an ihre digitalen Erlebnisse. Was das bedeutet, erfahren Sie hier!

Der Beitrag Die kundenzentrierte Datenreihe erschien zuerst auf abtasty.

]]>
Die kundenzentrierte Datenreihe

Entfesseln Sie die Macht der Daten

Daten sind eine mächtige Sache

Unsere Welt wird immer digitaler, und damit steigen auch die Erwartungen der VerbraucherInnen an ihre digitalen Erlebnisse. Um der Konkurrenz voraus zu sein, müssen Marken heute die Customer Journey kontinuierlich optimieren, um ein nahtloses Erlebnis von Anfang bis Ende zu bieten. Aber wie weiß man, wo man anfangen soll?

Experimente sind der Schlüssel zur Erschließung der besten digitalen Erfahrung. Daten werden dann zu einem mächtigen Aktivposten, der jede Phase des Experimentierprozesses von der Idee bis zur Analyse vorantreibt.

In unserem digitalen Bericht erfahren Sie von den Top-Partnern und Datenexperten von AB Tasty, wie Marken Daten nutzen können, um Kundenbedürfnisse besser zu verstehen, emotionale Verbindungen zu schaffen und eine datenbasierte, kundenorientierte Vision aufzubauen.

INSIGHTS VON UNSEREN PARTNERINNEN

Personalisierung lohnt sich, denn je besser Sie Ihre Kunden kennen, desto länger können Sie das Gespräch mit ihnen fortsetzen, was zu Loyalität und Bindung führt.

Filip von Reiche
Wunderman Thompson
Die Demokratisierung von Daten ist für den Aufbau einer kundenorientierten Kultur unerlässlich.

Sophie D’Souza
Spiralyze
Wenn Ihre Konkurrenten neue Funktionen testen und auf das Nutzerverhalten reagieren, setzen sie einen neuen Standard, dem sie entsprechen müssen. Wenn Sie das vernachlässigen, laufen Sie Gefahr, zurückzubleiben.

Marine Lewandowski und Pierre-Alexandre Yacoub
Jellyfish
Ein breites Spektrum an Daten – mit einem ausgewogenen Verhältnis zwischen qualitativen und quantitativen Daten – vermittelt ein möglichst genaues Bild des Nutzerverhaltens.

Helen Willmot
Dentsu

Daten sind Ihr bestes Kapital

Die Kundenerwartungen an digitale Erlebnisse steigen ständig. Mit der Macht der Daten auf Ihrer Seite können Sie eine Optimierungsstrategie entwickeln, die mit dem sich ändernden Nutzerverhalten Schritt halten kann, ohne etwas zu verpassen.

Der Beitrag Die kundenzentrierte Datenreihe erschien zuerst auf abtasty.

]]>
Bayes vs. Frequentist: Wie AB Tasty sich für ein statistisches Modell entschieden hat https://www.abtasty.com/de/blog/bayes-vs-frequentist/ Wed, 02 Feb 2022 16:31:41 +0000 https://www.abtasty.com/?p=90107 Welche inferentielle statistische Methode ist die „beste“: Bayes oder Frequentist? Wir besprechen Pros und Kontras und zeigen unseren Gewinner.

Der Beitrag Bayes vs. Frequentist: Wie AB Tasty sich für ein statistisches Modell entschieden hat erschien zuerst auf abtasty.

]]>
Die Debatte über die beste Methode zur Interpretation von Testergebnissen gewinnt in der Welt der Conversion Rate Optimierung zunehmend an Bedeutung.

Zwei inferenzstatistische Methoden (Bayessche vs. Frequentistische) lösen heftige Diskussionen darüber aus, welche die „beste“ sei. Bei AB Tasty haben wir beide Ansätze sorgfältig untersucht und für uns gibt es nur einen Gewinner.

Bayes vs. Frequentist
Es gibt viele Diskussionen über die optimale statistische Methode: Bayessche vs. Frequentistische Methode (Source)

 

Lassen Sie uns zunächst auf die Logik hinter den beiden Methoden eingehen und die wesentlichen Unterschiede sowie Vorteile beider Methoden untersuchen. In diesem Artikel greifen wir folgende Punkte auf:

[toc]

 

Was sind Hypothesentests?

Der Rahmen für statistische Hypothesentests bei digitalen Experimenten kann durch zwei gegenteilige Hypothesen ausgedrückt werden:

  • H0 besagt, dass es keinen Unterschied zwischen dem Treatment (die bearbeitete Variante) und der Originalversion gibt. Mit anderen Worten: das Treatment hat keinen Einfluss auf den gemessenen KPI.
  • H1 besagt, dass es einen Unterschied zwischen dem Treatment und der Originalversion gibt. Somit hat das Treatment also Einfluss auf den gemessenen KPI.

 

Ziel ist es, Indikatoren zu berechnen, die Ihnen anhand der experimentellen Daten bei der Entscheidung helfen, ob Sie das Treatment (im Kontext von AB Tasty eine Variante) beibehalten oder verwerfen sollen. Zunächst bestimmen wir die Anzahl der zu testenden BesucherInnen, sammeln die Daten und prüfen dann, ob die Variante besser als das Original abschneidet.

Gewinnervariante Bayes
Es gibt zwei Hypothesen im statistischen Hypothesen-Vorgehen (Quelle)

 

Im Wesentlichen gibt es zwei Ansätze für statistische Hypothesentests:

  1. Frequentistischer Ansatz: Vergleich der Daten mit einem Modell.
  2. Bayesscher Ansatz: Vergleich zweier Modelle (die aus Daten erstellt wurden).

 

Zur Durchführung des aktuellen Reportings und der Experimente, entschied sich AB Tasty vom ersten Moment an für den Bayesschen Ansatz.

 

Was ist der frequentistische Ansatz?

Bei diesem Ansatz erstellen wir ein Modell Ma für die Originalversion (A), die die Wahrscheinlichkeit P angibt, bestimmte Daten Da zu sehen. Es handelt sich dabei um folgende Funktion:

Ma(Da) = p

Dann können wir aus Ma(Db) einen p-Wert (Pv) errechnen. Dieser gibt die Wahrscheinlichkeit an, die bei Variante B gemessenen Daten zu sehen, wenn sie durch die Originalversion (A) erzeugt wurden.

Rein vom Gefühl her bedeutet ein hoher Pv, dass die bei B gemessenen Daten auch von A hätten produziert werden können (was die Hypothese H0 unterstützt). Ist Pv hingegen niedrig, bedeutet dies, dass die Wahrscheinlichkeit sehr gering ist, dass die bei B gemessenen Daten auch durch A hätten erzeugt werden können (was die Hypothese H1 unterstützt).

Ein weit verbreiteter Schwellenwert für Pv ist 0,05. Das heißt, damit die Variante einen Effekt hat, muss die Wahrscheinlichkeit unter 5 % liegen, dass die bei B gemessenen Daten auch von A stammen könnten.

Dieser Ansatz bietet den wesentlichen Vorteil, dass nur A modelliert werden muss. Dies ist interessant, da es sich um die ursprüngliche Variante handelt und diese schon länger als B existiert. Man könnte also durchaus glauben, dass man über einen langen Zeitraum Daten aus A sammeln kann, um aus diesen Daten ein genaues Modell zu erstellen. Leider bleibt der KPI, den wir beobachten, nur selten unverändert. Transaktionen oder Klickraten sind im Laufe der Zeit sehr variabel, weshalb man das Modell Ma erstellen und die Daten aus B im selben Zeitraum erheben muss, um einen gültigen Vergleich zu erhalten. Dieser Vorteil lässt sich offensichtlich nicht im Kontext digitaler Experimente anwenden.

Dieser Ansatz wird als „Frequentist“ bezeichnet, da er die Frequenz misst, in der bestimmte Daten wahrscheinlich bei einem bekannten Modell auftreten.

Wichtig ist darauf hinzuweisen, dass dieser Ansatz – wie wir oben gesehen haben – die beiden Prozesse nicht vergleicht.

Hinweis: Da p-Werte nicht intuitiv sind, werden sie oft wie folgt in eine Wahrscheinlichkeit umgewandelt:

p = 1-P-Wert

Häufig werden sie fälschlicherweise als die Wahrscheinlichkeit dargestellt, dass H1 wahr ist (was bedeutet, dass es einen Unterschied zwischen A und B gibt). Tatsächlich handelt es sich aber, um die Wahrscheinlichkeit, dass die bei B gesammelten Daten nicht von A erzeugt wurden.

 

Was ist der Bayessche Ansatz (den AB Tasty verwendet)?

Bei diesem Ansatz erstellen wir zwei Modelle, Ma und Mb (eines für jede Variante) und vergleichen sie dann. Diese Modelle, die auf der Grundlage von experimentellen Daten erstellt werden, erzeugen nach dem Zufallsprinzip die Stichproben: A und B. Wir verwenden diese Modelle, um Stichproben möglicher Raten zu erstellen und die Differenz zwischen diesen Raten zu berechnen. Mit dem Ziel, die Verteilung der Differenz zwischen den beiden Prozessen einzuschätzen.

Im Gegensatz zum ersten Ansatz, vergleicht dieser zwei Modelle miteinander. Hier spricht man vom Bayesschen Ansatz oder der Bayesschen Methode.

Nun müssen wir ein Modell für A und B erstellen.

Klicks können als Binomialverteilungen, mit den Parametern Anzahl der Versuche und Erfolgsquote, dargestellt werden. Bei digitalen Experimenten entspricht die Anzahl der Versuche der Anzahl der BesucherInnen und die Erfolgsquote der Klick- oder Transaktionsrate. In diesem Fall ist es wichtig zu wissen, dass es sich bei den uns betreffenden Raten nur um Schätzungen für eine begrenzte Anzahl von BesucherInnen handelt. Um diese begrenzte Genauigkeit zu modellieren, verwenden wir Beta-Verteilungen (entspricht der konjugierten a-priori-Verteilung von Binomialverteilungen).

Diese Verteilungen modellieren die Wahrscheinlichkeit einer Erfolgsquote, die bei einer begrenzten Anzahl von Versuchen gemessen wird.

Beispiel:

  • 1.000 BesucherInnen bei A mit 100 Erfolgen
  • 1.000 BesucherInnen bei B mit 130 Erfolgen

 

Wir erstellen das Modell Ma = beta(1+Erfolg_a,1+Misserfolge_a), wobei Erfolg_a = 100 & Misserfolge_a = BesucherInnen_a – Erfolg_a =900 ist.

Sicher haben Sie ein +1  für die Parameter Erfolg und Misserfolg bemerkt, was sich in der Bayesschen Analyse durch den „Prior“ erklären lässt. Ein Prior ist etwas, was Sie bereits vor dem Experiment kennen. Z.B. etwas, was aus einem anderen (früheren) Experiment abgeleitet wurde. Bei digitalen Experimenten ist jedoch gut dokumentiert, dass die Klickraten nicht gleichbleibend sind und sich je nach Tages- oder Jahreszeit ändern können. Folglich können wir dies in der Praxis nicht verwenden. Die entsprechende Prior-Einstellung +1 ist einfach ein nicht informativer Prior, da Sie auf keine vorherigen brauchbaren Experimentierdaten zurückgreifen können.

Bei den drei folgenden Diagrammen entspricht die horizontale Achse der Klickrate und die vertikale Achse der Wahrscheinlichkeit dieser Rate. Dabei ist bekannt, dass bei einem vorherigen Experiment 100 Erfolge bei 1.000 Versuchen verzeichnet wurden.

Modell A Klickrate Bayes
(Quelle: AB Tasty)

 

Normalerweise sind hier 10 % am wahrscheinlichsten, 5 % oder 15 % sehr unwahrscheinlich und 11 % halb so wahrscheinlich wie 10 %.

Das Modell Mb wird mit den Daten aus Versuch B auf die gleiche Weise erstellt:

Mb= beta(1+100,1+870)

Modell B Bayes
(Quelle: AB Tasty)

 

Für B liegt die wahrscheinlichste Rate bei 13 % während die Breite der Kurve ähnlich der vorherigen Kurve ist.

Nun vergleichen wir die Ratenverteilung von A und B.

Ratenverteilung Modell Bayes
Blau steht für A und Orange für B (Quelle: AB Tasty)

 

Wir sehen einen sich überlappenden Bereich bei einer Conversion Rate von 12 %. Hier haben beide Modelle die selbe Wahrscheinlichkeit. Für eine Schätzung des sich überlappenden Bereichs müssen wir aus beiden Modellen Stichproben ziehen und sie vergleichen.

Wir ziehen Stichproben aus den Verteilungen A und B:

  • s_a[i] ist die Stichprobe i th aus A
  • s_b[i] ist die Stichprobe i th aus B

 

Dann wenden wir eine Vergleichsfunktion auf diese Stichproben an:

  • der relative Gewinn: g[i] =100* (s_b[i] – s_a[i])/s_a[i] für alle i.

 

Es handelt sich um die Differenz zwischen den möglichen Raten für A und B in Bezug auf A (multipliziert mit 100 für die Lesbarkeit in %).

Nun können wir die Stichproben g[i] mit einem Histogramm analysieren:

Gewinnervariante Histogramm Bayesscher Ansatz
Die horizontale Achse ist der relative Gewinn, die vertikale Achse die Wahrscheinlichkeit dieses Gewinns (Quelle: AB Tasty)

 

Wir sehen, dass der wahrscheinlichste Wert für den Gewinn bei rund 30 % liegt.

Die gelbe Linie zeigt, wo der Gewinn bei 0 liegt, d. h. es gibt keinen Unterschied zwischen A und B. Stichproben links von dieser Linie entsprechen Fällen, in denen A > B ist. Stichproben auf der anderen Seite sind Fälle, in denen A < B ist.

Anschließend definieren wir die Gewinnwahrscheinlichkeit wie folgt:

GW = (Anzahl der Stichproben > 0)/Gesamtanzahl der Stichproben

 

Bei 1.000.000 (10^6) Stichproben für g haben wir 982.296 Stichproben >0, sodass B>A ~ zu 98 % wahrscheinlich ist.

Wir nennen dies die „Gewinnchancen“ oder die „Gewinnwahrscheinlichkeit“ (die Wahrscheinlichkeit, dass man etwas gewinnt).

Die Gewinnwahrscheinlichkeit wird im Report hier dargestellt (siehe rotes Rechteck):

AB Tasty Bayesscher Ansatz
(Source: AB Tasty)

 

Mit der gleichen Stichprobenmethode können wir klassische Analysekennzahlen wie Mittelwert, Median, Perzentile usw. berechnen.

Bei Betrachtung des vorherigen Diagramms geben die roten vertikalen Linien an, wo sich der größte Teil des blauen Bereichs befindet, d. h. intuitiv, welche Gewinnwerte am wahrscheinlichsten sind.

Wir haben entschieden, ein Best Case- und ein Worst Case-Szenario mit einem Konfidenzintervall von 95 % zu präsentieren. Dabei wurden 2,5 % der Fälle im Extrembereich (beste und schlechteste Fälle) ausgeschlossen, sodass insgesamt 5 % der von uns als selten betrachteten Ereignisse unberücksichtigt bleiben. Dieses Intervall wird durch die roten Linien im Diagramm abgegrenzt. Wir gehen davon aus, dass der tatsächliche Gewinn (so, als wenn wir für die Messung eine unendliche Anzahl an BesucherInnen hätten) in 95 % der Fälle irgendwo in diesem Intervall liegt.

In unserem Beispiel liegt dieses Intervall bei [1,80 %, 29,79 %, 66,15 %], was bedeutet, dass es relativ unwahrscheinlich ist, dass der tatsächliche Gewinn unter 1,8 % liegt. Ebenso ist es relativ unwahrscheinlich, dass der Gewinn 66,15 % überschreitet. Und die Wahrscheinlichkeit ist gleichermaßen groß, dass die reelle Rate über oder unter dem Medianwert von 29,79 % liegt.

Das Konfidenzintervall wird im Report (eines anderen Experiments) hier dargestellt (siehe rotes Rechteck):

AB Tasty Bayesscher Ansatz
(Quelle: AB Tasty)

 

Was sind „Prior“ beim Bayesschen Ansatz?

In Bayesschen Frameworks wird der Begriff „Prior“ für die Informationen verwendet, über die Sie vor dem Experiment verfügen. Ein Beispiel: Allgemein ist bekannt, dass die Transaktionsrate im e-Commerce in den meisten Fällen unter 10 % liegt.

Es wäre sehr interessant gewesen, diesen Punkt einzubinden, aber diese Vermutungen sind in der Praxis schwer anzustellen, da die Saisonalität der Daten einen großen Einfluss auf die Klickraten hat. Tatsächlich liegt hier der Hauptgrund, weshalb wir die Daten für A und B gleichzeitig erheben. Meistens liegen uns bereits vor dem Experiment Daten von A vor. Wir wissen jedoch, dass sich die Klickraten im Laufe der Zeit ändern, sodass wir die Klickraten im Hinblick auf einen gültigen Vergleich für alle Varianten gleichzeitig erheben müssen.

Daraus folgt, dass wir einen nicht-informativen Prior verwenden müssen. Das bedeutet, dass wir vor dem Experiment nur wissen, dass die Raten zwischen [0 %, 100 %] liegen. Wir wissen nicht, wie hoch der Gewinn ausfallen kann. Dieselbe Vermutung wie beim Frequentistischen Ansatz, auch wenn sie nicht formuliert wurde.

 

Herausforderungen bei statistischen Tests

Wie bei jedem Testansatz wird auch hier das Ziel gesetzt, Fehler auszuschalten. Es gibt zwei Arten von Fehlern, die Sie vermeiden sollten:

  • Falsch positiv (FP): Wenn Sie eine Gewinnervariante auswählen, die in Wirklichkeit nicht die Variante mit der besten Performance ist.
  • Falsch negativ (FN): Wenn Sie eine Gewinnervariante verpassen. Entweder deklarieren Sie am Ende des Experiments keinen Gewinner oder den falschen Gewinner.

Die Performance bei beiden Messungen hängt vom verwendeten Schwellenwert (p-Wert oder Gewinnwahrscheinlichkeit) ab, der wiederum vom Kontext des Experiments abhängt. Die Entscheidung muss der oder die NutzerIn treffen.

Ein weiterer wichtiger Parameter ist die Anzahl der für das Experiment herangezogenen BesucherInnen, da sie einen starken Einfluss auf die falsch negativen Fehler hat.

Aus geschäftlicher Sicht ist ein falsch negatives Ergebnis eine verpasste Chance. Bei der Reduzierung falsch negativer Fehler geht es hauptsächlich um die Größe der Population, die dem Test zugewiesen ist: im Grunde genommen geht es darum, dem Problem mehr Besucher zuzuführen.

Das Hauptproblem sind allerdings falsch positive Ergebnisse, die hauptsächlich in zwei Situationen auftreten:

  • Bereits sehr früh im Experiment: Bevor die angestrebte Stichprobengröße erreicht ist, wenn die Gewinnwahrscheinlichkeit höher als 95 % ist. Es passiert, dass NutzerInnen zu ungeduldig sind und zu schnell Schlüsse ziehen, ohne dass genügend Daten vorliegen; das Gleiche gilt für falsch positive Ergebnisse.
  • Sehr spät im Experiment: Wenn die angestrebte Stichprobengröße erreicht ist, aber kein signifikanter Gewinner gefunden wird. Manche UserInnen glauben zu sehr an ihre Hypothese und wollen ihr eine weitere Chance geben. 

 

Beide Probleme können durch strikte Einhaltung des Testprotokolls vermieden werden, indem Sie einen Testzeitraum mit einem Stichprobenrechner festlegen und sich daran halten.

Bei AB Tasty gibt es eine visuelle Markierung mit dem Namen „Readiness“. Sie zeigt an, ob Sie sich an das Protokoll halten (ein Zeitraum von mindestens 2 Wochen und mindestens 5.000 BesucherInnen). Bei jeder Entscheidung über diese Richtlinien hinaus sollten die im nächsten Abschnitt beschriebenen Regeln beachtet werden, um das Risiko falsch positiver Ergebnisse zu reduzieren.

Dieser Screenshot zeigt, wie UserInnen darüber informiert werden, ob Maßnahmen ergriffen werden können.

AB Tasty Bayessche Methode
(Quelle: AB Tasty)

 

Während des Zeitraums der Datenerhebung sollte man im Report lediglich prüfen, ob die Erhebung korrekt ist (ohne Häkchen bei „Zuverlässigkeit“) und nur nach extremen Fälle suchen, bei denen sofort gehandelt werden muss. Geschäftliche Entscheidungen aber sollten noch nicht getroffen werden. 

 

Wann sollten Sie Ihr Experiment abschließen?

Early Stop

Bei einem „Early Stop“ möchte ein Nutzer oder eine Nutzerin einen Test stoppen, bevor die zugewiesene Anzahl der BesucherInnen erreicht ist.

Der oder die NutzerIn sollte warten, bis die Kampagne mindestens 1.000 BesucherInnen erreicht hat, und erst bei besonders hohen Verlusten abbrechen.

Wenn ein Nutzer oder eine Nutzerin für eine vermeintliche Gewinnervariante vorzeitig aufhören möchte, sollte mindestens zwei Wochen gewartet und nur Daten einer vollständigen Woche genutzt werden. Diese Taktik ist dann interessant, wenn die Geschäftskosten eines falsch positiven Ergebnisses noch in Ordnung sind. Dann ist es wohl wahrscheinlicher dass die Performance der vermeintlichen Gewinnervariante ähnlich zu der des Original ist, als dass ein Verlust entsteht.

Nochmals: Wenn dieses Risiko aus geschäftsstrategischer Sicht akzeptabel ist, ist diese Taktik sinnvoll.

Wenn ein(e) UserIn zu Beginn eines Tests eine Gewinnervariante (mit einer hohen Gewinnwahrscheinlichkeit) sieht, sollte für das Worst Case-Szenario eine Marge sichergestellt werden. Eine untere Grenze für den Gewinn nahe 0 % kann sich durchaus ändern und am Ende des Tests unter oder weit unter null liegen, was die anfangs angenommene hohe Gewinnwahrscheinlichkeit untergräbt. Die Vermeidung eines vorzeitigen Abbruchs mit einer niedrigen linken Konfidenzgrenze trägt dazu bei, falsch positive Ergebnisse zu Beginn eines Tests auszuschließen.

Beispielsweise ist eine Situation mit einer Gewinnwahrscheinlichkeit von 95 % und einem Konfidenzintervall wie [-5,16 %, 36,48 %, 98,02 %] ein Merkmal für einen vorzeitigen Abbruch. Die Gewinnwahrscheinlichkeit liegt über dem akzeptierten Standard, weshalb man vielleicht also 100 % des Traffics auf die Gewinnvariante leiten möchte. Das Worst Case-Szenario (-5,16 %) liegt jedoch relativ weit unter 0 %, was auf ein mögliches falsch positives Ergebnis hindeutet und somit auf jeden Fall riskant ist. Denn im Worst Case-Szenario gehen 5 % der Conversions verloren. Besser ist es so lange zu warten, bis die untere Grenze des Konfidenzintervalls bei mindestens >0 % liegt. Eine kleine Marge darüber wäre noch sicherer.

 

Später Abbruch

Bei einem „späten Abbruch“ lässt man am Ende eines Tests den Test länger als ursprünglich geplant laufen, da keine signifikante Gewinnervariante gefunden wurde. Der Nutzer oder die Nutzerin vertritt dabei die Hypothese, dass der Gewinn kleiner als erwartet ausfällt und für eine signifikante Aussage mehr BesucherInnen benötigt werden.

Wenn man entscheidet, ob die Laufzeit des Tests verlängert werden soll, ohne dem Protokoll zu folgen, sollte eher das Konfidenzintervall statt die Gewinnwahrscheinlichkeit berücksichtigt werden.

Wer Tests länger als geplant durchführen möchte, dem raten wir, nur sehr vielversprechende Tests zu verlängern. Dies bedeutet, einen hohen Wert für das beste Szenario zu haben (die rechte Grenze des Konfidenzintervalls sollte hoch sein).

Zum Beispiel ist dieses Szenario mit einer Gewinnwahrscheinlichkeit von 99 % und einem Konfidenzintervall von [0,42 %, 3,91 %] typisch für einen Test, der nicht über seine geplante Dauer hinaus verlängert werden sollte: Eine große Gewinnwahrscheinlichkeit, aber kein hohes Best Case-Szenario (nur 3,91 %).

Beachten Sie, dass sich das Konfidenzintervall mit zunehmender Stichprobenzahl verkleinert. Das heißt, wenn es am Ende tatsächlich eine Gewinnervariante gibt, wird ihr Best Case-Szenario wahrscheinlich kleiner als 3,91 % sein. Lohnt sich das wirklich? Wir raten, zum Stichprobenrechner zurückzukehren und zu sehen, wie viele BesucherInnen für eine solche Genauigkeit erforderlich sind.

Hinweis: Diese Zahlenbeispiele stammen aus einer Simulation von A/A-Tests, wobei ein gescheiterter Test ausgewählt wurden.

 

Die Lösung: Konfidenzintervalle

Die Verwendung des Konfidenzintervalls anstelle der alleinigen Betrachtung der Gewinnwahrscheinlichkeit wird die Entscheidungsfindung erheblich verbessern. Ganz zu schweigen davon, dass dies unabhängig vom Problem falsch positiver Ergebnisse geschäftlich wichtig ist. Alle Varianten müssen die Kosten für die Umsetzung in der Produktion decken. Man darf nicht vergessen, dass die Originalversion bereits besteht und keine zusätzlichen Kosten verursacht. Daher tendiert man implizit und pragmatisch immer zum Original.

Jede Optimierungsstrategie sollte einen minimalen Schwellenwert für die Größe des Gewinns haben.

Eine andere Art von Problem kann auftreten, wenn mehr als zwei Varianten getestet werden. In diesem Fall wird eine Holm-Bonferroni-Korrektur angewendet.

 

Warum AB Tasty den Bayesschen Ansatz gewählt hat

Zusammengefasst, was ist nun besser? Die Bayessche oder die frequentistische Methode?

Wie bereits gesagt: beide statistischen Methoden sind tragfähig. AB Tasty hat sich aus den folgenden Gründen für das Bayessche Statistikmodell entschieden:

  • Verwendung eines Wahrscheinlichkeitsindexes, der eher dem entspricht, was die Nutzer und Nutzerinnen denken, statt eines p-Werts oder eines verschleierten Werts
  • Bereitstellung von Konfidenzintervallen für fundiertere Geschäftsentscheidungen (nicht alle Gewinnervarianten sind wirklich interessant, um sie in die Produktion zu bringen). Ebenfalls ein Mittel, um falsch positive Fehler zu reduzieren.

 

Im Endeffekt ergibt es einen Sinn, dass die frequentistische Methode ursprünglich von so vielen Unternehmen übernommen wurde. Am Ende handelt es sich um eine Standardlösung, die leicht zu codieren und in jeder Statistikbibliothek zu finden ist (ein besonders wichtiger Vorteil, da die meisten EntwicklerInnen keine Statistiker sind).

Dennoch, auch wenn diese Methode anfangs für Experimente großartig war, gibt es heute bessere Möglichkeiten: die Bayessche Methode. Alles hängt davon ab, was Ihnen diese Möglichkeiten bieten: Während die frequentistische Methode zeigt, ob es einen Unterschied zwischen A und B gibt, geht die Bayessche Methode einen Schritt weiter und berechnet, wie groß der Unterschied ist.

Kurzum, bei Durchführung eines Experiments haben Sie bereits die Werte für A und B. Nun möchten Sie herausfinden, welchen Gewinn Sie erzielen, wenn Sie von A zu B wechseln. Diese Frage lässt sich am besten mit einem Bayesschen Test beantworten.

 

Der Beitrag Bayes vs. Frequentist: Wie AB Tasty sich für ein statistisches Modell entschieden hat erschien zuerst auf abtasty.

]]>
Die Rolle von statistischer Signifikanz bei A/B-Tests https://www.abtasty.com/de/blog/statistische-signifikanz-a-b-tests/ Wed, 19 Jan 2022 13:37:38 +0000 https://www.abtasty.com/?p=89439 In diesem Beitrag führen wir Sie durch die wichtigsten Konzepte, die es für die statistische Signifikanz in A/B Tests zu verstehen gilt.

Der Beitrag Die Rolle von statistischer Signifikanz bei A/B-Tests erschien zuerst auf abtasty.

]]>
Statistische Signifikanz ist ein leistungsfähiges digitales Marketingtool, das aber oft unzureichend genutzt wird. 

Als gleichermaßen theoretisches und praktisches Konzept können Sie statistische Signifikanzmodelle zur Optimierung zahlreicher zentraler Marketingaktivitäten (einschließlich A/B-Tests) verwenden.

A/B-Tests sind ein wesentlicher Bestandteil, um die User Experience (UX) eines für den Kunden sichtbaren Touchpoints (Landingpage, Zahlungsprozess, mobile App usw.) zu verbessern, die Performance zu steigern und die Conversions zu fördern.

Durch die Erstellung zweier Versionen eines bestimmten Marketing-Assets – beide mit leicht unterschiedlichen Funktionen oder Elementen – und der Analyse ihrer Performance, können eine optimierte Landingpage, E-Mails, Web-Apps usw. entwickelt werden, die die besten Ergebnisse erzielen. Diese Methodik wird auch als Hypothesentest mit zwei Stichproben bezeichnet.

Wenn es um A/B-Tests und ihren Erfolg geht, spielt statistische Signifikanz eine wichtige Rolle. In diesem Artikel werden wir dieses Konzept im Detail erläutern und erklären, wie statistische Signifikanz den Prozess des A/B-Testing verbessern kann. Zuvor wollen wir jedoch auf die Bedeutung von statistischer Signifikanz eingehen. 

[toc]

 

Was ist statistische Signifikanz und warum ist sie wichtig?

Investopedia definiert statistische Signifikanz wie folgt:

„Die Behauptung, dass ein Ergebnis aus Daten, die durch Tests oder Experimente generiert wurden, wahrscheinlich nicht durch Zufall auftritt, sondern auf eine bestimmte Ursache zurückzuführen ist.“

So gesehen bietet Ihnen die statistische Signifikanz die Möglichkeit, einer bestimmten Ursache auf den Grund zu gehen und dadurch fundierte Entscheidungen zu treffen, aus denen Ihr Unternehmen Nutzen zieht. Im Grunde genommen ist statistische Signifikanz das Gegenteil von „im Dunkeln tappen“.

Statistische Signifikanz

Mit Tests und Experimenten fundierte Entscheidungen treffen

 

Berechnung der statistischen Signifikanz

Um die statistische Signifikanz exakt zu berechnen, kommen am häufigsten der Chi-Quadrat-Test bzw. die Chi Quadrat-Verteilung nach Pearson zum Einsatz.

Bei dem von Karl Pearson entwickelten Chi-Quadrat-Test (Chi ist der Buchstabe ‚x‘ im Griechischen) quadrieren NutzerInnen ihre Daten, um mögliche Variablen hervorzuheben.

Diese Methodik basiert auf ganzen Zahlen. Zum Beispiel wird das Chi-Quadrat häufig verwendet, um im Marketing die Conversion Rate zu testen – ein eindeutiges Szenario, bei dem UserInnen entweder die gewünschte Aktion ausführen oder nicht.

Im digitalen Marketing wird die Chi-Quadrat-Methode von Pearson nach folgender Formel angewendet:

Statistische Signifikanz = Wahrscheinlichkeit (p) < Schwellenwert (ɑ)

 

Vor diesem Hintergrund wird ein Test oder Experiment als statistisch signifikant betrachtet, wenn die Wahrscheinlichkeit (p) kleiner ist als der festgelegte Schwellenwert (a), welcher auch als Alpha bezeichnet wird. Klarer ausgedrückt: Ein Test erweist sich als statistisch signifikant, wenn die Wahrscheinlichkeit gering ist, dass ein Ergebnis dem Zufall zu verdanken ist.

Statistische Signifikanz ist wichtig, denn die Anwendung dieser im Marketing gibt Ihnen die Sicherheit, dass sich Ihre Anpassungen einer Kampagne, einer Website oder einer App auf das Engagement, die Conversion Rates und andere zentrale Kennzahlen positiv auswirken.

Im Wesentlichen beruhen statistische Signifikanzergebnisse nicht auf Zufall, sondern hängen vorrangig von zwei Variablen ab: Stichprobengröße und Effektstärke.

 

Statistische Signifikanz und digitales Marketing

An dieser Stelle haben Sie wahrscheinlich eine Vorstellung davon, welche Rolle statistische Signifikanz im digitalen Marketing spielt.

Wenn Sie Ihre Daten nicht validieren oder Ihren Erkenntnissen keine Glaubwürdigkeit verleihen, müssen Sie wahrscheinlich zu Werbeaktionen greifen, die nur einen sehr geringen Wert oder Return on Investment (ROI) bieten, vor allem wenn es um A/B-Tests geht.

Trotz der Fülle an Daten in unserem digitalen Zeitalter treffen viele Marketingexperten immer noch Entscheidungen aus dem Bauch heraus.

Im Dunkeln zu tappen mag zwar gelegentlich positive Ergebnisse hervorbringen, aber um Kampagnen oder Assets zu erstellen, die bei Ihrer Zielgruppe auf deutliche Resonanz stoßen, sind intelligente Entscheidungen auf Grundlage wasserdichter Erkenntnisse von zentraler Bedeutung.

Bei der Durchführung von Tests oder Experimenten, die sich auf Schlüsselelemente Ihrer digitalen Marketingaktivitäten stützen, sollten Sie methodisch vorgehen, um sicherzustellen, dass jeder Schritt, den Sie unternehmen, einen wirklichen Mehrwert bietet. Und die statistische Signifikanz hilft Ihnen dabei.

 

Statistische Signifikanz für A/B-Tests verwenden

Jetzt zu den A/B-Tests oder genauer gesagt, zu der Frage, wie Sie Ihre A/B-Test mit statistischer Signifikanz verbessern können.

Einsatzmöglichkeiten für Tests

Bevor wir uns mit der Praxis befassen, sollten wir uns fragen, welche A/B-Tests mit statistischer Signifikanz durchgeführt werden können:

  • E-Mail Klicks, Öffnungsraten und Engagement
  • Conversion Rates auf Landingpage
  • Antworten auf Benachrichtigungen
  • Conversions nach Push Notifications
  • KundInnenreaktionen und Browsing-Verhalten
  • Reaktionen auf Produkteinführungen
  • Calls to Action (CTAs) auf Websites

 

Die statistischen Schritte

Um A/B-Tests mit statistischer Signifikanz (Chi-Quadrat-Test) erfolgreich durchzuführen, sollten Sie folgende Schritte befolgen:

 

  1. Stellen Sie eine Nullhypothese auf

Hinter der Nullhypothese steckt der Gedanke, dass Sie hier keine signifikanten Ergebnisse erhalten werden. Eine Nullhypothese könnte beispielsweise lauten, dass es keine ausdrücklichen Beweise dafür gibt, dass Ihre Zielgruppe Ihren neuen Zahlungsprozess dem ursprünglichen Zahlungsprozess vorzieht. Solche Hypothesen oder Behauptungen werden als Benchmark verwendet.

 

  1. Erstellen Sie eine alternative Theorie oder Hypothese

Nach der Nullhypothese sollten Sie eine alternative Theorie aufstellen, mit dem Ziel, sie endgültig beweisen zu können. In diesem Zusammenhang könnte die alternative Behauptung lauten: Unsere Zielgruppe bevorzugt unseren neuen Zahlungsprozess.

 

  1. Legen Sie Ihren Schwellenwert fest

Nachdem Sie Ihre Hypothesen aufgestellt haben, sollten Sie einen Schwellenwert in Prozenten ((a) oder Alpha) festlegen, der die Gültigkeit Ihrer Theorie bestimmt. Je niedriger der Schwellenwert – oder (a) –, desto strenger der Test. Wenn Ihr Test auf einem umfangreicheren Asset wie z. B. einer vollständigen Landingpage basiert, können Sie einen höheren Schwellenwert festlegen als für die Analyse einer ganz bestimmten Kennzahl oder eines bestimmten Elements wie beispielsweise eines CTA-Buttons.

Für beweiskräftige Ergebnisse müssen Sie den Schwellenwert unbedingt vor einem A/B-Test oder Experiment festlegen.

 

  1. Führen Sie Ihren A/B Test durch

Sobald Sie Ihre Theorien und Schwellenwerte festgelegt haben, ist es an der Zeit, den A/B-Test durchzuführen. In diesem Beispiel AB-testen Sie zwei Versionen (A und B) Ihres Zahlungsprozesses und dokumentieren die Ergebnisse.

Hier können Sie die Abbruch- sowie die Conversion Rate vergleichen, um festzustellen, welche Version besser abgeschnitten hat. Wenn der Zahlungsprozess B (die neuere Version) bessere Ergebnisse als das Original (Version A) liefert, dann hat sich Ihre alternative Theorie oder Hypothese bestätigt.

 

  1. Wenden Sie die Chi-Quadrat-Methode an

Mit Ihren Erkenntnissen können Sie den Chi-Quadrat-Test anwenden und feststellen, ob die tatsächlichen Ergebnisse von den erwarteten Ergebnissen abweichen.

Um Ihnen zu helfen, Chi-Quadrat-Berechnungen auf Ihre A/B-Test-Ergebnisse anzuwenden, finden Sie hier ein Video-Tutorial:

 

Durch die Anwendung von Chi-Quadrat-Berechnungen auf Ihre Ergebnisse können Sie feststellen, ob das Ergebnis statistisch signifikant ist (wenn Ihr (p)-Wert niedriger als Ihr (a)-Wert ist), und sich gleichzeitig Ihrer Entscheidungen, Aktivitäten oder Initiativen sicher sein.

 

  1. Setzen Sie die Theorie in die Praxis um

Wenn Sie zu einem statistisch signifikanten Ergebnis gekommen sind, sollten Sie sicher sein, dass Sie die Theorie auch in die Praxis umsetzen können.

Wenn die Theorie des Zahlungsprozesses in diesem Beispiel eine statistisch signifikante Beziehung aufweist, würden Sie die fundierte Entscheidung treffen, die neue Version (Version B) bei Ihrem gesamten KundInnenstamm oder Ihrer Population einzuführen statt nur bei bestimmten Segmenten Ihrer Zielgruppe.

Sollten Ihre Ergebnisse nicht als statistisch signifikant betrachtet werden, würden Sie eine weitere, größere Stichprobe A/B-testen.

Anfangs können sich Experimente zur statistischen Signifikanz als schwierig erweisen. Es gibt jedoch kostenlose Online-Berechnungstools, die Ihnen die Arbeit erleichtern können.

 

Statistische Signifikanz und A/B-Tests: Was Sie vermeiden sollten

Es ist zwar wichtig zu wissen, wie Sie die statistische Signifikanz bei Ihren A/B-Tests effektiv anwenden können, aber ebenso wichtig ist es zu wissen, was Sie vermeiden sollten.

Im Folgenden finden Sie einen Überblick über die häufigsten Fehler bei A/B-Tests, um sicherzustellen, dass Sie Ihre Experimente und Berechnungen erfolgreich durchführen:

  • Überflüssige Verwendung: Bei kostengünstigen oder reversiblen Marketinginitiativen oder -aktivitäten müssen Sie Ihren A/B-Tests keine strategische Bedeutung beimessen, da sie letztendlich Zeit kosten. Wenn Sie etwas testen, das nicht reversibel ist oder eine endgültige Antwort erfordert, sollten Sie sich für Chi-Quadrat-Tests entscheiden.
  • Mangelnde Anpassungen oder Vergleiche: Wenn Sie die statistische Signifikanz bei A/B-Tests anwenden, sollten Sie mehrere Variationen oder mehrere Vergleiche zulassen. Andernfalls werden Ihre Ergebnisse entweder verfälscht oder begrenzt, wodurch sie in manchen Fällen unbrauchbar werden.
  • Verzerrungen erzeugen: Bei A/B-Tests dieser Art werden Experimente häufig unbewusst beeinflusst, wenn zum Beispiel die Population oder der KundInnenstamm nicht als Ganzes berücksichtigt wird.

 

Um dies zu vermeiden, müssen Sie Ihren Test vor Beginn auf Herz und Nieren prüfen, damit Ihre Ergebnisse nicht durch bestimmte Variablen in die falsche Richtung gelenkt werden. Ist Ihr Test z. B. auf eine bestimmte geografische Region ausgerichtet oder auf eine bestimmte User-Demografie beschränkt? Wenn ja, sollten vielleicht Anpassungen vorgenommen werden.

Statistische Signifikanz spielt bei A/B-Tests eine zentrale Rolle und bietet eine Reihe von Erkenntnissen, die den geschäftlichen Erfolg branchenübergreifend beschleunigen können, wenn Sie die Dinge richtig angehen.

Für Erkenntnisse oder eine Validierung sollten Sie sich zwar nicht auf statistische Signifikanz verlassen, aber sie ist sicherlich ein Instrument, das Sie in Ihrem digitalen Marketing-Toolkit haben sollten.

Wir hoffen, dass Ihnen dieser Leitfaden alle Informationen bietet, die Sie brauchen, um mit statistischer Signifikanz zu beginnen. Haben Sie eine Anmerkung oder möchten Sie Ihre Erfahrung teilen? Hinterlassen Sie einfach einen Kommentar.

Der Beitrag Die Rolle von statistischer Signifikanz bei A/B-Tests erschien zuerst auf abtasty.

]]>