Was ist A/B-Testing?
A/B-Tests vergleichen und testen zwei verschiedene Versionen von Websites oder Funktionen. So findest du heraus, welche besser funktioniert.
A/B-Tests vergleichen und testen zwei verschiedene Versionen von Websites oder Funktionen. So findest du heraus, welche besser funktioniert. Andere Begriffe sind A/B-Testing und Split Testing. A oder B: Wer welche Variante sieht, entscheidet das Zufallsprinzip.
Ein Teil der Nutzer oder Kunden gelangt automatisch zu der einen, der Rest zur anderen. Es ist wichtig (und sehr interessant) zu wissen, welche Variante besser abschneidet.
Dafür gibt es verschiedene Kriterien wie Klicks und die Conversion Rate, die ein A/B-Test statistisch auswertet. Anhand der Ergebnisse kannst du deine vorher aufgestellte Hypothese bestätigen oder verwerfen.
Du kannst A/B-Tests mit zwei sehr ähnlichen Varianten durchführen, die sich nur minimal unterscheiden, aber einen großen Unterschied ausmachen – z. B. beim User Engagement oder bei der Conversion Rate.
Schauen wir uns ein Beispiel an…
Angenommen wir wollen testen, ob Buttons wie „Zum Warenkorb hinzufügen“ und „Größe wählen“ die Navigation erleichtern und zu mehr Klicks und Käufen führen. Die Abbildung rechts zeigt die sogenannte Testversion und links siehst du die Kontrollvariante.
Es gibt immer eine Hypothese, auf die sich deine Variation bezieht. Der A/B-Test vergleicht diese Variation dann mit der Kontrollvariante, um die Hypothese zu beweisen oder zu widerlegen. So funktioniert ein A/B-Test Ein A/B-Test sammelt Daten, die deine Kernfrage beantworten: Welche Variante ist besser für mein Business? Mit anderen Worten: Du kannst beispielsweise messen, welche Gruppe von Nutzern eine statistisch signifikant höhere Conversion Rate hat.
Auch interessant: Case Studies als Inspiration für A/B-Tests auf deiner eigenen Website.
Arten von A/B-Tests
Deine Anforderungen und Ziele entscheiden, welcher A/B-Test die beste Wahl ist. Wir erläutern drei Arten am Beispiel von Websites.
- Klassischer A/B-Test: verwendet zwei Versionen einer Webseite unter derselben URL, um eine oder mehr Varianten mit der Kontrollseite zu vergleichen.
- Split-Test: spielt die geänderte Version auf einer anderen URL (für die Nutzer verborgen) aus, sodass sich der Traffic zwischen den Varianten und der Kontrollseite mit der Original-URL verteilt.
- Multivariater Test (MVT): misst die Auswirkungen mehrerer Änderungen auf derselben Website, um herauszufinden, welche Kombination von Variablen von allen möglichen Kombinationen am besten funktioniert. Die Umsetzung ist meist komplizierter als bei den anderen und erfordert sehr viel Traffic.
Statistiken zu A/B-Tests
A/B-Tests beruhen auf statistischen Methoden. Deshalb ist es wichtig zu wissen, mit welchem statistischen Ansatz du einen A/B-Test durchführst. Nur so kannst du die richtigen Schlussfolgerungen ziehen und deine Geschäftsziele erreichen.
Welches statistische Modell bietet sich an?
Es gibt zwei Hauptansätze, die von A/B-Testern verwendet werden, wenn es um die statistische Signifikanz geht: Frequentistische und Bayessche Tests.
Der Frequentistische Ansatz basiert auf der Beobachtung von Daten zu einem bestimmten Zeitpunkt, wobei die Analyse der Ergebnisse erst am Ende des Tests erfolgt. Das ist bei der Bayesschen Methode anders, denn sie ist deduktiv und verfolgt eher einen Prognoseansatz – deshalb kannst du die Ergebnisse schon vor dem Testende analysieren.
Wenn du einen frequentistischen A/B-Test entwickelst, würdest du die beste Variante nur aufgrund der Ergebnisse dieses einen Versuchs bestimmen. Beim Bayesschen A/B-Testing kombinierst du hingegen Informationen aus früheren Tests mit neuen Daten und ziehst daraus eine Schlussfolgerung.
Möchtest du noch mehr zu den Unterschieden zwischen den beiden Ansätzen wissen? Dann schau dir unseren Artikel „Bayes vs. Frequentist: Wie AB Tasty sich für ein statistisches Modell entschieden hat“ an.
Um die Ergebnisse statistisch ausreichend sicher zu analysieren, gehen wir in der Regel von einem Schwellenwert von 95 % aus – das entspricht einem p-Wert von 0,05. Höchstes Ziel sind immer genug Daten, um anhand der Ergebnisse zuverlässige Vorhersagen treffen zu können. Umso wichtiger ist es, dass die Webseiten deiner A/B-Tests einen hohen Traffic haben.
Was bedeutet statistische Signifikanz? Davon sprechen wir, wenn das Ergebnis höchstwahrscheinlich kein Zufall, sondern auf eine bestimmte Ursache oder einen Trend zurückzuführen ist. Somit ist die statistische Signifikanz das Maß an Sicherheit, dass der Unterschied zwischen Kontrolle und Variation nicht zufällig ist.
Dieses sogenannte Vertrauens- oder Konfidenzintervall resultiert aus einer Reihe von Beobachtungen und gibt den Prozentsatz an, zu dem das gleiche Ergebnis mit anderen Daten in einem ähnlichen zukünftigen Experiment erzielt wird.
Auch interessant: Entmystifizierung der A/B-Test-Statistik
Optimiere deine Funktionen mit A/B-Tests
Mit A/B-Tests kannst du perfekt experimentieren. Und A/B-Tests mit Feature Flags sind sogar noch besser.
Feature Flags sind ein Instrument der Softwareentwicklung, mit dem du Funktionen aktivieren oder deaktivieren kannst, ohne Code zu verwenden. Wir haben schon intensiv darüber gesprochen, wie vielseitig einsetzbar sie sind – auch in A/B-Tests.
Typischerweise kommen A/B-Tests für Frontend-Tests auf Websites oder in Anwendung zum Einsatz. Aber sie können noch tiefer gehen und auch Backend-Funktionen oder neue Features testen.
Hier kommen die Feature Flags ins Spiel. Erst testest du deine Funktionen und dann sprichst du Nutzer gezielt an, indem du sie in verschiedene Segmente einteilst. Auf die serverseitigen Tests gehen wir im nächsten Abschnitt näher ein.
So funktioniert es: Du legst Varianten fest und ordnest ihnen Prozentsätze zu. Weil die Varianten mit einem Mix aus verschiedenen Flag-Werten erstellt werden, kannst du alle im System verfügbaren Flags verwenden und kombinieren. Dann testest du die verschiedenen Kombinationen und schaust, wie deine Nutzer reagieren.
Wenn du verschiedene Varianten deines Features parallel an einen vordefinierten Teil der Nutzer ausgibst, sagen dir die gewonnenen Daten, welche Variante am besten ist.
Solche Feature Flags oder (Experiment) Toggles sind sehr dynamisch und bleiben meist Tage oder Wochen im Code – also lange genug, um die für A/B-Tests erforderlichen statistisch signifikanten Ergebnisse zu erzielen.
Clientseitige vs. serverseitige A/B-Tests
Es ist wichtig, zwischen client- und serverseitigen Tests zu unterscheiden. Erstere finden nur auf der Ebene des Webbrowsers statt, sodass du visuelle und strukturelle Varianten deiner Website testen kannst.
Serverseitige Tests sind schon möglich, bevor die HTML-Seiten überhaupt vom Browser des Nutzers gerendert werden.
Serverseitig zu arbeiten bedeutet, dass du Optimierungskampagnen für die Backend-Architektur direkt aus dem Code heraus durchführen kannst. Das hat große Vorteile.
Clientseitige Tests arbeiten mit Cookies, um dich zu identifizieren. Wenn du die Website erneut aufrufst, weiß der Browser sofort, wer du bist – und zeigt dir die gleiche Variante der Website an wie beim ersten Mal. In einer Welt, in der immer mehr Nutzer die Cookies ablehnen, kann das herausfordernd sein.
Auch die Performance ist ein Thema.
Clientseitige Tests beruhen auf Javascript-Snippets. Sie müssen von einem Drittanbieter abgerufen und ausgeführt werden, um Änderungen vorzunehmen. Das kann zu einem unangenehmen Phänomen führen: Flash of Original Content (FOOC). Gemeint ist ein optisches Flackern, welches das Nutzererlebnis und somit die Validität des A/B-Tests beeinträchtigen kann. Erfahre, wie du den „Flicker-Effekt“ vermeiden kannst..
Serverseitiges Testen trackt alle Nutzer mit eindeutigen IDs, die du im Backend frei verwaltest (z. B. Nutzerdatenbank für eingeloggte User, Session-ID bei Besuchen oder Cookies als letzte Option).
Weiterlesen: Clientseitige vs. serverseitige Experimente [Infografik]
mit ABTasty
Erhalten Sie eine individuelle Komplettlösung für die Plattform
Demo anfordern