Ben je wel betrouwbaar aan het A/B-testen?

A/B-testen is de beste methodiek om causaliteit aan te tonen. Het biedt je bewijs van hoge kwaliteit om te onderbouwen hoe een bepaalde keuze gemaakt moet worden. Mits de betrouwbaarheid van de A/B-tests goed op orde is.
A/A-test
De beste manier om te valideren of je A/B-testoplossing betrouwbare uitkomsten geeft, is het uitvoeren van een A/A-test. Hetzelfde tegen hetzelfde toetsen zou immers geen significant resultaat moeten opleveren, toch? Dit is echter onjuist. De uitslag van een A/A-test is een P-waarde tussen 0 en 1, wat betekent dat de uitkomst van deze toetsing ook een significant effect kan zijn.
Om te leren of je A/B-testoplossing betrouwbaar is moet je honderden A/A-testen uitvoeren (of simuleren) en de P-waarden van de uitslagen van deze testen plotten op een 0 tot 1 lijn. Pas als de spreiding over deze hele lijn in balans is (oftewel: er zijn overal evenveel stippen geplot) heb je te maken met een betrouwbare opzet.
Triggers
Veel mensen vinden het spannend om een nieuwe variatie met een A/B-test direct op de helft van alle bezoekers te toetsen. Om aan te tonen of iets wel of juist niet goed werkt zul je echter een bepaald aantal bezoekers moeten toetsen. Minder bezoekers per dag zorgt dan alleen voor een langere testperiode, het aantal benodigde bezoekers is immers gelijk. Dan is het logischer om sneller te leren wat het resultaat is.
Dit geldt ook voor het spotten van fouten en bugs. Hoe sneller de data binnenkomen, hoe eerder je daarvan weet. Dit voorkomt ook dat er tijdens de A/B-test wijzigingen worden gemaakt in de verdeling van bezoekers naar A en B. Dit kan namelijk leiden tot het kiezen van de verkeerde winnaar: ook wel Simpons paradox genoemd.
SRM-fouten
Met een A/B-test bereken je de kans op de gemeten uitslag wanneer er geen verschil tussen A en B zou zijn (de P-waarde, de ‘probability value’). Als deze kans heel laag is, dan heeft B ‘gewonnen’. Je wilt echter ook toetsen of de gemeten verdeling van bezoekers in A en B niet te veel afwijkt van de verdeling zoals deze vooraf is bedoeld. Wanneer je de bezoekers fifty-fifty wilde verdelen en je meet er 600 in A en 400 in B, dan kun je uitrekenen hoe groot de kans is dat je deze verdeling meet. Als deze waarschijnlijkheid heel laag is, dan is er sprake van een Sample Ratio Mismatch (SRM) Error. Dit wil je toetsen voor al je belangrijke segmenten in de test, waarbij je de uitslag dan niet accepteert wanneer er sprake is van een SRM-fout.
Resultaat
Zodra het resultaat van de A/B-test bekend is en er geen sprake is van SRM-fouten, kun je berekenen of het resultaat niet te mooi is om waar te zijn. De test heeft een bepaald aantal bezoekers gehad (X), het normale conversie percentage (Y) is bekend en je hebt een bepaalde relatieve stijging gemeten (Z). Daarnaast is de P-waarde laag genoeg om B als winnaar te kiezen.
Je kunt nu echter ook berekenen hoeveel bezoekers er nodig zijn voor een test waarbij het conversiepercentage Y is en de verwachte stijging Z, en waarbij je genoeg kans wilt hebben om een significant resultaat te meten. Als dit aantal bezoekers vele malen hoger is dan X, dan is de kans groot dat je een vals positief resultaat hebt gemeten of in ieder geval het gemeten effect overdreven is.
* Dit artikel verscheen eerder in het oktobernummer van Emerce magazine (#191).
Over de auteur: Ton Wesseling is conversie-optimalisatie-consultant en de oprichter van de internationale Optimizers community en de Experimentation Culture Awards.
Op de hoogte blijven van het laatste nieuws binnen je vakgebied? Volg Emerce dan ook op sociale media: LinkedIn, Twitter en Facebook.

Lees hier het bericht