Qu’est-ce qu’un calculateur de taille d’échantillon
Notre calculateur de taille d’échantillon permet de calculer facilement la taille de la population nécessaire pour qu’un test soit statistiquement significatif (par exemple, le nombre de visiteurs dont vous avez besoin pour estimer qu’une perte ou un gain de x % est fiable avec un niveau de confiance de 95 %).
Qu’est-ce que l’hypothèse nulle ?
L’hypothèse nulle est la règle des tests statistiques « fréquentistes », selon laquelle il n’y a pas de différence entre les variations (d’où le nom « nulle »).
Lorsque le résultat d’un test est négatif, cela signifie qu’il y a bien une différence : on nie l’hypothèse nulle. Au contraire, lorsque le résultat du test est positif, cela signifie qu’il n’y a pas de différence entre les variations.
Ceci est lié au concept de la valeur-p.
Qu’est ce que la valeur-p ?
La valeur-p est la probabilité du résultat d’un A/B test compte tenu de l’hypothèse nulle.
En résumé, si la valeur-p est faible (inférieure à 0,05), il est peu probable que l’hypothèse nulle soit vraie, c’est-à-dire qu’il y ait une différence entre les variations.
Au contraire, si la valeur-p est élevée (supérieure à 0,05), l’hypothèse nulle est vraisemblablement vraie, ce qui signifie qu’il n’y a probablement pas de différence réelle entre les variations. À ce stade, vous ne pouvez pas conclure et vous avez besoin de plus de données pour poursuivre l’analyse.
Cette valeur-p n’informe que sur l’existence d’une différence, elle ne donne aucune information sur sa taille ou sur le fait de savoir si A > B ou B > A.
Remarque : la formulation de la valeur-p étant un peu confuse, elle est souvent traduite en « niveau de confiance » à l’aide du pourcentage : (1 – valeur p)*100″.
Qu’est-ce que la signification statistique ?
Atteindre la signification statistique veut dire que le niveau de confiance est égal ou supérieur à un seuil donné. La théorie veut que ce seuil soit fixé une seule fois : avant le début de l’expérience.
Pour le seuil de confiance, un seuil conventionnel de signification statistique est de 95 % (correspondant à une p-valeur de 0,05), mais ce n’est qu’une convention.
Ce seuil doit être fixé en tenant compte des caractéristiques propres à chaque entreprise, car il est directement lié au risque jugé raisonnable pour l’expérience.
N’oubliez pas non plus qu’une signification statistique de 95 % signifie que, statistiquement, 1 résultat sur 20 sera erroné, sans qu’il soit possible de le détecter.
Sur quel algorithme est basé ce calculateur de signification statistique ?
L’algorithme est actuellement basé sur une estimation de la formule de la statistique z, généralement utilisée pour la distribution normale. AB Tasty propose également des A/B tests bayésiens et des tests Multi-armed Bandit
Qu’est-ce que la « puissance statistique » d’un test ?
La puissance statistique est la capacité d’un test à détecter un effet, si l’effet existe réellement, c’est-à-dire : détecter une différence entre des variations si une différence réelle existe.
Quelles sont les erreurs de type I et II ?
Les prédictions comportent deux types d’erreurs. Pour les A/B test, une erreur de type I, également appelée « faux positif », consiste à déclarer une mauvaise variation comme gagnante, tandis qu’une erreur de type II consiste à manquer une variation gagnante.
La distinction n’est pas seulement théorique : les erreurs de type I et de type II n’impliquent souvent pas le même coût ! Il est donc souhaitable de les traiter différemment
Quelle est la différence entre un test unilatéral et un test bilatéral ?
La différence réside dans la portée de leurs résultats :
Les tests unilatéraux ne donnent qu’une seule information sur la question de savoir si A = B ou non. Si A != B, il se peut que A > B ou A < B.
Les tests bilatéraux donneront une information supplémentaire : si A != B, est-ce que A > B ou A < B ?
Cette information est très importante pour les A/B tests, car le sens d’une différence, s’il y en a une, est généralement inconnu avant le début de l’expérience.
Les tests bilatéraux sont plus sûrs et c’est ce que nous utilisons chez AB Tasty.