Test de significativite statistique A/B test
.webp)
Méthode d’analyse statistique utilisée pour déterminer si les résultats observés dans un test (comme un A/B test) sont suffisamment fiables pour être attribués à un effet réel plutôt qu’au hasard ou à une fluctuation aléatoire. C’est un outil fondamental pour valider ou rejeter une hypothèse, en s’appuyant sur des données quantitatives.
🎯 Objectif :
Évaluer si la différence entre deux (ou plusieurs) variantes est statistiquement significative, c’est-à-dire qu’elle a peu de chances d’être due au hasard. Cela permet de prendre des décisions fondées et de minimiser les faux positifs (conclure à tort qu’une variation est meilleure).
🔍 Fonctionnement :
Le test repose sur deux hypothèses :
- Hypothèse nulle (H₀) : il n’y a aucune différence réelle entre les variantes testées.
- Hypothèse alternative (H₁) : il y a une différence significative.
On calcule alors une p-value : la probabilité d’obtenir un écart au moins aussi grand que celui observé, si l’hypothèse nulle était vraie.
→ Si la p-value est inférieure au seuil de signification (généralement 0,05), on rejette l’hypothèse nulle → la différence est considérée comme statistiquement significative.
📊 Indicateurs associés :
- P-value : mesure de la surprise ; plus elle est faible, plus l'effet est potentiellement réel.
- Niveau de confiance (souvent 95 %) : probabilité de ne pas se tromper en concluant à une différence.
- Puissance statistique : capacité du test à détecter un effet réel s’il existe, souvent fixée à 80 % ou plus.
- Minimum Detectable Effect (MDE) : plus l’effet attendu est petit, plus il faut de trafic pour conclure.
🧪 Application en CRO :
Dans un test A/B ou multivarié, le test de significativité statistique est indispensable pour :
- valider une variation comme “gagnante” ou non,
- éviter les erreurs d’interprétation dues à des effets de bruit ou à des tests arrêtés trop tôt (p-hacking),
- s’assurer que les résultats sont généralisables, pas simplement liés à une période ou un segment particulier.