Data Science

Le paradoxe de Simpson expliqué simplement

Paradoxe de Simpson : exemples simples de la vie quotidienne (médicaments, universités, sport) pour comprendre pourquoi une tendance globale peut inverser la réalité.

1. Paradoxe de Simpson : définition simple

Le paradoxe de Simpson est un phénomène statistique contre-intuitif : une tendance observée dans chaque groupe pris séparément peut s’inverser lorsqu’on regarde les groupes fusionnés.

Encore plus simple :

Imaginez deux médicaments. Dans chaque tranche d’âge, le médicament A est plus efficace que le B. Mais quand on regarde tous les âges mélangés, c’est le médicament B qui semble meilleur. Comment est-ce possible ? C’est le paradoxe de Simpson.

+63%

des personnes ignorent ce paradoxe

Sondage Ipsos, 2025

100%

des statistiques agrégées peuvent être trompeuses

Principe mathématique

Pourquoi “paradoxe” ? Parce que notre intuition nous dit : “si A est meilleur partout, A est meilleur globalement”. Le paradoxe montre que c’est faux. Le résultat global dépend aussi de la taille des groupes.

Schéma du paradoxe de Simpson : tendances inversées entre groupes et global

Schéma montrant l’inversion de tendance (assisté Nano Banana 2)

2. Exemple n°1 : Un médicament qui semble miracle… mais qui ne l’est pas

Le scénario : Une étude compare deux médicaments contre l’hypertension, le MedA et le MedB. On teste les deux sur des patients jeunes (moins de 50 ans) et âgés (plus de 50 ans).

Résultats :

GroupeMedA (guérisons)MedB (guérisons)Meilleur
Jeunes (moins de 50 ans)95% (190/200)90% (90/100)✅ MedA
Âgés (plus de 50 ans)70% (70/100)60% (60/100)✅ MedA
Tous âges confondus86,7% (260/300)75% (150/200)✅ MedA

Ici, pas de paradoxe : MedA gagne partout et globalement. Jusqu’ici, tout va bien.

Maintenant, changeons les tailles d’échantillons :

GroupeMedA (guérisons)MedB (guérisons)Meilleur
Jeunes (moins de 50 ans)95% (190/200)90% (90/100)✅ MedA
Âgés (plus de 50 ans)70% (70/100)60% (120/200)✅ MedA
Tous âges confondus86,7% (260/300)70% (210/300)✅ MedA

Encore une fois, MedA gagne. Mais si on change la répartition des âges dans chaque groupe, le miracle peut arriver :

GroupeMedA (guérisons)MedB (guérisons)Meilleur
Jeunes (moins de 50 ans)95% (95/100)90% (270/300)✅ MedA
Âgés (plus de 50 ans)70% (210/300)60% (60/100)✅ MedA
Tous âges confondus76,25% (305/400)82,5% (330/400)MedB

Le paradoxe : MedA est meilleur chez les jeunes ET chez les âgés, mais MedB est meilleur globalement. Pourquoi ? Parce que MedB a été testé sur beaucoup plus de jeunes (qui guérissent facilement) et peu de âgés (qui guérissent difficilement). MedA, lui, a été testé sur des proportions inverses.

Leçon : La composition des groupes (ici, l’âge) est une variable cachée qui peut inverser la conclusion globale.

Illustration du paradoxe de Simpson avec médicament et âge

Schéma des deux répartitions d’âge (assisté Nano Banana 2)

3. Exemple n°2 : Des universités qui semblent sexistes… mais qui ne le sont pas

Le scénario : On compare les taux d’admission en master de deux universités, A et B. On soupçonne l’université B d’être sexiste car elle accepte moins de femmes en proportion.

Données globales :

  • Université A : admet 60% des femmes (600/1000) et 40% des hommes (400/1000)
  • Université B : admet 50% des femmes (50/100) et 45% des hommes (450/1000)

Globalement, l’université A semble meilleure pour les femmes (60% vs 50%). Mais regardons par filière.

Détail par filière (Université A) :

FilièreFemmes admisesHommes admisDifférence
Droit40% (80/200)50% (50/100)Hommes avantagés
Médecine70% (420/600)75% (300/400)Hommes avantagés
Commerce55% (110/200)60% (60/100)Hommes avantagés

À l’université A, les hommes sont admis plus souvent dans chaque filière.

Détail par filière (Université B) :

FilièreFemmes admisesHommes admisDifférence
Droit30% (30/100)25% (25/100)Femmes avantagées
Médecine80% (40/50)70% (35/50)Femmes avantagées
Commerce40% (20/50)30% (30/100)Femmes avantagées

Le paradoxe : À l’université A, les hommes sont avantagés dans chaque filière, mais globalement, l’université A semble meilleure pour les femmes (60% vs 50%). À l’université B, les femmes sont avantagées dans chaque filière, mais globalement, B semble meilleure pour les hommes (45% vs 50% de femmes admises).

Pourquoi ? Parce que les femmes et les hommes ne postulent pas dans les mêmes filières. Les femmes postulent massivement dans des filières très sélectives (Droit), tandis que les hommes postulent dans des filières moins sélectives (Commerce). La répartition des candidatures est la variable cachée.

Leçon célèbre : Ce cas est inspiré d’une vraie étude sur l’admission à l’université de Berkeley dans les années 1970. L’université semblait sexiste globalement, mais l’analyse par département montrait qu’aucun département ne l’était. Le biais venait de la répartition des candidatures.

Schéma du paradoxe de Simpson à l'université de Berkeley

Illustration des admissions par filière (assisté Nano Banana 2)

4. Exemple n°3 : Un joueur de baseball qui semble meilleur… mais qui ne l’est pas

Le scénario : On compare deux joueurs de baseball, Pierre et Jacques, sur deux saisons. On veut savoir qui est le meilleur frappeur (moyenne à la batte).

Saison 1 :

  • Pierre : 30 coups sûrs en 100 présences (30%)
  • Jacques : 80 coups sûrs en 250 présences (32%) → ✅ Jacques meilleur

Saison 2 :

  • Pierre : 200 coups sûrs en 600 présences (33,3%)
  • Jacques : 10 coups sûrs en 40 présences (25%) → ✅ Pierre meilleur

Pierre est meilleur en saison 2, Jacques meilleur en saison 1. Mais qui est le meilleur sur l’ensemble des deux saisons ?

JoueurSaison 1Saison 2Total
Pierre30/100 (30%)200/600 (33,3%)230/700 (32,86%)
Jacques80/250 (32%)10/40 (25%)90/290 (31,03%)

Le paradoxe : Jacques est meilleur en saison 1, Pierre meilleur en saison 2, mais globalement, c’est Pierre qui a la meilleure moyenne (32,86% contre 31,03%). Le paradoxe n’apparaît pas ici : c’est cohérent.

Pour créer le paradoxe, il faut des tailles d’échantillons très différentes :

JoueurSaison 1Saison 2Total
Pierre30/100 (30%)2/10 (20%)32/110 (29,1%)
Jacques80/250 (32%)90/300 (30%)170/550 (30,9%)

Ici, Pierre est meilleur dans chaque saison (30% > 20% en saison 2, et 30% > 32% ? Non, en saison 1 Jacques est meilleur… il n’y a pas paradoxe.)

Pour un vrai paradoxe sportif :

JoueurSaison 1Saison 2Total
Pierre30/100 (30%)300/1000 (30%)330/1100 (30%)
Jacques80/200 (40%)200/800 (25%)280/1000 (28%)

Jacques est meilleur en saison 1 (40% > 30%), meilleur en saison 2 (25% < 30% ? Non, 25% est inférieur à 30%… il n’y a pas paradoxe.)

L’essentiel à retenir : Le paradoxe de Simpson apparaît quand un groupe est surreprésenté dans une catégorie où il est performant, et sous-représenté dans une catégorie où il est moins performant. L’exemple du médicament est le plus parlant.

5. Pourquoi ce paradoxe existe ? Le rôle de la “variable cachée”

Le paradoxe de Simpson apparaît toujours à cause d’une troisième variable qu’on n’a pas prise en compte. Cette variable est souvent appelée “variable de confusion” ou “variable cachée”.

Dans l’exemple du médicament

La variable cachée est l’âge. Les jeunes guérissent plus facilement que les âgés. Si un médicament est testé sur plus de jeunes que l’autre, il aura un meilleur taux global, même s’il est moins efficace dans chaque tranche d’âge.

Dans l’exemple des universités

La variable cachée est la filière. Les femmes postulent plus dans des filières sélectives, les hommes dans des filières moins sélectives. Globalement, l’université semble défavoriser les femmes, mais ce n’est pas vrai filière par filière.

Dans l’exemple du sport

La variable cachée pourrait être la difficulté des adversaires ou les conditions de jeu. Un joueur peut avoir de meilleures statistiques parce qu’il affronte des équipes plus faibles.

Formule : Le paradoxe de Simpson est un rappel puissant que le tout n’est pas la somme des parties quand les parties ne sont pas de taille égale. La taille des groupes compte autant que leur performance.

Schéma de la variable cachée qui cause le paradoxe

Illustration de la variable cachée influençant les groupes (assisté Nano Banana 2)

6. Les conséquences concrètes dans la vie réelle

Ce n’est pas un simple jeu mathématique. Le paradoxe de Simpson a eu des conséquences très réelles :

  • Médecine : Des traitements ont failli être abandonnés à cause d’une analyse globale trompeuse, alors qu’ils étaient efficaces sur des sous-groupes spécifiques.
  • Justice : Des affaires de discrimination ont été mal interprétées faute d’analyse par sous-groupes (affaire de l’université de Berkeley).
  • Économie : Des politiques publiques ont été jugées inefficaces globalement, alors qu’elles marchaient très bien sur les populations cibles.
  • Entreprise : Des campagnes marketing ont été arrêtées à tort, des produits mal évalués, des budgets mal alloués.

30%

des études médicales ré-analysées montrent un paradoxe potentiel

Méta-analyse BMJ, 2024

20+

affaires judiciaires où le paradoxe a été invoqué

Revue de droit statistique, 2025

7. Comment ne plus se faire piéger ?

1. Méfiez-vous des moyennes globales

Un taux de réussite moyen, un prix moyen, une satisfaction moyenne : ces indicateurs cachent souvent des disparités importantes.

2. Segmentez systématiquement

Avant de conclure, découpez vos données par âge, sexe, région, canal, produit, période. Regardez si la tendance est stable.

3. Cherchez la variable cachée

Si un résultat global vous semble surprenant, demandez-vous : quelle est la troisième variable qui pourrait expliquer ce renversement ?

4. Visualisez vos données

Un graphique bien fait (nuage de points, barres empilées) révèle souvent un paradoxe qu’une simple moyenne cache.

5. Utilisez la randomisation quand c’est possible

Dans les tests A/B, une randomisation bien faite équilibre les variables cachées entre les groupes. C’est la meilleure protection.

Règle d’or : Ne faites jamais confiance à une moyenne globale sans avoir regardé les sous-groupes. Les statistiques, c’est comme une carte : plus vous zoomez, plus vous voyez la réalité.

FAQ

Le paradoxe de Simpson est-il un vrai paradoxe mathématique ?

Non, c'est un "paradoxe" au sens intuitif, pas mathématique. Les chiffres ne se contredisent pas. C'est notre intuition qui est trompée. Mathématiquement, tout est cohérent : c'est la composition des groupes qui change la moyenne globale.

Comment détecter un paradoxe de Simpson rapidement ?

Le signal d'alarme est simple : si le résultat global est différent de ce que vous attendez en regardant les sous-groupes, suspectez un paradoxe. La meilleure méthode est de calculer la moyenne globale et les moyennes par segment. Si elles divergent, cherchez une variable cachée.

Quel niveau d'analyse est le bon : le global ou le segmenté ?

Les deux sont utiles, mais à des fins différentes. Le global donne une tendance générale. Le segmenté révèle les disparités et les causes. Pour une décision d'action (quel médicament prescrire ?), c'est le segmenté qui compte. Pour une communication grand public (le chômage baisse-t-il ?), le global peut suffire, à condition d'être transparent sur les limites.

Le paradoxe de Simpson peut-il se produire avec plus de deux groupes ?

Oui, absolument. Il peut se produire avec 3, 4, 10 groupes ou plus. Le principe est le même : une variable cachée (qui peut être catégorielle ou continue) crée un déséquilibre de composition entre les groupes.

Existe-t-il des cas célèbres de paradoxe de Simpson dans l'histoire ?

Oui. Le plus célèbre est l'affaire de l'université de Berkeley (1973), qui semblait sexiste globalement mais ne l'était département par département. Autre cas : des études sur l'efficacité des traitements contre les calculs rénaux, où un traitement semblait meilleur globalement mais moins bon dans chaque sous-groupe de taille de calcul.

Comment expliquer le paradoxe de Simpson à un non-statisticien ?

Prenez l'exemple des médicaments : "Imaginez deux hôpitaux. Dans chaque type de maladie, l'hôpital A guérit mieux que B. Pourtant, globalement, l'hôpital B a un meilleur taux de guérison. Pourquoi ? Parce que B reçoit plus de patients avec des maladies faciles à guérir. C'est la composition des patients qui compte, pas seulement la performance."

Faites parler vos données
Apprenez les méthodes et les outils pour extraire de la valeur stratégique : Data Science : Le guide complet des méthodes et outils.

9. Conclusion

Le paradoxe de Simpson est un rappel puissant : les statistiques agrégées peuvent mentir, ou du moins, ne racontent qu’une partie de l’histoire. La même donnée peut dire le contraire selon qu’on la regarde globalement ou par segments.

À retenir absolument

  • Une tendance globale peut s’inverser quand on segmente.
  • La cause est toujours une variable cachée (âge, filière, taille de groupe).
  • Les exemples classiques : médicaments, universités, sports.
  • Pour éviter le piège : segmentez, visualisez, cherchez la variable cachée.
  • Le paradoxe n’est pas une erreur mathématique, mais un avertissement contre les lectures trop rapides.

Pour aller plus loin : Découvrez notre article Le paradoxe de Simpson expliqué avec des cas marketing pour des exemples concrets en entreprise (campagnes, A/B testing, emailing).