Paul Jorion
Du danger de ne pas être fort en maths!
Aussi longtemps que nous ne serons pas forts en maths, nous minimiserons dangereusement, hélas, les dangers qui nous guettent!
Les gens ne sont souvent pas forts en maths. Certains sont nés comme cela. Ce qui est plus surprenant, c’est que beaucoup de scientifiques ne le sont pas non plus. Ainsi, un article consacré aux erreurs commises dans les publications pharmacologiques évaluant l’efficacité de nouvelles molécules montrait que 40% environ de ces publications contiennent des erreurs graves dans l’analyse statistique.
En France, le Dr Raoult est bien connu pour sa contestation des opinions communément admises en matière de Covid-19. Sa conviction qu’une certaine substance constituait un remède miracle reposait sur l’étude d’un échantillon de 26 patients. Il en tirait des conclusions générales alors que la première leçon d’un cours de probabilités et de statistiques précise qu’avec moins de 50 cas, il est injustifiable d’extrapoler en termes de pourcentages.
Pourquoi? Parce qu’un pourcentage suggère que les chiffres valent pour l’ensemble d’une population, qu’ils sont “représentatifs”, une implication de la “loi des grands nombres” affirmant qu’une fréquence observée sur un nombre suffisant de cas offre une bonne approximation de la probabilité d’occurrence future. Mais un échantillon de 26 observations est trop sensible aux variations individuelles pour révéler quoi que ce soit sur une population dans son ensemble. Pire encore, le Dr. Raoult s’était permis des remplacements dans son échantillon déjà beaucoup trop petit: ayant perdu la trace de deux patients, il les avait remplacés par d’autres.
Aussi longtemps que nous ne serons pas forts en maths, nous minimiserons dangereusement, hélas, les dangers qui nous guettent!
Pourquoi cela invalide-t-ilune étude? Disons qu’elle se déroule du 1er juin au 31 juillet. Je perds de vue l’un des 26 patients le 20 juin et je le remplace par un autre. Il y a là un double défaut qui fausse l’analyse. Il se pourrait d’abord que celui qui a disparu soit mort entre le 20 juin et le 31 juillet et nous n’en saurons rien alors que nous aurions dû le compter dans les décès. Pire encore: celui que nous intégrons le 21 juin pour remplacer le patient perdu de vue, c’est un patient en vie: nous ne prenons en considération aucun de ceux qui sont morts entre le 1er et le 20 juin et qui auraient pu être retenus dans l’échantillon initial. Ce qui veut dire que nous pourrions nous arranger dans un échantillon avec remplacement pour que personne ne meure jamais dans une étude.
Pourquoi rappeler tout cela? Parce que quand a lieu une inondation “millénaire” (qui n’arrive qu’une fois tous les 1.000 ans), on entend encore des scientifiques guère forts en maths déclarer qu'”il est impossible de relier un événement isolé au réchauffement climatique”. Mais qui parle d'”événement isolé” si de tels événements, dits “millénaires”, ont lieu en l’espace de quelques jours en Belgique et en Allemagne, mais aussi en Chine?
Comment oser parler chaque fois d'”événements isolés” quand les incendies catastrophiques sur la côte ouest des Etats-Unis sont remontés en une dizaine d’années de Santa Rosa au nord de San Francisco jusqu’à l’Oregon, avant de ravager celui-ci tout entier, puis l’Etat de Washington, avant d’atteindre cette année la Colombie britannique au Canada?
C’est le même raisonnement en termes d'”événements isolés” qui minimise involontairement les risques liés aux centrales nucléaires. Comment est-il possible que nous ayons observé un accident majeur tous les 15 ans environ alors que les réacteurs sont conçus pour être sûrs pendant 5.000 ans? Parce que, quand il y a comme aujourd’hui 441 réacteurs en service, cela représente une probabilité de 8,48% d’un accident majeur par an à la surface du globe, un niveau très loin d’être négligeable. Aussi longtemps que nous ne serons pas forts en maths, nous minimiserons dangereusement hélas les dangers qui nous guettent!
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici