Mathématiques

L’inférence bayésienne (Bayes level 2)

15 octobre 2012

Préliminaire : Ce billet est la suite de celui de la semaine dernière, qui portait sur les probabilités conditionnelles et introduisait la formule de Bayes. Si ces notions vous sont familières, vous n’êtes pas obligés d’aller le lire. Dans le cas contraire, n’hésitez pas à vous rafraîchir la mémoire !

La semaine dernière, je vous ai présenté la célèbre règle de Bayes, qui permet de relier la probabilité conditionnelle de « A sachant B » à celle de « B sachant A »

\(P(A | B) = \frac{P(B | A) P(A)}{P(B)}\)

Nous avions vu un cas simple, où A et B désignaient respectivement le fait d’être rouge et carré pour un objet que l’on tire au hasard dans une urne (« quelle est la probabilité qu’il soit carré sachant qu’il est rouge »), ainsi qu’un cas plus subtil où il était question de dépistage du cancer.

L’idée était de souligner la différence entre « la probabilité d’avoir le cancer sachant qu’on est dépisté positif », notée P(C | +), et « la probabilité d’être dépisté positif sachant qu’on a le cancer », notée P(+ | C). D’après la formule de Bayes, on peut relier les deux par :

\(P(C | +) = \frac{P(+ | C) P(C)}{P(+)}\)

Aujourd’hui, nous allons voir en quoi la formule de Bayes peut s’interpréter dans un contexte plus général, et devenir un outil formidable pour quantifier la manière dont nous raisonnons, et même dont notre cerveau fonctionne !

Bayes dans toute sa splendeur

Reconsidérons l’exemple du dépistage du cancer. On peut dire que dans ce problème, nous avons

D’un côté, une hypothèse : « J’ai le cancer »
De l’autre côté, une observation : « Je suis testé positif »

Quand on souhaite connaître « la probabilité d’avoir le cancer sachant qu’on est positif », on est en train de chercher la probabilité que l’hypothèse soit vraie étant donnée notre observation. Si on récrit la formule de Bayes de manière plus abstraite, en considérant une hypothèse H et une observation O, on a

\(P(H | O) = \frac{P(O | H)}{P(O)}P(H)\)

Voici la formule de Bayes dans toute sa puissance ! Vous avez peut être l’impression que j’ai écrit la même formule qu’au début, en changeant juste les lettres, mais du point de vue de l’interprétation, il y a une grosse différence ! Cette formule nous permet en effet de quantifier de quelle manière des observations permettent d’ajouter du crédit à une hypothèse. La formule de Bayes, c’est l’outil idéal pour structurer les raisonnements, qu’il s’agisse de diagnostic médical, d’un raisonnement scientifique, ou bien de la recherche du coupable d’un crime.

Raisonnement déductif et raisonnement inductif

Dans les exemples que je cite ci-dessus (en sciences, en médecine ou dans le domaine de la justice), nous pratiquons très fréquemment des raisonnements inductifs. Rappelons un peu de quoi il s’agit.

Considérons la formule habituelle

« Tous les hommes sont mortels. Socrate est un homme. Donc Socrate est mortel ».

Il s’agit d’un raisonnement déductif, du type « A implique B. A est vrai. Donc B est vrai ». Dans un raisonnement déductif, la conclusion est imparable, indiscutable, et ne laisse pas de place au doute.

Mais souvent nous avons tendance à faire la démarche dans l’autre sens :

« Tous les hommes sont mortels. Socrate est mortel. Donc il y a des chances que Socrate soit un homme ».

Il s’agit cette fois d’un raisonnement inductif « A implique B. B est vrai. Donc il y a des chances que A soit vrai ». Comme vous le voyez, le raisonnement inductif ne donne pas des certitudes absolues. Il ne fait que donner des indices qui poussent à une conclusion. On peut d’ailleurs se tromper en faisant un raisonnement inductif. Comme dans le fameux exemple « Tous les chats sont mortels. Socrate est mortel. Donc Socrate est un chat« .

L’exemple du chat et de Socrate semble fait pour ridiculiser le raisonnement inductif, mais en réalité le raisonnement inductif est partout ! En sciences pour valider une théorie à partir des expériences, dans le domaine de la justice pour décider d’un coupable à partir de preuves, ou en médecine pour faire un diagnostic à partir de symptômes.

Le point faible du raisonnement inductif, c’est qu’il laisse la place au doute. On n’est jamais complètement sûr, et on quand on dit « il y a des chances que », on ne semble même pas capables de quantifier notre degré de confiance. Et c’est là qu’intervient la géniale formule de Bayes : elle permet de mettre des chiffres sur les raisonnements inductifs !

Anatomie de l’induction bayésienne

Pour faire le lien entre le raisonnement inductif et la formule de Bayes, il suffit d’observer que le raisonnement inductif consiste à réaliser des observations (Socrate est mortel), et à considérer que ces observations viennent supporter une hypothèse (Socrate est un homme). Or c’est exactement ce que fait pour nous la formule de Bayes :

\(P(H | O) = \frac{P(O | H)}{P(O)}P(H)\)

Pour cela, il suffit d’interpréter p(H) comme le degré de confiance que l’on a vis-à-vis de l’hypothèse H avant de prendre en compte les observations, on l’appelle probabilité a priori. Ensuite on interprète P(H | O) comme le degré de confiance après la prise en compte des observations, on l’appelle probabilité a posteriori. Le terme P(O | H) s’appelle la vraisemblance, et quantifie le degré de compatibilité de l’hypothèse H et des observations O.

La formule de Bayes est alors un moyen de relier la probabilité a posteriori, et la probabilité a priori. C’est donc une formule qui permet de réviser nos degrés de confiance en fonction des observations et de rendre quantitatif le raisonnement inductif.

Par exemple : j’avais 0.1% de risque d’avoir ce cancer (probabilité a priori), maintenant que je sais que je suis positif au test (observations), le risque est de 2.9% (probabilité a posteriori). (voir le billet précédent pour savoir d’où viennent ces valeurs).

A part le diagnostic médical, le raisonnement bayésien est utilisé pour le filtrage du spam. L’hypothèse initiale H est par exemple « tel message est un spam », puis l’algorithme réalise un certain nombre d’observations concernant le contenu du message (son expéditeur, les mots employés, la présences de liens, etc.) A chacune de ces observations, grâce à la règle de Bayes, l’algorithme met à jour son estimation de la probabilité que le message soit un spam. Une fois toutes les observations effectuées, en fonction de la valeur de la probabilité a posteriori, il peut décider de classer ou non le message comme spam.

Cognition bayésienne : le cerveau statisticien

L’induction bayésienne permet donc de fabriquer des algorithmes qui nous facilitent la vie. Mais depuis plusieurs années s’est répandue l’idée que notre cerveau lui-même serait taillé pour faire des raisonnements bayésiens inconscients. Pour appuyer cette hypothèse, plusieurs équipes de recherche en psychologie cognitive ont réalisé des expériences contrôlées.

L’exemple le plus spectaculaire a été réalisé sur des enfants de 8 mois (oui, 8 mois !). Voici dans les grandes lignes la manip, telle qu’elle a été décrite dans une récente revue dans Science [1].

On présente une boite opaque à un enfant, et on tire devant lui l’une après l’autre des balles dans cette boite. Les balles peuvent être blanche ou rouges. Un trucage permet de faire en sorte que la plupart des balles sorties sont rouges, et seulement quelques unes sont blanches.

Une fois ceci réalisé, on ouvre la boite, on présente son contenu à l’enfant, et on observe son degré de surprise (il faut savoir que « le degré de surprise » est quantifié à partir du temps de fixation du regard de l’enfant : plus il est élevé, plus on considère que l’enfant est surpris).

Si le contenu est conforme à l’échantillon (beaucoup de rouge, peu de blanc), on constate que l’enfant n’est pas surpris. Mais si le contenu est en contradiction avec l’échantillon (beaucoup de blanc, peu de rouge), l’enfant manifeste un long temps de fixation (il est surpris, donc). Ceci démontre qu’il avait réussi à émettre une hypothèse sur le contenu de la boite à partir de l’échantillon qu’on lui avait présenté. D’autres expériences de ce genre ont permis de conforter l’idée que dès le plus jeune âge, les enfants sont capables de réaliser des inductions bayésiennes.

Inférence bayésienne et perception visuelle

Il existe un autre domaine dans lequel notre cerveau semble câblé pour réaliser des raisonnements bayésiens, il s’agit de la perception. Cette thèse a été étudié par des expériences bien contrôlées, mais il en existe une manifestation que nous pouvons tous expérimenter : les illusions d’optique. Voyez cette incroyable illusion réalisée avec un masque de Charlie Chaplin :

[youtube=http://www.youtube.com/watch?v=QbKw0_v2clo]

Lorsque le masque nous apparaît en creux, au lieu de le voir comme tel (un masque en creux) on a l’impression de voir un visage qui tourne à l’envers. Ce genre d’illusion s’explique très bien si l’on considère que notre cerveau fait des raisonnements bayésiens.

Notre cerveau possède des hypothèses a priori sur le monde qui nous entoure. Il a donc en lui une distribution de probabilités a priori. Puis nous réalisons des observations qui lui sont transmises sous la forme de stimulus visuels. En fonction de ces observations, notre cerveau met à jour ses croyances, calcule une probabilité a posteriori et « décide » ce qu’il est en train de voir.

La raison pour laquelle notre cerveau tombe dans l’illusion, c’est qu’il considère que la probabilité a priori de voir des « visages en relief » est bien plus élevée que celle de voir des « masques en creux ». C’est logique, ça n’est pas très utile pour notre cerveau d’être performant pour la reconnaissance des masques en creux. Donc même si le stimulus visuel est celui d’un masque en creux, la probabilité a posteriori que ce soit un visage plutôt qu’un masque en creux reste la plus élevée. Donc notre cerveau nous le montre comme un visage qui tourne à l’envers plutôt que comme un masque en creux qui tourne à l’endroit !

Si vous voulez plus d’exemples et d’explications sur le cerveau bayésien, je vous recommande l’excellent cours de Stanislas Dehaene au Collège de France.

Deux billets du Webinet des curiosités sur le même sujet : Les bébés, ces génies de la statistique et Bayes ou le bon sens réduit au calcul

[1] Alison Gopnik, Scientific Thinking in Young Children: Theoretical Advances, Empirical Research, and Policy Implications, Science 337, 1623 (2012);

Author David Louapre

17 Comments

Alexandre Moatti 12 ans ago Reply

Voir un quizz plus simple mais illustrant (un peu) cela à http://www.maths-et-physique.net/article-incertaines-probabilites-2-73888720.html
curieux de nature 12 ans ago Reply

c’est genial!
Xochipilli 12 ans ago Reply

Quand on y pense on ne « voit » jamais un relief, on ne fait qu’interpréter une image 2D -celle qui se projette sur la surface plane de notre rétine- pour reconstituer mentalement la réalité 3D qui est derrière, un peu comme les ombres dans la grotte de Platon. Heureusement Bayes est là pour sélectionner très vite l’interprétation la plus vraisemblable.
Comme autre exemple, je trouve cette explication particulièrement lumineuse pour comprendre l’illusion des anamorphoses (j’en parlais ici sur le même sujet): leur réalité biscornue est trop invraisemblable pour que notre cerveau la retienne…
- ScienceEtonnante Post Author 12 ans ago Reply
  
  Aie ! Mon cerveau est peut être bon pour l’inférence bayesienne, mais totalement nul pour la mémoire : j’avais totalement oublié que tu avais fait des billets sur le même sujet (billets que j’ai pourtant lu il y a 6 mois !!!) Je les ajoute en référence de ce pas !
Daniella 12 ans ago Reply

C’est bizarre, mais les 10 (environ) premières fois où j’ai vu le visage en creux, je le voyais comme s’il était en creux … et après, je l’ai vu en relief. Oo Il faut un temps pour que le cerveau « calcule » l’image pour la voir en relief (ou alors j’ai un problème) ?
- Rémi Orengo 11 ans ago Reply
  
  Moi aussi au début je voyais le visage en creux comme il faut ! Je comprenais pas où était l’illusion d’optique. Je crois que c’est parce-que j’avais le regard toujours fixé sur l’oreille droite de Charlie. Mais à un moment, j’ai détourné mon regard de l’écran puis, quand j’ai à nouveau regardé la vidéo, j’ai été pris au piège !
ZeusKnight 11 ans ago Reply

La formule de Bayes fait le gros titre du numéro de Sciences et Vie de ce Novembre 2012. Sa renforce l’idée qu’elle prend de plus en plus d’importance dans le monde de la science!
Pingback: Les enfants savent-ils lire les pensées des autres ? « Science étonnante
Pingback: The Doomsday argument : les mathématiques de la fin du monde « Science étonnante
Garag 11 ans ago Reply

Clairement, j’ai un problème à appliqué Bayes au problème du cancer. Pour moi, P(C)=0.1% , P(+|C)=90% mais pour arriver à P(C|+)=2.9%, il faut que j’arrive à dire pourquoi P(+)=3.1% et j’y arrive pas…
- ScienceEtonnante Post Author 11 ans ago Reply
  
  Oui, j’ai passé sous silence ce point essentiel. Pour calculer P(+), on le décompose de la manière suivante :
  
  P(+) = P(+ et C) + P(+ et non-C) = P(+ | C)*P(C) + P(+|non-C)*P(non-C)
  
  L’idée se généralise, on calcule (presque) toujours le dénominateur de cette manière, en sommant sur les probabilités jointes avec tous les cas possibles (ici seulement C et non-C)
Ibn Khaldun 10 ans ago Reply

Daniel Kahneman dans son livre « Système 1 Système 2 » s’inscrit en faux dans l’assertion selon laquelle l’homme appliquerait intuitivement la règle de Bayes. Et j’ai plus tendance à aller dans son sens tant elle ne semble pas intuitive.
- Kévin 6 ans ago Reply
  
  La vérité se situe probablement entre les deux, nous sommes peut-être d’imparfait bayésiens, voir la réponse de Stanislas Dehaene à propos de l’objection de Kahneman : https://www.college-de-france.fr/site/stanislas-dehaene/les-illusions-visuelles-des-inferences-optimales-.htm
Stanislas 10 ans ago Reply

est-il besoin de Bayes et de formules savantes pour faire la différence logique entre P(être malade si test +) et P(test + si être malade) ? Dans les deux cas, mais selon un calcul différent, on considère simplement le ratio entre deux nombres (pas les mêmes certes).
Stanislas 10 ans ago Reply

Plus particulièrement, je considère qu’on obscurcit inutilement le problème par une formulation telle que :

« Si vous comparez ces deux situations, vous constatez que la probabilité que l’objet soit un carré est fortement affectée par le fait de savoir qu’il est rouge. La « probabilité que l’objet soit carré » n’est pas la même que la « probabilité que l’objet soit carré sachant qu’il est rouge ».

Les mathématiciens parlent de probabilités « conditionnelles », et utilisent la barre verticale | pour symboliser l’expression « sachant que ».

En réalité, il suffit de constater que si l’on tire un objet rouge, puisque parmi les objets rouges 9 sur 45 sont carrés, la Probabilité qu’il soit carré est de 9/45.
Pingback: Police scientifique (MPS) | Pearltrees
Pingback: Raisonnement Bayésien | Pearltrees