Comment lire une étude scientifique ?

Dans cette nouvelle vidéo, je m’attaque à ces fameuses « études américaines » auxquelles ont fait dire tout et son contraire…

Détail amusant : quand j’ai écrit le script, j’ai imaginé au hasard un sujet d' »étude américaine » : le heavy metal et la dépression. Or après j’ai vérifié, il existe bien des publications ayant étudié cette association ! D’ailleurs les résultats ont l’air subtils car en non-randomisé, il semblerait que l’écoute du metal soit plutôt corrélée avec les symptômes dépressifs, mais qu’en traitement randomisé il ait un effet bénéfique. Paradoxal, non ? Mais bon j’avoue que je n’ai pas creusé.

Quelques petits compléments d’usage, pour ceux qui voudraient aller plus loin…

Processus de publication et a-priori bayésien

Je n’ai pas passé trop de temps sur le processus de relecture par les pairs. J’ai notamment passé sous silence les habituels allers/retours qui se font entre les auteurs et les relecteurs, ces derniers pouvant demander des précisions ou corrections dans le texte. Je n’ai pas non plus évoqué tous les problèmes que posent le processus actuel de l’édition scientifique, ça n’était pas le propos de la vidéo, mais l’ami DirtyBiology a fait une vidéo sur le sujet !

Parlons vite-fait des impacts factors. Je l’ai présenté comme un élément intéressant à verser au dossier quand on analyse une étude. Je suis sûr que ça va en faire hurler quelques uns. Il est vrai que cette métrique a plein de problèmes, et qu’en plus les journaux à très haut facteur d’impact peuvent poser le problème additionnel de la fraude scientifique pure et simple. On sait qu’une publication dans une revue très prestigieuse peut être un élément très important pour la carrière d’un chercheur, il y a donc une pression a essayer de publier ses papiers dans ces revues, ce qui peut pousser certains à carrément falsifier leurs résultats pour décrocher la timbale. Donc oui, sur un gros résultat spectaculaire dans une revue « star », il faut aussi accueillir les choses avec prudence. D’autant plus que ça n’est pas un relecteur non-spécialisé qui pourra détecter ces fraudes.

A contrario une étude publiée dans un « petit » journal n’est pas forcément mauvaise. Disons que mon algorithme est plutôt « Si le résultat annoncé est spectaculaire, et que ça vient d’une petite revue, redoublons de prudence. » Car en principe avec un résultat canon, on essaye de soumettre aux grosses revues. Ce genre de vérification préliminaire sert juste à savoir quels sont nos a prioris sur la plausibilité de l’article, avant de le lire, dans une logique toute bayésienne que ne renierai pas l’ami Science4All !

Un mot sur les expériences et leurs analyses

Parlons pour commencer de ce qu’on appelle les « modèles animaux ». Quand j’ai évoqué les expériences sur les animaux, certains ont peut être tiqué en m’entendant parler de la dépression chez les souris. Eh bien figurez vous que pour un grand nombre de maladies humaines, il existe des équivalents chez différents animaux, c’est ce qu’on appelle des « modèles animaux ». Et il en existe notamment un certain nombre pour la dépression. Donc oui, étudier la dépression chez la souris, ça a du sens.

Sur ce qu’on observe et ce qu’on fait varier, j’ai schématisé en ne présentant qu’un cas simple (mais fréquent) : celui où on a deux groupes et on étudie l’impact sur une variable continue (par exemple un score sur une échelle de dépression.) Mais il existe plein d’autres situations : parfois on a plus de deux groupes, parfois on fait varier plusieurs facteurs. On peut également regarder l’impact d’une variable continue (disons le nombre de chanson de métal écoutées chaque mois) sur une autre (le score de dépression). Dans ce cas, on se trouve face à un cas de tentative « corrélation » entre deux variables continues.

Dans tous ces cas on peut réaliser des tests statistiques auxquels on attribue des « valeurs p ». Mais il y a parfois des subtilités difficiles à démêler sans quelques connaissances en statistiques. Tout test statistique repose sur des hypothèses données, et un modèle sous-jacent dont il faut en principe s’assurer qu’il est raisonnablement valide. Et il n’est pas rare que des publications scientifiques présentent juste le bon test statistique qui permet de passer sous la barre fatidique des p=0,05. C’est parfois ce qu’on appelle du « hacking » de valeur p.  (Pour ceux qui veulent en savoir plus sur cette notion, je vous renvoie à un vieux billet sur le sujet : Comment être sûrs qu’un résultat scientifique est vrai ?)

Petite précision aussi : pour les besoins de la simplicité de l’exposé, je n’ai pas insisté sur la notion de « barre d’erreur » ou de façon plus générale de variabilité. Elle joue bien entendu un rôle dans les estimations statistiques. Une bonne manière de « mesurer » une taille d’effet, c’est de la compter en « barres d’erreur ». Est-ce que l’effet est égal à 2 fois la barre d’erreur ? Plus ? Moins ? C’est en quelque sorte ce ratio, et le nombre de sujets dans les groupes, qui va gouverner la valeur p.

Concernant les facteurs de confusion, il faut bien réaliser qu’il existe des méthodes statistiques permettant de les maitriser. Mais ces méthodes reposent sur des hypothèses qui ne sont pas toujours vérifiées, il ne s’agit donc pas d’un coup de baguette magique qui résout tous les problèmes. Et surtout cela ne marche que si le facteur a été préalablement identifié, et que les données correspondantes ont été collectées. On ne peut pas contrôler pour un facteur pour lequel on n’a pas de données. Donc en théorie on n’est jamais certains d’avoir tout bien contrôlé. Cela montre d’ailleurs que pour ce genre d’analyse, les statistiques ne suffisent pas : il faut un expert du sujet, quelqu’un qui sait bien de quoi on parle, et qui est à même d’identifier les bons facteurs de confusion.

Enfin j’ai sous-entendu qu’une étude était soit non-randomisée (et donc sujette à facteur de confusion), soit randomisée auquel cas les tailles de groupes étaient souvent faible. Il y a bien sûr un cas où on essaye d’avoir des études randomisées sur de grands groupes, ce sont bien sûr les « essais cliniques » des médicaments, notamment dans les phases II et III où l’on va avoir typiquement de plusieurs centaines à plusieurs milliers de patients. Autant que possible les études sont en « double aveugle », c’est-à-dire que ni le patient, ni son médecin traitant, ne savent à quel groupe le patient est attribué. Dans ce cas là les groupes de contrôle sont soit des groupes placebos, soit des groupes recevant un traitement usuel.

 

 

La superposition quantique : un électron peut-il être à 2 endroits à la fois

Aujourd’hui, on s’attaque enfin à la fameuse question de la superposition quantique, et de la manière dont on l’interprète avec nos conceptions intuitives.

Comme d’habitude dans ce billet, je vais ajouter quelques compléments techniques et détailler certains points sur lesquels j’ai simplifié, voire carrément dit des trucs faux ! Mais avant cela, je voudrais revenir sur la motivation initiale.

Mais pourquoi parler de tout ça ?

Il y a en physique quantique comme ailleurs des débats entre les spécialistes sur la bonne manière de vulgariser certains concepts. L’idée de superposition quantique est une de celle qui fait couler beaucoup d’encre chez les physiciens.

Vous l’aurez compris, je fais partie de ceux qui sont totalement à l’aise avec cette idée d’ « être à plusieurs endroits à la fois » ou bien « être à la fois mort et vivant » (dans le cas du chat de Schrödinger). Mais les chercheurs qui vulgarisent cette discipline ne partagent pas tout cette vision. Je me souviens par exemple d’une discussion avec un chercheur en physique qui estimait lui que cette formulation était intolérable, même dans une optique de vulgarisation grand public.

Comme je l’explique dans la vidéo, je sais pertinemment que cette formulation est fallacieuse, puisqu’elle revient à plaquer des concepts « classiques » (l’idée de position bien définie par exemple) là où ceux-ci ne s’appliquent pas. Très clairement, la formulation « être à plusieurs endroits à la fois » est une formulation en langue de tous les jours, d’un formalisme mathématique difficile à communiquer sans commencer à parler de diagonalisation d’opérateurs, d’états propres et d’espace de Hilbert, ce qui n’est évidemment pas le but dans une œuvre de vulgarisation.

Je suis ainsi persuadé que dire « être à plusieurs endroits à la fois » reste une excellente formulation vulgarisée de « être décrit par un vecteur de l’espace de Hilbert qui n’est pas un état propre de l’opérateur de position ». Et pour vous dire, j’ai retrouvé mon poly de cours de DEA, et même mon prof de décohérence quantique ne s’offusquait pas de dire que le chat de Schrödinger était à la fois mort et vivant !

Un des avantages que je vois à cette formulation, c’est de bien faire ressortir que si on associe pas une valeur bien déterminée à la position (ou à une autre observable), ça n’est pas un effet « d’ignorance probabiliste classique ». Comme je l’explique dans la vidéo, il est tentant de s’imaginer que si on décrit par exemple un ensemble de photons comme étant tous dans le même état superposé, cela peut signifier que « en vrai dans la réalité» certains sont « gauche » et d’autres « droite ». Or ça n’est pas le cas : en mécanique quantique un état superposé n’est pas un effet de notre ignorance, pas une description statistique comme on peut en trouver justement en physique statistique.

La description mathématique des états

Un petit complément sur la manière dont on décrit et décompose les états en mécanique quantique. (Le paragraphe qui va suivre est d’ailleurs probablement inutile car ceux qui savent déjà auront très bien vu les simplifications de la vidéo, et ceux qui n’ont jamais touché ce formalisme vont trouver que c’est du chinois…)

Bref, dans le formalisme de la mécanique quantique, en réalité on ne décrit pas les états comme des vecteurs d’un espace vectoriel réel, mais comme des vecteurs d’un espace de Hilbert complexe. Et dans une décomposition, les coefficients ne donnent pas directement les probabilités mais ce sont les modules carrés qui interviennent.

Ainsi si l’état quantique d’un système à deux états est décrit par une décomposition en vecteur propre comme celle-ci

\Psi = \alpha_1 \Psi_1 + \alpha_2 \Psi_2

La probabilité d’une mesure dans l’état 1 est égale à

p_1 = \frac{|\alpha_1|^2}{|\alpha_1|^2 + |\alpha_2|^2}

On peut notamment voir que du fait de la normalisation, on va s’intéresser uniquement à des états quantiques de norme 1 (on parle parfois de rayons dans l’espace de Hilbert, ou d’espace de Hilbert projectif).

Bref, mes « formules » de décomposition/projection présentées dans la vidéo ne reflètent pas le véritable formalisme de la mécanique quantique.

Et la suite !?!?

Deux points reliés à l’idée de superposition, et que j’ai fait exprès d’occulter dans ma vidéo : le principe d’incertitude de Heisenberg et le chat de Schrödinger.

Dans la fin de la vidéo, je parle des états propres de la position mais pas de ceux de la vitesse. On aurait envie de penser qu’un objet puisse se trouver dans un état qui soit à la fois un état propre de la position et de la vitesse. Mais c’est impossible, et c’est notamment de cela que découle le principe d’incertitude (plutôt mal nommé puisque ce phrasé renforce l’idée que les états superposés encodent une ignorance sur l’état exact, alors que ça n’est pas le cas !). Mais le principe d’incertitude, ce sera pour une autre fois !

Concernant le chat de Schrödinger, la question est de savoir pourquoi les objets macroscopiques ne se trouvent apparemment pas dans des états superposés. Et pour aborder cela correctement, il faut que je parle de decoherence quantique, mais ça nous emmènerait un peu loin, alors là aussi ce sera pour une prochaine fois !

La physique théorique et « La vraie nature profonde de la Réalité »

Il y a quelques jours, l’ami MrPhi a publié une vidéo sur la notion de réalisme scientifique. Il y précise notamment ce qu’est l’«anti-réalisme » en science, et j’y figure en bonne position en tant que porte-étendard de cette vision. Il faut dire que je l’ai bien cherché, puisque comme vous pouvez le voir dans sa vidéo, j’ai plusieurs fois tweeté à ce sujet !

Comme je n’arrivais pas à faire un commentaire de taille raisonnable sous sa vidéo afin de préciser ma pensée, je me suis dit que je pouvais tout aussi bien en faire un billet de blog, car c’était un sujet que je voulais traiter depuis longtemps !

Pour ceux qui le souhaiteraient, voici le lien vers sa vidéo et son billet de blog, même si je vais faire en sorte que ce que je raconte ici soit compréhensible sans l’avoir vue.

Ma petite histoire

Tout d’abord, laissez moi vous raconter un bout de mon cheminement personnel. Quand j’étais ado, j’étais comme beaucoup fasciné par l’idée de comprendre comment le monde marche, et toutes les questions métaphysiques associées. Et je nourrissais secrètement l’espoir que faire de la physique fondamentale me permettrait moi aussi de mieux comprendre « la vraie nature profonde de la Réalité ». J’ai eu beaucoup de chance, car j’ai pu faire des études de physique, et aller jusqu’à un doctorat en physique théorique dans le domaine de la gravité quantique, c’est-à-dire probablement ce qui se fait de plus « fondamental » : il s’agit du domaine où l’on cherche une théorie pour unifier la mécanique quantique et la relativité générale, ce qu’on appelle parfois pompeusement une « théorie du tout ».

D’une certaine manière, j’ai donc été au plus profond du trou, et j’ai étudié et côtoyé les théories ayant pour ambition d’être les plus fondamentales possibles, et donc a priori les plus profondes et les plus proches de « la vraie nature de la Réalité ». Et pourtant…je n’ai pas l’impression d’en savoir plus sur « la Réalité » que quand j’étais adolescent !

Plus j’ai avancé dans les études de physique, plus j’ai réalisé que dans le fond, tous ces concepts que nous révèlent les théories de physique fondamentale — espace-temps, particules, ondes, cordes… — ne sont que des outils mathématiques, simplement des constructions pour essayer de capturer la réalité, mais ils ne sont pas la réalité.

J’espérais que faire de la physique théorique me permettrait de mieux comprendre la nature profonde de l’Univers : eh bien je suis allé au fond du trou et je n’y ai rien vu.

La carte n’est pas le territoire

Il y a une analogie facile à ma façon de voir les choses : la carte et le territoire. De même que la carte n’est pas le territoire, aussi précise et aussi correcte qu’elle soit, les théories physiques ne sont pas la réalité. Ce sont des cartes, des constructions humaines qui permettent de la représenter, de l’analyser. Mais de même qu’une carte (même à l’échelle 1) ne sera jamais le territoire, je pense qu’une théorie de physique fondamentale, aussi confirmée expérimentalement soit-elle, ne nous dit rien sur « la vraie nature profonde de la réalité ».

Et je suis toujours un peu agacé quand on vient nous vendre le contraire, à grand renfort d’utilisation du verbe « être » : du genre « la gravité EST <ceci>, et pas <cela> » ou « un électron c’EST <ceci> et pas <cela> ». J’ai l’impression que c’est souvent le fait de personnes qui ne comprennent pas fondamentalement ces théories, ou bien parfois de physiciens théoriciens qui cherchent à sur-vendre la portée de leur discipline et de leurs travaux (cf la théorie des cordes).

Maintenant quand j’entends parler de « nature de la réalité », je sors mon révolver.

Précisons et formalisons

Mais formalisons un peu tout ça pour préciser ma pensée. Tout d’abord, qu’est-ce que la Réalité ? J’en ai ma petite définition.

La Réalité, c’est l’ensemble des expériences possibles et leurs résultats associés.

Si on note x une expérience réalisable, et y le résultat qui en sortira, alors l’ensemble des couples (x,y) forment, pour moi, « la réalité ». Il n’y a de réalité que les résultats des expériences.

Poussons un peu le bouchon du formalisme : imaginons qu’il existe un espace \cal E des expériences possibles, et qu’on appelle \cal F la fonction qui a toute condition x \in {\cal E} associe son résultat expérimental y

y = {\cal F} (x)

 alors je considère que la fonction \cal F peut raisonnablement être qualifiée de « la réalité ».

Maintenant, quel est l’objectif d’une théorie physique ? C’est d’essayer d’approximer la fonction \cal F, du moins sur un sous-domaine de l’espace des conditions expérimentales possibles. L’objectif ultime d’une théorie physique, aussi abstraite soit-elle, c’est de proposer une réponse à la question : qu’est-ce qui se passe si je fais l’expérience x. Une théorie physique, c’est donc en définitive une fonction {\cal T}(x) dont on espère qu’elle coïncide pas trop mal avec \cal F. Et c’est d’ailleurs la principale manière qu’on ait de juger une théorie : sur sa capacité à reproduire (et à prédire) les résultats des expériences.

Sauf qu’en pratique, une théorie ne se présente pas à nous comme une simple fonction \cal T de l’espace des expériences dans l’espace des résultats. Elle possède toute une structure interne, qui permet de la décrire et de l’appréhender. Et elle fait appel à tout un tas d’objets mathématiques intermédiaires, comme par exemple la notion de force, ou celle de courbure de l’espace-temps. Mais ces objets sont des constructions humaines, liées à notre langage mathématique.

Dans la réalité (au sens « les résultats des expériences »), la force n’existe pas plus que la courbure de l’espace-temps. Ce sont des objets conventionnels, fort pratiques il est vrai, utilisés pour décrire la fonction \cal T. Mais on pourrait très bien par exemple réécrire tous les résultats expérimentaux possibles de la gravité newtonienne sans avoir à utiliser le concept intermédiaire de force. Même si ça ne serait peut-être pas fort lisible.

Il peut toujours exister plein de façons équivalentes d’écrire la fonction \cal T, faisant appel à des objets mathématiques intermédiaires différents. Ce qui signifie qu’on peut imaginer plusieurs théories en apparence très différentes, et qui seraient strictement équivalentes sur le plan de leurs prédictions expérimentales.

Pour rester sur le cas de la gravité, on peut prendre comme exemple la gravité de Newton et la relativité générale en régime newtonien non-relativiste. Les concepts et les objets mathématiques intermédiaires sont différents, les prédictions sont identiques. Et donc (pour revenir sur l’usage abusif du verbe « être »), la gravité n’EST pas plus une force qu’une courbure de l’espace-temps.

Et si on trouve une théorie du tout ?

Evidemment, tout ce que je raconte ici à propos d’une quelconque théorie physique \cal T serait tout aussi valide avec la « fonction de réalité » \cal F elle-même ! Même si vous trouvez une Théorie du Tout parfaitement exacte, c’est-à-dire dont les prédictions expérimentales soient rigoureusement égales à \cal F, ça ne rend pas pour autant « réels » les concepts et objets intermédiaires que vous aurez utilisé. On pourrait toujours imaginer des formulations complètement différentes mais qui auraient les mêmes prédictions expérimentales.

Prenons un exemple concret qui m’énerve souvent : on entend régulièrement que la théorie des cordes prouverait que notre espace-temps possède « en réalité » 10 dimensions. Quand bien même la théorie des cordes serait correcte, et même — soyons fous — soit une Théorie du Tout parfaitement exacte, ça ne prouve rien sur la nature profonde de la réalité de l’espace-temps.

L’idée même d’espace-temps reste un concept intermédiaire, une construction mathématique, et le fait que dans la théorie des cordes ce soit « une variété de dimension 10 » ne nous dit rien sur « la Réalité ». On pourrait très bien imaginer une formulation alternative de la théorie ayant des prédictions expérimentales rigoureusement identiques, mais utilisant des concepts et objets mathématiques différents, et sans jamais utiliser de variété de dimension 10.

On pourrait avoir la même discussion (et d’ailleurs certains l’ont !) avec les « particules virtuelles » de la théorie quantique des champs, mais je vous épargne ça.

En conclusion

Bref, en conclusion de cette longue diatribe, c’est en ce sens que je me définis comme « anti-réaliste » : je pense que les concepts et objets mathématiques des théories physiques ne SONT pas la réalité, et qu’on devrait bien se garder de les identifier comme tels. Et mon poil se hérisse toujours quand certains prétendent que la physique théorique nous apprend des choses « la vraie nature profonde de la réalité » en nous parlant de cordes, d’ondes, de particules, de section non-triviale d’un fibré spinoriel ou d’élément d’un module projectif de type fini sur une algèbre non nécessairement commutative.

Si je voulais être extrême, je plaiderais pour une interdiction de l’usage du verbe « être ». Evidemment, ça ne serait pas très pratique. Moi le premier je vais sortir des phrases du genre « la gravité est une force », ou « la lumière est une onde électromagnétique ». Mais  chaque fois que j’emploie le mot « est », il faut entendre « se modélise bien par », ou « se comporte comme si c’était ». Rien de plus.

Alors docteur, je suis anti-réaliste ?

Quelques compléments

A propos des descriptions différentes mais équivalentes de théories physiques, il me semble qu’il existe aussi un argument identique à base de machines de Turing équivalentes, c’est-à-dire différentes dans leur câblage  mais ayant des sorties rigoureusement identiques. Je l’ai lu dans le livre « Philosophie de l’esprit » de Jaegwon Kim que m’avait conseillé MrPhi, mais je n’ai pas le livre sous la main pour vous citer ça !

Par ailleurs, dans sa vidéo Mr Phi nous présente une vision dont j’ignorais l’existence : le réalisme structural. Je vous invite à la regarder pour vous faire votre idée, de mon côté je n’ai pas encore le recul nécessaire pour savoir si je suis réaliste structural, ou si cette vision ne me satisfait pas. On en reparlera sans doute !

Pour finir, je voudrais mentionner le texte qui, il y a plus de 15 ans de cela, m’a ouvert les yeux sur ces questions, et m’a fait comprendre que je faisais fausse route en me demandant si la nature profonde de l’Univers était d’être <ceci> ou <cela>. Il s’agit de l’introduction du polycopié « Espaces fibrés et connexions » de Robert Coquereaux. Le poly est très technique (et passionnant pour un jeune physicien théoricien), mais l’introduction traite de ces questions sur quelques pages (et oui, je lui ai piqué la phrase sur les modules projectifs !).

 

La communication quantique et le protocole BB84

Nouvelle vidéo sur la chaîne, une vidéo « un petit peu spéciale » en partenariat avec Echosciences PACA.

Le défi de cette vidéo était de donner quelques notions de communication quantique dans le format imposé de 3-4 minutes ! Pas la place donc pour y détailler un exemple de protocole d’échange de clé quantique comme le protocole BB84 dont j’esquisse juste le principe dans la vidéo. Voici donc quelques détails !

Non, BB84 n’est pas un lointain descendant du robot BB8, mais le nom du tout premier protocole d’échange de clé quantique qui a été imaginé en 1984 par les cryptologues Charles Bennett et Gilles Brassard. L’idée de ce protocole est de permettre l’échange sécurisé d’une clé de chiffrement, clé qui pourra être ensuite utilisée pour chiffrer un message qui sera ensuite transmis sur un canal de communication classique. Notez bien : ça n’est pas tout le message qui est transmis de façon « quantique », juste la clé de chiffrement.

Jouons avec la polarisation

Dans la vidéo, j’ai simplifié les choses en disant qu’un photon avait une polarisation horizontale, verticale, ou bien une superposition des deux dont les proportions pouvaient varier. Mais vous avez peut-être tiqué quand je parle d’horizontal et de vertical : certes, mais horizontal par rapport à quoi ? La gravité terrestre ? Qu’est-ce qu’elle viendrait faire là-dedans ?

En réalité, quand on souhaite mesurer la polarisation d’un photon, on doit se fixer ce qu’on appelle une base de mesure, sous la forme de deux axes orthogonaux situés dans le plan perpendiculaire à la direction de propagation du photon. Une manière concrète de se le représenter, c’est d’imaginer qu’un détecteur de polarisation est plan, qu’on le place perpendiculairement à la trajectoire du photon, et qu’il possède deux axes privilégiés, mais qu’on peut choisir de les faire tourner.

Il existe donc plein de façons de faire ce choix de base de mesure (une infinité en fait). Considérons donc deux bases possibles, l’une verticale/horizontale, et l’autre qui est tournée de 45° degrés. On va appeler ces bases respectivement « + » et « x ».  Et pour s’affranchir des mots « horizontal » et « vertical », on va appeler chaque axe respectivement 0 et 1.

Quand un photon vient traverser un détecteur , la réponse de la mesure sera soit 0, soit 1, désignant ainsi un des axes de la base de mesure. La notion de 0 ou 1 est donc toujours relative à la base de mesure. On va noter les 4 états avec lesquels on va jouer de la façon suivante : 0+, 1+, 0x et 1x, correspondant à la polarisation selon chacun des 4 axes.

Imaginons un photon 0+, c’est à dire d’état 0 de la base +. Si on le mesure dans la base + la réponse du détecteur sera forcément 0 (aux erreurs de mesure près).

Maintenant si on prépare un photon dans l’état 0+ et qu’on le mesure dans la base x, on obtiendra aléatoirement les réponses 0 ou 1 à 50% de probabilité. Une autre façon de le dire, c’est que l’état « pur » 0+ est un état « superposé » 50% de 0x et 50% de 1x dans la base x.

La notion d’état « pur » (on dit en fait « état propre ») ou « superposé » n’est donc pas absolue comme j’ai pu le sous-entendre, mais toujours relative à la base de mesure.

Dernier ingrédient à préciser : la projection de l’état quantique. Si vous mesurez un photon 0+ dans la base x, vous obtiendrez soit 0, soit 1. Mais à la suite de cette mesure, la polarisation sera dans l’état pur correspondant de la base x. Par exemple si vous obtenez 1, la polarisation sera changée en 1x. Et donc si vous le re-mesurez dans la base +, vous trouverez 0 ou 1 à 50/50 (et le re-changerez en 0+ ou 1+).

Tous les ingrédients sont en place, voyons le protocole BB84.

Le protocole BB84

Imaginons deux personnes souhaitant communiquer de façon sécurisée, et ayant besoin de partager une clé de chiffrement. Appelons-les Alice et Bob pour suivre la tradition en vigueur.

Pour faire un partage de clé quantique, Alice va envoyer une série de photons à Bob, et pour chacun de ces photons, elle va tirer au hasard à la fois une base (+ ou x) et un bit (0 ou 1). Chaque photon sera donc aléatoirement d’un l’un de ces 4 états : 0+, 1+, 0x ou 1x.

Bob voit arriver les photons et pour chacun d’entre eux il doit mesurer la polarisation. Mais il lui faut choisir une base de mesure. Pour chacun il la tire au hasard : + ou x, et note le résultat de sa mesure.

Si pour un photon donné, Bob a choisi la « bonne » base, c’est-à-dire la même qu’Alice, il obtiendra à coup sûr le bon bit, 0 ou 1, envoyé par Alice. Si en revanche il a choisi l’autre base, eh bien il obtiendra 0 ou 1 à 50% de probabilité. Et dans ce cas, il obtiendra le « mauvais » résultat une fois sur 2 en moyenne. Voici un exemple ci-dessous.

Une fois la transmission des photons réalisée, Alice et Bob se communiquent « publiquement » (sans canal sécurisé particulier) la liste des bases qu’ils ont utilisé pour chacun des photons. Et ils jettent de leur liste tous les photons pour lesquels les bases sont différentes (la moitié en moyenne).

Pour tous les photons restants, ils ont utilisé la même base et ont donc la certitude d’avoir les mêmes bits : 0 ou 1. Cette série de bits va constituer la clé de chiffrement qui est, de fait, connue d’eux deux.

Certes me direz-vous, mais comment est-on certains que l’échange n’a pas été intercepté ? Eh bien imaginons qu’un 3e larron (Eve, selon le choix consacré) pirate la communication et essaye de mesurer l’état de polarisation des photons pour découvrir la clé. On va se concentrer sur les photons pour lesquels Alice et Bob ont choisi la même base, puisque les autres seront de toute façon écartés. Comme Bob, Eve doit choisir à chaque photon une base de mesure + ou x. Dans 50% des cas elle va tomber juste. Mais dans les 50% restants elle choisira une base différente de la base d’Alice et Bob, par exemple elle choisit x alors qu’ils ont choisi +.

Imaginons un photon 0+ qu’Eve intercepte et mesure dans la base x. La mesure va le projeter dans l’état 0x ou 1x, et quand Bob mesurera à son tour dans la base +, il obtiendra 0 ou 1, à 50% de probabilité. S’il obtient 0 (ce qu’Alice avait envoyé), tout se passera comme si Eve n’avait pas été là, mais s’il obtient 1 il obtiendra un bit différent de ce qu’Alice avait envoyé…alors que leurs bases sont pourtant identiques !

Voici donc comment détecter la présence d’Eve. Comme je le disais au début : Alice envoie ses photons, Bob les mesure, ils comparent publiquement leurs bases et ne conservent que les cas où les bases coïncident. Mais il n’en font pas tout de suite une clé : d’abord, ils décident de sacrifier une partie de ces photons pour vérifier qu’ils ne sont pas espionnés. Pour cela ils révèlent (publiquement) les bits qu’ils ont respectivement envoyé et mesuré, et qui en principe devraient coïncider complètement. Si Eve était à l’écoute au milieu de la ligne, environ 25% de ces bits devraient différer, du fait des projections quantiques opérées par les mesures. Si c’est le cas, Alice et Bob peuvent jeter leur clé et tenter de recommencer. Si ça n’est pas le cas, ils ont l’assurance que l’échange de clé n’aura pas été intercepté.

Quelques subtilités

Un point essentiel de ce protocole, c’est le fait qu’Eve n’a aucun moyen de connaitre avec certitude l’état du photon envoyé par Alice. La seule chose qu’elle puisse faire c’est choisir une base et faire une mesure : mais si elle choisit + et obtient 0, elle n’a aucun moyen de savoir si l’état envoyé par Alice était bien précisément 0+, ou si Alice a envoyé 0x ou 1x, qui peuvent l’un et l’autre donner 0 une fois mesurés dans la base +.

Donc Eve n’a pas moyen de « connaitre exactement » le photon envoyé par Alice puis de le recréer « à l’identique » de façon à ce que Bob n’y voit que du feu. De façon générale, il existe en physique quantique un théorème dit de « non-clonage », qui dit qu’il est impossible de cloner exactement un état quantique, et c’est cela qui est à la base des protocoles d’échange de clé quantique.

Pour s’assurer de l’absence d’un espion, Alice et Bob doivent donc choisir un certain nombre de photons parmi ceux pour lesquels ils ont choisi la même base, et comparer leur valeurs de bits. Si Eve est à l’écoute, chacun de ces photons à 25% de chance de différer. Si on utilise N photons pour cela, la probabilité que Eve ne soit pas détectée est (3/4)^N. En choisissant N assez grand, on s’assure avec une grande probabilité que la communication est sécurisée.

Autre point : ce protocole protège des écoutes pirates, mais ne protège pas d’un autre type d’attaque cryptographique connu sous le nom de « man-in-the-middle ». Dans ce type d’attaque, plutôt que d’essayer d’écouter discrètement, Eve se fait passer pour Bob auprès d’Alice et pour Alice auprès de Bob.

Enfin il existe d’autres protocoles de communication quantique, le BB84 n’étant que le premier d’entre eux. Certains utilisent des états quantiques intriqués…mais en parler dans la vidéo initiale m’aurait emmené bien trop loin. J’en parlerai peut-être un jour, et en attendant je vous renvoie à ma vidéo sur l’intrication quantique !

Une intelligence artificielle peut-elle être créative ? Le cas des jeux.

La vidéo du jour parle de la créativité des IA, vue dans le contexte des jeux !

Pour ceux qui voudraient aller plus loin, quelques compléments d’usage.

Le MinMax

Un premier point que j’ai passé sous silence pour rester simple, c’est la façon dont on décide du « meilleur » coup une fois qu’on dispose de toutes les évaluations. Pour vous l’illustrer, voici une petite énigme.

Imaginez que j’aie 4 coups possibles, A, B, C et D, et que chacun de ces coups puisse appeler 4 réponses. Supposez que les résultats de l’évaluation des 16 positions résultantes soient les suivants, quel coup dois-je choisir ?

Si vous avez répondu « B » car c’est le coup qui mène à la position la plus intéressante (+8), vous êtes tombés dans le piège classique ! En effet il faut partir du principe que si on cherche à maximiser son score, l’adversaire lui a l’objectif inverse. Donc si il n’est pas plus bête que nous, il cherchera toujours à jouer la meilleure réponse (et donc si on joue B il jouera sa 4e option et le score sera 0).

La bonne réponse est donc C, car si l’adversaire joue son meilleur coup on sera à +1, ce qui est le mieux qu’on puisse espérer.

Ce petit exemple illustre le principe du MinMax, c’est-à-dire qu’on cherche le coup qui permet de maximiser son score sachant que l’adversaire va le minimiser.

Sur la manière de chercher dans l’arbre

Ma vidéo suggère qu’un algorithme comme celui qui tournait sur Deep Blue fait une recherche exhaustive dans l’arbre de façon totalement stupide. En réalité ça n’est pas si bourrin que ça.

Un simple petit calcul montre que si Deep Blue voulait chercher de façon exhaustive avec 12 coups d’anticipation, il faudrait 20^{12} évaluations, soit 4 millions de milliards. Même à 200 millions d’évaluations par secondes, cela fait longtemps à réfléchir.

Deep Blue était en fait basé sur une technique classique appelée « L’élagage d’arbre alpha/beta », qui permet d’éviter de visiter des branches dont on sait qu’elles n’amélioreront pas le meilleur résultat qu’on puisse espérer. Stockfish fonctionne sur un principe similaire.

Sur la base de données utilisée par AlphaGo

Il semble que j’ai fait une erreur ou du moins une exagération concernant la base de données utilisée par AlphaGo pour s’entrainer (version « Apprentissage supervisé », celle qui a battu Lee Sedol).

En effet la base est constituée de parties jouées par des joueurs 6e à 9e dan (que j’ai appelé de façon informelle « des grands maitres du go ») et a été extraite de la base online KGS.  Or j’ai l’impression qu’il y a une ambiguïté entre la notion de dan « amateur » et de dan « professionnel ». Et j’ai l’impression que la base KGS référence plutôt des parties amateurs.

Quelque part, c’est plutôt encore mieux pour AlphaGo, qui semble avoir appris en utilisant des données qui ne sont pas uniquement des parties de joueurs de classe internationale.

D’ailleurs c’est en fait un peu plus compliqué que ça puisque l’entrainement du réseau chargé de faire l’évaluation a bénéficié aussi d’apprentissage par renforcement.

Le fameux 37e coup

Quelques précisions concernant ce fameux coup. Je ne joue pas au go donc je n’ai clairement pas le niveau pour expliquer en quoi ce coup était inattendu. Mais il semble que généralement pour ce type de coup (appelé en anglais « shoulder hit ») qui consiste à se mettre en diagonale d’une pierre adverse, on se place sur la 3e ou la 4e ligne suivant qu’on veuille jouer défensif ou agressif. Mais semble-t-il, « jamais » sur la 5e ligne.

Alors en fait c’est plus compliqué que ça, et ça n’est pas le propos ici. Des « shoulder hits » sur la 5e ont l’air tout à fait possible, mais apparemment pas dans la situation qui se présentait à AlphaGo à ce moment là.

AlphaGo, AlphaGoZero et AlphaZero

Pour les besoins de la simplification de l’exposé, j’ai fait un raccourci dans ma présentation. Il y a eu en réalité (au moins) 3 versions de l’algorithme :

  • AlphaGo, qui a battu Lee Sedol
  • AlphaGo Zero, la première version fonctionnant purement en apprentissage par renforcement, mais uniquement pour le go.
  • AlphaZero, fonctionnant aussi bien pour le go, les échecs ou le shogi.

Je n’ai pas évoqué AlphaGo Zero, la version intermédiaire. Et en fait c’est elle qui a battu « Alpha Go Lee Sedol » par 100 à 0.

La différence entre AlphaGo Zero et AlphaZero, est que le premier exploite quelques spécificités du Go pour se simplifier la vie, ce que les spécialistes appellent du « domain knowledge », par exemple l’existence de symétries sur le plateau. Le fait de donner du « domain knowledge » permet de réduire la complexité de l’apprentissage par renforcement (et donc de l’accélérer), mais au prix d’une perte de généralité et de « pureté », puisqu’on aide l’algorithme en lui donnant des infos en plus.

AlphaZero est vraiment la version « pure », on ne lui donne aucun domain knowledge, vraiment juste les règles et rien que les règles. Il est un peu plus long à entrainer que la version précédente, mais l’avantage est qu’il marche aussi pour d’autres jeux abstraits. (Et au go il est légèrement supérieur à AlphaGo Zero).

Et les autres jeux vidéo ?

J’ai hésité dans cet épisode à parler des applications de l’IA à d’autres jeux, notamment vidéo. J’aurai pu par exemple évoquer DOTA2 ou StarCraft. Apparemment j’ai bien fait de m’abstenir, car à l’heure où j’écris ces lignes  DeepMind a annoncé qu’ils allaient faire une grosse annonce concernant StarCraft, le jour qui suit la publication de la vidéo. Donc à suivre !

Lancement de « Billes de science » pour les enseignants

Je n’ai pas eu l’occasion d’en parler sur ce blog, mais j’ai lancé cette semaine une nouvelle chaîne Youtube en partenariat avec la fondation La Main à la Pâte et plusieurs autres vidéastes.

La chaîne s’appelle Billes de sciences, et son objectif est d’aider les enseignants à proposer des activités scientifiques à l’école, selon les principes de la démarche d’investigation.

Si vous connaissez des enseignants de maternelle ou d’élémentaire, n’hésitez pas à leur partager, cette chaîne est faite pour eux !

Ci-dessous la vidéo d’annonce sur ma chaîne :

Ici le pilote que j’avais préalablement tourné :

Et là une vidéo qui présente les principes de la démarche d’investigation :

Je vous remets le lien vers Billes de Sciences : https://www.youtube.com/channel/UCy1BMhZGRdFiOde2DqeQE0w

La Relativité Générale

Aujourd’hui, voici un gros morceau sur lequel je travaillais depuis longtemps : la relativité générale !

Comme toujours ci-dessous, petit florilège des choses que j’aurais aimé dire ou préciser, mais que j’ai dû couper par manque de place, ou désir de ne pas compliquer encore plus cette vidéo déjà bien lourde !

Sur le principe d’équivalence

L’idée nouvelle et perturbante qu’Einstein déduit du principe d’équivalence, c’est que la trajectoire naturelle des corps est la chute libre. C’est la trajectoire « de repos », celle quand aucune force ne s’applique (puisqu’on ne compte plus la gravité dans les forces).

Une conséquence amusante de ça, c’est que quand vous êtes affalés dans votre canapé, vous n’êtes pas au repos. Dans la vision newtonienne classique, vous subissez deux forces qui se compensent : votre poids et la réaction du canapé. En relativité générale, vous ne subissez que la réaction du canapé, dirigée vers le haut. Et vous n’êtes plus au repos puisque la réaction vous empêche de suivre votre trajectoire naturelle qui serait de continuer à tomber vers la Terre. Le canapé vous dévie de votre géodésique, et par rapport à elle il vous fait accélérer vers le haut ! Bizarre non ?

F = ma

Un point que j’ai caché sous le tapis pour ne pas m’en aller trop loin, c’est la forme exacte de la loi F=ma quand on passe en relativité générale. Déjà en relativité restreinte elle ne s’écrit pas comme celle qu’on apprend en physique au lycée, et une bonne raison pour ça est qu’on est passés en 4 dimensions. Force et accélération ne sont donc plus des vecteurs mais des quadrivecteurs. On note souvent ça avec des indices grecs, et l’équation correcte serait plutôt :

\displaystyle{F^{\mu}= m a^{\mu}}

Pour aller vite, cette équation est toujours valable en relativité générale, mais elle s’applique localement.

Le référentiel galiléen parfait ?

Parmi les motivations pour développer la relativité générale, j’ai parlé de la propagation instantanée de l’information en gravité newtonienne, mais il en existe une autre qui est intéressante, et qui porte sur les notions de référentiel.

J’ai cité la Terre comme exemple de référentiel galiléen, sauf que dans certaines circonstantes, elle n’est pas un bon référentiel galiléen. En effet, elle est en rotation sur elle-même, et autour du Soleil. Pour des expériences suffisamment courtes ça ne pose pas de problèmes, mais à plus grande échelle, on peut se rendre compte qu’elle n’est pas un véritable référentiel galiléen. En pratique, cela se traduit par des « forces virtuelles » comme la force de Coriolis, qui est celle qui explique que les alizés se dirigent vers l’ouest, ou encore que le pendule de Foucault tourne.

Si la Terre n’est pas un bon référentiel galiléen, on pourrait aller chercher la taille au-dessus : le Soleil. Sauf qu’à une certaine échelle, lui aussi est en mouvement dans la galaxie, galaxie qui elle-même se déplace.

Bref quand on cherche un référentiel galiléen « parfait », on en trouve pas. C’est un peu bizarre comme idée de poser qu’il existe des référentiels galiléens, mais de réaliser qu’il n’en existe en fait aucun.

La relativité générale permet de résoudre ce problème, en supprimant le besoin d’un  référentiel galiléen parfait, puisqu’une trajectoire en chute libre fait l’affaire dès qu’aucune autre force ne s’applique.

(Ces idées sont aussi un peu reliée au principe de Mach, qui dit que l’inertie d’un objet est dépendante de toute la distribution de matière dans le reste de l’Univers…mais ça nous emmènerait un peu loin !)

Les signes de la métrique

Passons maintenant aux mathématiques de la courbure. Autant le dire tout de suite, les paragraphes qui vont suivre pourraient occuper 200 pages, puisque des livres entiers sont consacrés à la géométrie riemanienne.

(J’en profite pour glisser un petit conseil lecture pour les plus furieux d’entre vous. Pour ma part, j’ai appris la relativité générale dans le bouquin de Wald. C’est un livre qui conviendra bien aux esprits matheux : le chemin est court mais la pente est raide. En gros ça commence par 2 chapitres de géométrie riemanienne bien bourrin, et au chapitre suivant l’essentiel physique va hyper vite car on a les bases de maths.)

Allons-y pour les précisions. Tout d’abord comme je l’ai dit rapidement dans la vidéo, toute l’histoire se passe en 4 dimensions; mais il y a une subtilité supplémentaire : quand on applique le « théorème de Pythagore », on calcule une distance d’espace-temps, qui a un sens particulier puisqu’on compte le temps et les distances avec un signe opposé. En l’absence de courbure, la distance d’espace-temps s’écrit

\displaystyle{ds^2=-dt^2+dx^2+dy^2+dz^2}

Ce que vous avez là est la métrique d’un espace-temps plat. Pour ceux que cette notion de distance d’espace-temps intrigue, je vous invite à d’abord la regarder à la relativité restreinte car elle y joue un rôle essentiel. Pour un espace temps-courbe, la métrique a une forme plus générale qu’on peut représenter comme une matrice 4×4 symétrique, et la condition se traduit par le fait qu’elle doit avoir une valeur propre négative et trois positives.

Vitesse et direction spatio-temporelle

Autre précision liée à l’idée d’espace-temps. Quand on fait de la géométrie courbe en 2D comme sur toutes les illustrations que j’ai faites, pour définir une géodésique il faut un point de départ et une direction. On applique alors l’équation des géodésiques à ces données initiales, et on construit la géodésique. Mais c’est de la pure géométrie, il n’y a pas de notion de vitesse.

En physique, la vitesse joue bien sûr un rôle sur la trajectoire. La géodésique que vous allez suivre au cours d’une chute libre va donc dépendre de votre point de départ, de votre direction mais aussi de votre vitesse. Cette dépendance à la vitesse apparait naturellement du fait qu’on travaille avec des espaces-temps.

En effet je vous laisse vous convaincre que le vecteur vitesse (avec sa direction et son norme) est simplement une direction dans l’espace-temps. Si vous êtes au même endroit, que vous allez dans la même direction (de l’espace) mais pas à la même vitesse que moi, nous avons des directions (de l’espace-temps) différentes.

Fibré, connexion et transport parallèle

Pour rester accessible, j’ai du passer sur les très jolies structures mathématiques qui se cachent derrière la mathématisation de la relativité générale. Il y a notamment les notions de fibré et de connexion, qui sont également au coeur de la formulation des théories de jauge en théorie quantique des champs !

Pour ma part, j’ai étudié ces notions dans le formidable polycopié de Robert Coquereaux, que je recommande chaudement aux étudiants en physique théorique !

Pour ceux qui veulent juste un aperçu : imaginez une surface courbe (oui, vous avez le droit de la visualiser comme « tordue »), prenez un point sur la surface et représentez vous un vecteur vitesse en ce point. Ce vecteur ne vit pas « dans la surface », mais dans un espace tangent à celle-ci : imaginez un plan tangent à la surface en ce point.

Si vous voulez pouvoir considérer toutes les vitesses possibles en tous les points, vous voyez qu’il vous faut un plan tangent en chaque point de la surface. « Au-dessus » de chaque point de la surface existe un espace tangent, qui, lui, est un bon vieil espace plat. C’est cette combinaison d’une surface et des espaces tangents qui existent au-dessus de chacun de ses points qu’on appelle un fibré.

Le point clé, c’est que pour une surface quelconque, il n’existe pas de façon naturelle de comparer un vecteur dans l’espace tangent au point M à un vecteur dans l’espace tangent à un autre point M’ situé un peu plus loin. Quand la surface est plate, ça se fait naturellement; dès qu’elle ne l’est plus, c’est fichu. En particulier, si vous prenez deux points voisins sur un espace-courbe et un vecteur tangent en chacun de ces deux points, on a pas de notion de « c’est le même vecteur aux deux points ». Et sans cette notion, impossible de définir la notion de parallèle, ou encore de « ligne droite » (qui est une ligne qui avance toujours de façon parallèle à elle-même).

Pour définir une manière de relier les espaces tangents de points voisins (et comparer les vecteurs qui y vivent), on peut définir une « connexion », c’est-à-dire un objet mathématique qui va permettre de faire ce lien en transportant un vecteur d’un espace tangent à un autre. La connexion est un objet à 3 indices C^i_{jk}, qui dit que si on transporte le vecteur x dans la direction y, il se transforme selon

\displaystyle x^i \to x^i + C^i_{jk}x^jy^k.

On appelle cette opération le transport parallèle. Un point important est qu’une fois qu’on a définit une notion de transport parallèle sur une surface, on peut avoir une notion de dérivée. En effet l’idée de dérivée impose de pouvoir comparer des quantités (notamment des vecteurs) d’un point à un autre de la surface. Par exemple, la dérivée d’un champ de vecteurs est nulle si le vecteur est « le même », et pour faire cette comparaison vous voyez que pour ça on a besoin d’une connexion.

Chaque fois qu’on définit une connexion, celle-ci fixe une manière de calculer des dérivées, on appelle ça la « dérivée covariante » associée à la connexion, et on la note généralement \nabla pour faire la distinction avec la dérivée usuelle.

Les symboles de Christoffel

A part quelques petites conditions, si on se choisit un fibré « nu », on a une grande liberté sur le choix de la connexion et on peut prendre un peu ce qu’on veut. Sauf que si sur notre espace-courbe on a préalablement défini une métrique, alors là on n’a plus le choix : il existe une unique connexion « naturelle » qui est découle de cette métrique, on la note \Gamma et on appelle ça les symboles de Christoffel.

On peut alors définir le transport parallèle qui soit compatible avec la métrique qu’on s’est choisie, et c’est cela qui permet de définir les géodésiques associées à une métrique donnée, selon l’équation des géodésiques qui utilise les symboles de Christoffel

\displaystyle \frac {d^2x^a}{ds^2}+\Gamma_{bc}^{a} \frac {dx^b}{ds}\frac {dx^c}{ds}=0

Petite précision : par ce procédé là, on obtient des géodésiques qui sont cohérentes avec la notion de « plus court chemin selon la métrique », c’est à dire que si on définit une géodésique comme la trajectoire qui extrémalise la distance entre deux points, calculée avec la métrique

{\displaystyle S=\int {\sqrt {-g_{\mu \nu }{\frac {dx^{\mu }}{d\lambda }}{\frac {dx^{\nu }}{d\lambda }}}}d\lambda }

on retrouve l’équation des géodésiques.

(Ah oui au fait, j’ai caché ça sous le tapis dans la vidéo, mais une géodésique ne minimise pas forcément le trajet entre deux points, mais elle l’extrémalise c’est-à-dire que c’est un minimum ou un maximum local.)

Morale de l’histoire : la métrique permet de calculer les distances, la connexion permet de définir une notion de transport parallèle, et si on a le bon goût de choisir la connexion compatible avec la métrique, ces deux concepts permettent de définir de façon cohérente et identique les géodésiques de notre espace.

Riemann, Ricci et Einstein

Maintenant qu’on a parlé de métrique et de Christoffel, on peut aborder les autres objets étranges qui peuplent les cours de relativité générale : les tenseurs de Riemann, de Ricci et d’Einstein.

Commençons par Riemann. Je vous ai dit que de façon générale, une connexion (et en particulier celle associée à une métrique) permet de définir une notion de transport parallèle, c’est-à-dire de prendre un vecteur (qui vit dans l’espace tangent à un point M) et de le transporter dans l’espace tangent à un point M’ voisin, pour voir ce qu’il vaut dans cet espace tangent. Un point essentiel et un peu contre-intuitif, c’est que le résultat va dépendre du chemin suivi pendant le transport.

Prenons un cas concret, on va transporter un vecteur X en suivant deux chemins différent : d’abord selon dY puis selon dZ pour le premier chemin, et selon dZ d’abord puis selon dY pour le second. Ces deux façon de transporter ne donneront pas le même résultat, c’est-à-dire que le vecteur X transporté par un chemin ne sera pas le même que le vecteur X transporté par l’autre. On peut calculer la différence entre ces deux vecteurs X transporté, et elle s’exprime comme :

\displaystyle \delta x^{\rho} = R^{\rho}_{\sigma\mu\nu}x^{\sigma}y^{\mu}z^{\nu}

où le tenseur de Riemann se calcule à partir des symboles de Christoffel en prenant en gros le commutateur des dérivées covariantes

{\displaystyle R^{\rho }{}_{\sigma \mu \nu }=\partial _{\mu }\Gamma ^{\rho }{}_{\nu \sigma }-\partial _{\nu }\Gamma ^{\rho }{}_{\mu \sigma }+\Gamma ^{\rho }{}_{\mu \lambda }\Gamma ^{\lambda }{}_{\nu \sigma }-\Gamma ^{\rho }{}_{\nu \lambda }\Gamma ^{\lambda }{}_{\mu \sigma }}

Bien sûr le détail de la formule n’est pas important, mais il faut retenir l’idée que ce tenseur exprime la « non-commutativité » du transport parallèle associé à une connexion.

On appelle ce tenseur « le tenseur de courbure », car c’est le fait qu’il soit non-nul qui caractérise véritablement l’existence d’une courbure. On peut avoir des métriques avec des formes tordues, et des symboles de Christoffel qui ont l’air compliqués, mais que tout cela ne décrive en réalité qu’un espace plat paramétrisé de façon bizarre. Le critère pour savoir si un espace est « vraiment courbe », c’est cette non-commutativité du transport parallèle, et donc le fait que le tenseur de Riemann ne soit pas nul.

Le tenseur de Ricci quant à lui est une « contraction » du tenseur de Riemann, c’est-à-dire qu’on somme sur 2 indices

\displaystyle R_{\mu\nu} = R^{\sigma}_{\mu\sigma\nu}

Il représente lui-aussi une certaine idée de la courbure, à travers la notion de contraction et dilatation d’un volume.

Prenons un exemple concret : imaginez un cube d’1 mètre de côté fait de petites billes, et que vous lachez à une certaine altitude de la Terre, sans vitesse initiale. Le cube va tomber et va se déformer. Les billes du bas étant accélérées plus fortement que celle du haut, le cube va s’étirer dans la direction verticale (et mesurer plus d’un mètre), en revanche les billes situées sur les côtés vont se rapprocher de celles du centre, pour la raison que j’illustre dans la vidéo : en tombant vers le centre de la Terre, les pommes se rapproche.

Mon cube va donc se contracter dans la direction transverse. Au total le cube se déforme et une question qu’on peut se poser, c’est si son volume global va changer. C’est en gros ce qu’exprime le tenseur de Ricci. Et comme l’équation d’Einstein relie le tenseur de Ricci au tenseur énergie-impulsion, dans le vide (c’est à dire en un point de l’espace sans matière ou énergie), le tenseur de Ricci est nul ce qui exprime que le volume du cube se conserve.

Enfin dernier ingrédient, donc, le tenseur d’Einstein, qui s’exprime simplement à partir du tenseur de Ricci et du scalaire de Ricci R qui correspond simplement à la contraction du tenseur de Ricci.

G_{\mu\nu} = R_{\mu\nu} - \frac12Rg_{\mu\nu}

Une question qu’on peut se poser, c’est pourquoi diable l’équation qui lie courbure et matière est G_{\mu\nu} = T_{\mu\nu} plutôt que R_{\mu\nu} = T_{\mu\nu}. Un élément de réponse est donné par une propriété du tenseur d’Einstein : sa divergence est nulle quand on utilise la dérivée covariante

\nabla^{\mu}G_{\mu\nu} = 0

ce qui est bien pratique, car c’est justement aussi ce qu’on attend du tenseur énergie-impulsion, pour exprimer une forme de « conservation de l’énergie »

\nabla^{\mu}T_{\mu\nu} = 0

J’en profite pour glisser qu’en Relativité générale, l’énergie n’est plus conservée au sens classique du terme, mais que c’est cette relation plus permissive qui la remplace. Et c’est cela qui permet des phénomènes qui a priori violent la conservation de l’énergie, comme la production d’énergie du vide quand on a une constante cosmologique.

Comment résoudre l’équation d’Einstein ?

Je l’ai mentionné brièvement, on ne peut explicitement résoudre l’équation d’Einstein que dans des cas très simple. La méthode de résolution est en gros la suivante : on identifie les symétries du problème, et on en déduit une forme réduite de la métrique, paramétrisée de façon simple. On injecte cette forme dans l’équation qui donne les symboles de Christoffel, puis dans celle qui donne le tenseur de Riemann et enfin le tenseur de Ricci et d’Einstein. Et là on résout l’équation.

Comme vous le voyez, c’est un long chemin très calculatoire, qui rend ces parties de la relativité générale un peu indigestes !

La courbure sans dimension supplémentaire

Une des idées principales que j’ai essayé de faire passer dans la vidéo, c’est le fait que mathématiquement, on n’a pas du tout besoin d’une dimension de plus pour parler de courbure. Et c’est même encore pire que ça : les courbures représentables avec une dimension supplémentaire (qu’on appelle extrinsèques) ne sont qu’une toute petite partie des courbures envisageables (intrinsèques). En particulier, une métrique simple comme celle de Schwarzschild n’est pas représentable de la sorte, ce qui est encore un défaut de la représentation « classique » du drap tordu, qui justement ne peut pas représenter correctement la courbure induite par une masse sphérique.

Voyons ça en détail sur le cas simple des surfaces 2D courbes. De façon générale, une métrique s’exprime sous la forme

\left(\begin{matrix}  \alpha(x,y) & \beta(x,y) \\  \beta(x,y) & \delta(x,y)  \end{matrix}\right)

où on a imposé la condition de symétrie de la métrique. Il faut donc 3 fonctions indépendantes pour la spécifier complètement. On va essayer de résoudre le « problème inverse », c’est-à-dire essayer de trouver une « surface 2D tordue » dont la métrique soit la même.

Imaginez donc une surface « tordue » en 3D, de la forme z = f(x,y), où f est une fonction. L’espace 3D étant lui-même plat, la métrique est :

\displaystyle ds^2 = dx^2 + dy^2 + dz^2

Puisque sur la surface z=f(x,y) la métrique induite s’obtient en exprimant

\displaystyle dz=\frac{\partial f}{\partial x} dx + \frac{\partial f}{\partial y}dy

et on a donc pour la métrique

\displaystyle ds^2 = (1 + \left(\frac{\partial f}{\partial x}\right)^2 ) dx^2 + (1 + \left(\frac{\partial f}{\partial y}\right)^2 ) dy^2 + 2\frac{\partial f}{\partial x}\frac{\partial f}{\partial y}dxdy

Vous pouvez maintenant essayer de vous amuser à résoudre le problème inverse, et vous convaincre que sauf condition très particulière sur \alpha, \beta, \delta, ça ne marche pas !
Une manière encore plus simple de s’en rendre compte, c’est que 3 fonctions définissent en général une métrique (intrinsèque) alors que sous la forme extrinsèque, on en a qu’une à choisir : f.

En particulier, si on prend la métrique de Schwarzschild projetée en 2D sur les coordonnées r et t, il n’est pas possible de résoudre le problème inverse. Donc il n’est pas possible de représenter la métrique de Schwarzschild comme « une surface tordue ». (Pour être précis, c’est possible à condition d’aller en 6 dimensions !)