Comment lire une étude scientifique ?

Dans cette nouvelle vidéo, je m’attaque à ces fameuses « études américaines » auxquelles ont fait dire tout et son contraire…

Détail amusant : quand j’ai écrit le script, j’ai imaginé au hasard un sujet d' »étude américaine » : le heavy metal et la dépression. Or après j’ai vérifié, il existe bien des publications ayant étudié cette association ! D’ailleurs les résultats ont l’air subtils car en non-randomisé, il semblerait que l’écoute du metal soit plutôt corrélée avec les symptômes dépressifs, mais qu’en traitement randomisé il ait un effet bénéfique. Paradoxal, non ? Mais bon j’avoue que je n’ai pas creusé.

Quelques petits compléments d’usage, pour ceux qui voudraient aller plus loin…

Processus de publication et a-priori bayésien

Je n’ai pas passé trop de temps sur le processus de relecture par les pairs. J’ai notamment passé sous silence les habituels allers/retours qui se font entre les auteurs et les relecteurs, ces derniers pouvant demander des précisions ou corrections dans le texte. Je n’ai pas non plus évoqué tous les problèmes que posent le processus actuel de l’édition scientifique, ça n’était pas le propos de la vidéo, mais l’ami DirtyBiology a fait une vidéo sur le sujet !

Parlons vite-fait des impacts factors. Je l’ai présenté comme un élément intéressant à verser au dossier quand on analyse une étude. Je suis sûr que ça va en faire hurler quelques uns. Il est vrai que cette métrique a plein de problèmes, et qu’en plus les journaux à très haut facteur d’impact peuvent poser le problème additionnel de la fraude scientifique pure et simple. On sait qu’une publication dans une revue très prestigieuse peut être un élément très important pour la carrière d’un chercheur, il y a donc une pression a essayer de publier ses papiers dans ces revues, ce qui peut pousser certains à carrément falsifier leurs résultats pour décrocher la timbale. Donc oui, sur un gros résultat spectaculaire dans une revue « star », il faut aussi accueillir les choses avec prudence. D’autant plus que ça n’est pas un relecteur non-spécialisé qui pourra détecter ces fraudes.

A contrario une étude publiée dans un « petit » journal n’est pas forcément mauvaise. Disons que mon algorithme est plutôt « Si le résultat annoncé est spectaculaire, et que ça vient d’une petite revue, redoublons de prudence. » Car en principe avec un résultat canon, on essaye de soumettre aux grosses revues. Ce genre de vérification préliminaire sert juste à savoir quels sont nos a prioris sur la plausibilité de l’article, avant de le lire, dans une logique toute bayésienne que ne renierai pas l’ami Science4All !

Un mot sur les expériences et leurs analyses

Parlons pour commencer de ce qu’on appelle les « modèles animaux ». Quand j’ai évoqué les expériences sur les animaux, certains ont peut être tiqué en m’entendant parler de la dépression chez les souris. Eh bien figurez vous que pour un grand nombre de maladies humaines, il existe des équivalents chez différents animaux, c’est ce qu’on appelle des « modèles animaux ». Et il en existe notamment un certain nombre pour la dépression. Donc oui, étudier la dépression chez la souris, ça a du sens.

Sur ce qu’on observe et ce qu’on fait varier, j’ai schématisé en ne présentant qu’un cas simple (mais fréquent) : celui où on a deux groupes et on étudie l’impact sur une variable continue (par exemple un score sur une échelle de dépression.) Mais il existe plein d’autres situations : parfois on a plus de deux groupes, parfois on fait varier plusieurs facteurs. On peut également regarder l’impact d’une variable continue (disons le nombre de chanson de métal écoutées chaque mois) sur une autre (le score de dépression). Dans ce cas, on se trouve face à un cas de tentative « corrélation » entre deux variables continues.

Dans tous ces cas on peut réaliser des tests statistiques auxquels on attribue des « valeurs p ». Mais il y a parfois des subtilités difficiles à démêler sans quelques connaissances en statistiques. Tout test statistique repose sur des hypothèses données, et un modèle sous-jacent dont il faut en principe s’assurer qu’il est raisonnablement valide. Et il n’est pas rare que des publications scientifiques présentent juste le bon test statistique qui permet de passer sous la barre fatidique des p=0,05. C’est parfois ce qu’on appelle du « hacking » de valeur p.  (Pour ceux qui veulent en savoir plus sur cette notion, je vous renvoie à un vieux billet sur le sujet : Comment être sûrs qu’un résultat scientifique est vrai ?)

Petite précision aussi : pour les besoins de la simplicité de l’exposé, je n’ai pas insisté sur la notion de « barre d’erreur » ou de façon plus générale de variabilité. Elle joue bien entendu un rôle dans les estimations statistiques. Une bonne manière de « mesurer » une taille d’effet, c’est de la compter en « barres d’erreur ». Est-ce que l’effet est égal à 2 fois la barre d’erreur ? Plus ? Moins ? C’est en quelque sorte ce ratio, et le nombre de sujets dans les groupes, qui va gouverner la valeur p.

Concernant les facteurs de confusion, il faut bien réaliser qu’il existe des méthodes statistiques permettant de les maitriser. Mais ces méthodes reposent sur des hypothèses qui ne sont pas toujours vérifiées, il ne s’agit donc pas d’un coup de baguette magique qui résout tous les problèmes. Et surtout cela ne marche que si le facteur a été préalablement identifié, et que les données correspondantes ont été collectées. On ne peut pas contrôler pour un facteur pour lequel on n’a pas de données. Donc en théorie on n’est jamais certains d’avoir tout bien contrôlé. Cela montre d’ailleurs que pour ce genre d’analyse, les statistiques ne suffisent pas : il faut un expert du sujet, quelqu’un qui sait bien de quoi on parle, et qui est à même d’identifier les bons facteurs de confusion.

Enfin j’ai sous-entendu qu’une étude était soit non-randomisée (et donc sujette à facteur de confusion), soit randomisée auquel cas les tailles de groupes étaient souvent faible. Il y a bien sûr un cas où on essaye d’avoir des études randomisées sur de grands groupes, ce sont bien sûr les « essais cliniques » des médicaments, notamment dans les phases II et III où l’on va avoir typiquement de plusieurs centaines à plusieurs milliers de patients. Autant que possible les études sont en « double aveugle », c’est-à-dire que ni le patient, ni son médecin traitant, ne savent à quel groupe le patient est attribué. Dans ce cas là les groupes de contrôle sont soit des groupes placebos, soit des groupes recevant un traitement usuel.

 

 

Glyphosate : le nouvel amiante ?

Cela fait maintenant de nombreuses semaines que la Commission Européenne peine à se mettre d’accord sur le renouvellement — ou pas — de l’autorisation du glyphosate, cet herbicide largement utilisé, et commercialisé depuis 1974 par Monsanto sous l’appellation Round-Up.

Les batailles d’influence font rage, expertises et contre-expertises se succèdent, et comme le soulignent plusieurs titres de presse, l’affaire ressemble de plus en plus à un précédent de sinistre mémoire : celui de l’amiante.

Dans les deux cas on retrouve les mêmes ingrédients :

  • Un produit massivement utilisé par des professionnels, qui se retrouvent de fait fortement exposés (les agriculteurs pour le glyphosate, et les ouvriers travaillant dans le secteur de l’amiante)
  • Un lobby industriel puissant ayant un intérêt financier considérable à ce que le produit ne soit pas interdit.
  • Des batailles d’influence concernant le caractère cancérigène des produits.

Le parallèle semble saisissant, non ? Alors pourquoi n’arrive-t-on pas à faire interdire le glyphosate ? Faisons une comparaison quantitative. Lire la suite

Le Cancer

Aujourd’hui une vidéo sur un sujet complexe, le cancer.

Comme vous l’avez remarqué, j’ai bénéficié pour cette vidéo de l’aide de l’institut Gustave Roussy. Si vous voulez plus d’information, vous en trouverez notamment sur la page de l’école des sciences du cancer, la structure de formation de l’institut.

Pour les chiffres concernant les incidences et la mortalité, je me suis basé sur le travail de synthèse de Catherine Hill accessible ici.

Enfin un grand merci à Raphaël qui m’a bénévolement proposé de réaliser cette vidéo, et ça change tout ! Vous pouvez aller admirer son travail sur son portfolio. Comme vous le verrez, il tourne d’habitude avec des gens beaucoup plus beaux que moi !

 

Modifier le génome avec CRISPR/Cas9 [Vidéo]

Une petite vidéo sur ce sujet qu’il me parait indispensable de faire connaitre au plus grand nombre…

Pour une fois, vous remarquerez que ça n’est pas un sujet que j’avais déjà traité sur le blog !

Je n’ai pas beaucoup de compléments à ajouter à la vidéo, à part un truc un peu étonnant que j’ai compris sur le tard, c’est que les palindromes…n’en sont pas ! Il m’a fallu retourner à la toute première publication de 1987 (voir [1]) pour m’en rendre compte, mais si j’ai bien compris on parle de séquence ayant en fait une symétrie « dyadique », c’est-à-dire que quand on les lit à l’envers, on retrouve ne retrouve pas les mêmes bases mais leurs complémentaires.

Par exemple puisque A et T sont complémentaires ainsi que C et G, la séquence

AGGCGCCT

possède une symétrie dyadique : les 4 premières bases (AGGC) sont complémentaires des 4 dernières lues à l’envers (TCCG). Comme les deux séquences sont complémentaires, leurs transcriptions ARN peuvent s’apparier pour former une sorte d’épingle à cheveux. Lire la suite

Montre-moi tes télomères, et je te dirai combien de temps tu vivras

vieilles mainsCertains charlatans prétendent pouvoir prédire le temps qu’il vous reste à vivre à partir de la longueur de votre « ligne de vie », juste en regardant la paume de votre main. Absurde bien sûr !

Et pourtant il y a au sein de nos cellules de petites structures appelées télomères, dont la longueur est liée à notre âge, et qui se raccourcissent au fur et à mesure de notre vieillissement.

Est-ce que l’on peut alors prédire notre espérance de vie à partir de la longueur des télomères ? Et est-ce que l’on pourrait carrément interrompre notre vieillissement en les rallongeant ?

Il y a de ça, mais ça n’est pas si simple… Lire la suite

Le paradoxe de Simpson

homer-simpsonNon, le paradoxe de Simpson ne tire pas son nom de Homer, mais de Edward Simpson, le statisticien qui l’a décrit pour la première fois en 1951. Il s’agit d’un de ces paradoxes mathématiques qui peut nous faire des noeuds à la tête, mais qui malheureusement est bien plus qu’une simple curiosité : bien comprendre ce paradoxe peut s’avérer essentiel pour prendre les bonnes décisions !

Alors si vous ne connaissez pas ce phénomène statistique très contre-intuitif, lisez la suite, et les bras devraient vous en tomber ! Lire la suite