ChatGPT : Quand l’IA répond aux QCM de Médecine

Difficile d'échapper à ChatGPT, un "Large Language Model" capable de générer du texte. Simple mémorisation ou début de raisonnement ? Confrontés à des QCM de médecine, les LLM montrent d'évidentes limites.

Marc Cavazza est diplômé de la Faculté de Médecine Xavier Bichat et Docteur en Biomathématiques de l’Université Paris Cité. Il a dirigé des équipes de recherche dans plusieurs universités britanniques, avec comme thèmes de recherche les interfaces cerveau-ordinateur et les applications de l’Intelligence Artificielle. Il a publié dans la plupart des conférences internationales sur le sujet (IJCAI, AAAI, ECAI, ICML, NeurIPS).

La presse généraliste regorge d’articles annonçant les nouvelles capacités révolutionnaires de l'intelligence artificielle (IA). Dernière en date, sa supposée faculté de répondre intelligemment à toutes sortes de questions et de générer des textes d’une qualité suffisante pour tromper les enseignants. Il s’agit des LLM (Large Language Models), répondant par exemple aux acronymes de ChatGPT, GPT-3.5, et bientôt GPT-4.

Un LLM est un modèle statistique qui a appris sur une quantité de texte phénoménale (comme la totalité de Wikipedia), en utilisant un mécanisme d’apprentissage profond non-supervisé (c’est-à-dire qu’il peut apprendre sur du texte brut, sans que celui-ci nécessite des annotations décrivant son contenu ou ses propriétés). Le LLM utilise une technique d’apprentissage récente, introduite en 2017 : les Transformers (d’où l’acronyme GPT, qui signifie Generative Pre-trained Transformer).

Pour simplifier, un LLM apprend un ensemble de probabilités qui permettent de déterminer quelle suite de mots doit «répondre» à une phrase exprimant une requête ou une question. Vu de façon abstraite, un LLM est donc un système qui génère un texte en réponse à un autre texte. Mais, contrairement à un simple moteur de recherche, le texte produit n’est pas juste un copier-coller de texte existant quelque part sur le net ; c’est une production originale, réaliste et grammaticalement correcte.

Les LLM, des «perroquets évolués ?»

La puissance des LLM dérive du fait qu’un grand nombre d’applications peuvent être ramenées à ce mécanisme de génération de texte à partir d’une requête (le prompt) :

réponse à une question, la réponse étant de longueur arbitraire pouvant aller jusqu’à un mémoire ou rapport ;
traduction automatique ;
génération de questions et réponses sur un sujet donné à partir d’exemples,
résumé ou simplification d’un texte, où la réponse est plus courte que la requête, etc.

Utilisant jusqu’à des centaines de milliards de paramètres, les LLM sont d’une complexité extrême. La phase d’apprentissage nécessite des ressources en calcul phénoménales, hors de portée d’un laboratoire de recherche de taille moyenne. Ceci explique que la plupart des LLM sont produits par les grands industriels du numérique ou bien des fondations soutenues par eux, comme OpenAI.

Ces LLM font l’objet de polémiques et de questions philosophiques. En premier lieu : sont-ils vraiment une forme de compréhension propre, ou ne s'agit-il que de «perroquets évolués» (Stochastic Parrots) ? Une question plus technique retiendra notre attention pour le contexte qui nous intéresse ici : des formes de raisonnement élémentaire sont-elles ou non accessibles au LLM en utilisant le seul apprentissage à partir de textes ?

Les LLM s'attaquent aux QCM de Médecine !

Pas moins de trois articles^1,2,3 émanant d’institutions respectables comme Google ou le MIT publient des résultats d’expérimentations qui utilisent les LLM pour répondre à des questionnaires de Médecine, en particulier des QCM.

On pourrait y voir des intentions diverses, comme de valider le poncif que la Médecine n’est après tout que du «par cœur» ou encore une occasion de prouver que les LLM peuvent apprendre la Médecine mieux que les médecins. À moins que ce ne soit l’occasion de mettre en avant une prouesse – la résolution d’une tâche cognitive complexe – , et pourquoi pas de prendre une revanche sur le vieux rival IBM et son Watson Health qui a connu quelques déboires.

Mon but dans cet article n’est pas de me livrer à une lecture critique en règle d’articles somme toute assez techniques ; j’ai bien sûr une idée sur la question et, spoiler, j’en dirai plus vers la fin de l’article. Je voudrais ici encourager les lecteurs à s’intéresser à ce sujet de façon décomplexée. Même si ces recherches se situent à la pointe d’un des domaines les plus complexes, je veux croire qu’il est possible de rentrer dans ce problème sans connaissances pointues en Machine Learning, en utilisant la compréhension naturelle qu’ils ont du problème à résoudre.

En effet, les médecins ont non seulement souffert sur des milliers de QCM, mais ils ont aussi développé une capacité métacognitive sur leur façon d’aborder les problèmes médicaux, à travers la conscience du diagnostic différentiel, des conduites à tenir, voire, suivant les disciplines, du raisonnement physiopathologique.

Ceci permet d’aborder le problème des LLM en Médecine à travers deux aspects, qui se révèlent au centre de toute discussion sur l’application de l’IA en Médecine clinique : l’évaluation et l’explication.

Au-delà de la mémorisation ?

Sur l’évaluation, vous pouvez vous faire une idée de la qualité des réponses en tenant compte de la difficulté des QCM. Dans la comparaison du système aux performances humaines, il importe de ne pas se laisser intimider par les multiples métriques dont le Machine Learning est friand, en particulier en l’absence de données sur la distribution des QCM en termes de difficulté. Sur l’explication, elle est bien sûr dépendante du niveau de raisonnement exigé par le QCM, et à vous de juger si elle reproduit ou non un raisonnement médical plausible.

Tout d’abord, évacuons la polémique sur la valeur des QCM en tant que mode d’évaluation en Médecine. Acceptons leur intérêt, au moins à titre méthodologique, tout en reconnaissant que tous les QCM n’offrent pas le même niveau de difficulté, de sophistication, voire de qualité.

On peut considérer qu’il existe plusieurs stratégies cognitives de réponse à un QCM : la mémorisation simple, le diagnostic différentiel, le raisonnement physiopathologique, auquel on peut ajouter des stratégies par défaut dérivées de la structure du QCM lui-même (réponse par élimination, ou seule réponse possible).

Les QCM utilisés dans ces travaux sur les LLM sont extraits de plusieurs bases américaines comme l’United States Medical Licensing Examination (USMLE). Ce sont des QCM à réponse simple et unique. On peut considérer comme assez naturel que les LLM puissent répondre à tous les QCM de mémorisation. Par exemple : identifier sur quatre possibilités le premier signe clinique d’un tétanos ou d’un botulisme, ou encore l’examen à considérer en urgence devant une suspicion de paludisme.

D’une certaine façon, c’est déjà un résultat des plus intéressants. Prenons par exemple le QCM suivant³, issu d’un jeu de données utilisé pour tester les LLM (la base Massive Multitask Language Understanding).

Question:
Which of the following controls body temperature, sleep, and appetite?

Answer:
(A) Adrenal glands (B) Hypothalamus (C) Pancreas (D) Thalamus

Si on se penche sur les titres des trois articles cités, ils semblent vouloir aller plus loin, en parlant explicitement de connaissances cliniques, voire de raisonnement. Acquérir des connaissances cliniques ? Oui, mais lesquelles, et jusqu’à quel point ? Peut-on raisonnablement croire que les connaissances sont des entités autonomes, et que pour être Médecin il suffirait de connaître le Harrison (ou votre traité de Médecine favori) par cœur ?

Des explications peu satisfaisantes

Les LLM pourraient-ils vraiment raisonner ? Jusqu’à même expliquer leur choix, ce qui semble un préalable indispensable à tout déploiement, même en tandem avec un médecin ? Un des trois articles ² propose de justifier le «raisonnement» du système, ce qui est un effort de transparence tout à fait louable. Malheureusement, on voit très vite que les explications proposées sont plutôt bancales, et sans même rentrer sur des considérations d’IA trop techniques.

Je vous invite à parcourir les exemples, et vous faire une opinion : vous verrez que vous serez tout de suite capables, dans votre spécialité et même en général, de voir les défauts et/ou proposer une explication plus satisfaisante que celle offerte par tel exemple proposé dans ces articles.

Enfin, on peut être perplexe sur la capacité des LLM à répondre, et à expliquer cette réponse, à des QCM qui demandent un raisonnement plus complexe. Surtout quand le QCM lui-même peut laisser perplexe… Ainsi, ce QCM, issu de la base USMLE ³ pour lequel la réponse correcte est censée être (A) :

Question:
A 65-year-old man with hypertension comes to the physician for a routine health maintenance examination. Current medications include atenolol, lisinopril, and atorvastatin. His pulse is 86/min, respirations are 18/min, and blood pressure is 145/95 mm Hg. Cardiac examination reveals end diastolic murmur. Which of the following is the most likely cause of this physical examination?

Answer:
(A) Decreased compliance of the left ventricle
(B) Myxomatous degeneration of the mitral valve
(C) Inflammation of the pericardium
(D) Dilation of the aortic root
(E) Thickening of the mitral valve leaflets

Comme promis en début d’article, j’ai bien sûr une opinion sur la question. Disons que j’aurais trouvé préférable que les titres des articles insistent sur la possibilité de répondre à certains QCM avec un modèle textuel, plutôt que de prétendre acquérir ou coder des connaissances cliniques sui generis. Car sur ce dernier point, il y a des objections à la fois pratiques et théoriques.

En pratique, on voit quand même pas mal de réponses bancales, au moins quand les auteurs ont le courage de chercher à justifier leurs réponses. En théorie, il y a un débat très actif sur le fait que les LLM puissent reproduire un raisonnement, ce qui était paradoxalement plus facile avec l’ancienne IA fortement basée sur la logique (attention, je ne dis pas que le raisonnement humain est basé sur la logique formelle).

Le consensus est plutôt qu’à l’heure actuelle les LLM ne savent reproduire que des raisonnements assez triviaux. Ainsi, Yann Le Cun ⁴ les compare à des «étudiants qui auraient appris le contenu des cours par cœur, mais n’auraient pas construit de vrais modèles mentaux des situations décrites».

On peut imaginer que les LLM puissent reproduire des raisonnements qui se trouveraient verbatim dans certains des textes sur lesquels ils ont appris, comme des syllogismes simples. Mais il n'y a aucune certitude concernant leur capacité à généraliser les contenus.

L’introduction des chain of thoughts (CoT) ² veut donner un semblant de cohérence aux résultats des LLM. Cependant, en tant que formalisme, il reste très en deçà des modèles antérieurs de raisonnement en IA symbolique et ressemble plus à un hack qu’à une vraie théorie.

On reste loin d’un raisonnement hypothético-déductif. Or, c’est précisément ce type de raisonnement qui caractérise le diagnostic différentiel. Quant au raisonnement physiopathologique, on n’en voit pas d’exemples dans ces articles. Il semble par ailleurs difficile que, dans un modèle texte-texte, on puisse retrouver la granularité du raisonnement qui permette de l’appliquer à des cas cliniques par définition très spécifiques, sans risque de confusion entre les situations.

Avant de prétendre qu’ils peuvent découvrir des connaissances cliniques, les LLM devraient donc être évalués avec des QCM nécessitant un raisonnement sous-jacent, comme nous l’avons tous été. Ils devraient aussi être capables de produire une justification non triviale aux réponses fournies.

Ce n’est pas le moindre des paradoxes que de constater que, quand l’IA s’essaiera à la Médecine, on se rendra enfin compte que la Médecine, ce n’est pas que du par cœur…

Marc Cavazza

Retrouvez tous nos articles sur Twitter, LinkedIn et Facebook.

Vous êtes médecin ?
Pour recevoir une sélection de nos articles ou les commenter, il vous suffit de vous inscrire.

^{Références :

1- Jin, D., Pan, E., Oufattole, N., Weng, W.H., Fang, H. and Szolovits, P., 2021.

What disease does this patient have? a large-scale open domain question answering dataset from medical exams.

Applied Sciences, 11(14), p.6421.

2- Liévin, V., Hother, C.E. and Winther, O., 2022.

Can large language models reason about medical questions?

[3] Singhal, K., Azizi, S., Tu, T., Mahdavi, S.S., Wei, J., Chung, H.W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S. and Payne, P., 2022.

Large Language Models Encode Clinical Knowledge.

4- Chercheur en intelligence artificielle français, Yann Le Cun est considéré comme l'un des inventeurs de l'apprentissage profond. Ses travaux portent notamment sur la vision artificielle, les réseaux de neurones artificiels et la reconnaissance d'images. Il dirige le laboratoire de recherche en intelligence artificielle de Facebook.}