Intelligence artificielle et neurologie

L'IA offre des avantages en termes de rapidité et de précision, notamment pour le traitement de données. Quelle implications s'observent déjà dans la pratique clinique quotidienne ?

La recherche en IA appliquée à la médecine s’est considérablement accélérée ces dernières années

« C’est une grave erreur de traiter la santé comme s’il s’agissait d’un besoin de consommation ordinaire. »2

Le Dr Josh Tamayo-Sarver, PhD, médecin américain et partisan de l’utilisation de l’intelligence artificielle pour améliorer la qualité et l’efficacité des soins, a testé  combien de diagnostics le bot développé par OpenAI est capable de poser correctement dans le quotidien d’un service d’urgence. Le résultat : se reposer sur l’IA devient rapidement critique pour les patients.

Titulaire de cinq brevets dans le domaine des technologies de la santé, dont deux liés aux modèles d’apprentissage automatique, ce médecin n’a pas pour autant abandonné immédiatement ChatGPT. Il a continué a l'utiliser et le tester. Dans un article ultérieur, il a conclu : « Même si des programmes comme ChatGPT sont très prometteurs pour l’avenir de la médecine, ils présentent aussi certains inconvénients préoccupants [...]. » 2

Un problème majeur réside dans le fait que les réponses générées par l’IA dépendent fortement de la formulation des questions et de la qualité des données entrées, donc de qui est l’utilisateur. Il s'agit là d'un biais inhérent : l’IA n’apporte des réponses qu’à ce qu’on lui demande.

Les algorithmes d’IA ne sont par ailleurs jamais meilleurs que les données sur lesquelles ils ont été entraînés. Les biais sont un problème bien connu des systèmes d’IA, notamment dans le domaine de la santé, où les données d’entraînement ne sont pas nécessairement représentatives de la diversité des populations de patients.1

Les médecins surpassent Chat-GPT lorsque les cas ne se présentent pas sous forme de questions à choix multiples

Malgré la quantité d'informations disponibles, une chose ne peut être remplacée : le jugement clinique.  ChatGPT peut répondre à des questions à choix multiples, restituer des faits et réagir à des questions connues, mais il atteint ses limites face à des cas cliniques complexes, en particulier lorsque la présentation ne suit pas un schéma classique ou « conforme aux manuels ».

Une étude suédoise l'a démontré de manière impressionnante en comparant les performances de ChatGPT (version GPT-4) à celles de vrais médecins dans la rédaction de comptes rendus en texte libre dans les soins primaires.4 Ces vignettes cliniques, inspirées de l’examen de spécialité en médecine générale, ont révélé que même des médecins moyens obtenaient des résultats significativement meilleurs que ChatGPT. Les médecins les plus compétents étant encore plus performants. 

Des données existent également pour l’examen britannique de spécialité en neurologie, analysant les performances de différentes versions de ChatGPT, mais sans comparaison directe avec des médecins humains. ChatGPT 3.5 Legacy et ChatGPT 3.5 Default ont atteint respectivement 42 % et 57 %, échouant donc au seuil de réussite fixé à 58 %. ChatGPT-4 a obtenu le meilleur score, avec 64 %. Dans la pratique, 6,4 réponses correctes sur 10 seraient difficilement acceptables.

L’IA pourrait-elle faire notre travail ?

« Au cours des mois où j’ai expérimenté ChatGPT pendant mes gardes aux urgences, j’ai compris que ChatGPT est un outil  extrêmement limité et risqué en tant qu’outil de diagnostic autonome – mais très utile pour expliquer des processus médicaux complexes aux patients » conclut le Dr Tamayo-Sarver.2

Même en dehors des soins aux patients et des urgences, il est clair que l'apport d'experts dans le domaine de la santé reste indispensable. Une étude parue dans le BMJ sur l’élaboration de revues de littérature médicale par ChatGPT est arrivée à la même conclusion : à l’heure actuelle, cet outil n’est pas adapté à des contenus professionnels ou spécifiques à une discipline.6,7

Saviez-vous que les chatbots IA peuvent être « déments » ?

Le mini-test de l'état mental (MMST) est l'un des tests de démence les plus utilisés, mais le test MoCA (« Montreal Cognitive Assessment ») est considéré comme nettement plus sensible pour détecter un trouble cognitif léger. Les principaux modèles linguistiques actuels (LLM, large language models) ont donc été soumis à ce test et la plupart ont montré des signes de troubles cognitifs légers.8

Plus le chatbot était ancien, plus les scores évoquaient un déclin cognitif. « Ces résultats remettent en question l’idée que l’intelligence artificielle pourrait bientôt remplacer les médecins humains, car les déficiences cognitives observées chez les principaux chatbots compromettent leur fiabilité dans le diagnostic médical et pourraient éroder la confiance des patients. »

L’étude a été publiée dans l’édition de Noël du BMJ, qui propose toujours des études et rapports authentiques, présentés cependant sur un ton humoristique. Les auteurs reconnaissent que la comparaison avec le cerveau humain est injuste par nature. Ils insistent néanmoins sur le fait que l’échec généralisé de tous les grands modèles de langage face à des tâches demandant abstraction visuelle et fonctions exécutives représente une faiblesse majeure, susceptible de limiter leur utilisation en pratique clinique.9

La conclusion des auteurs : « Il est non seulement peu probable que les neurologues soient remplacés de sitôt par de grands modèles de langage, mais nos données suggèrent qu’ils devront bientôt prendre en charge de nouveaux patients virtuels : des modèles d’intelligence artificielle présentant des troubles cognitifs ! ».8

Sources

  1. Abu Alrob, M. A. & Mesraoua, B. Harnessing artificial intelligence for the diagnosis and treatment of neurological emergencies: a comprehensive review of recent advances and future directions. Front. Neurol. 15, (2024).
  2. Tamayo-Sarver, J. I’m an ER doctor. I think LLMs may shape the future of medicine—for better or worse. Fast Company https://www.fastcompany.com/90922526/er-doctor-ai-medicine (2023).
  3. Senthil, R., Anand, T., Somala, C. S. & Saravanan, K. M. Bibliometric analysis of artificial intelligence in healthcare research: Trends and future directions. Future Healthcare Journal 11, 100182 (2024).
  4. Arvidsson, R., Gunnarsson, R., Entezarjou, A., Sundemo, D. & Wikberg, C. ChatGPT (GPT-4) versus doctors on complex cases of the Swedish family medicine specialist examination: an observational comparative study. BMJ Open 14, e086148 (2024).
  5. Giannos, P. Evaluating the limits of AI in medical specialisation: ChatGPT’s performance on the UK Neurology Specialty Certificate Examination. BMJ Neurol Open 5, e000451 (2023).
  6. Admir Hadzic on LinkedIn: #aiinmedicine #chatgpt #subspecialtymedicine #medicalreview #expertise… | 15 Comments. https://www.linkedin.com/posts/hadzic-admir_aiinmedicine-chatgpt-subspecialtymedicine-activity-7084148289008230401-2nvS.
  7. Wu, C. L. et al. Addition of dexamethasone to prolong peripheral nerve blocks: a ChatGPT-created narrative review. Reg Anesth Pain Med 49, 777–781 (2024).
  8. Dayan, R., Uliel, B. & Koplewitz, G. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ 387, e081948 (2024).
  9. Barton, E. Almost all leading AI chatbots show signs of cognitive decline - BMJ Group. https://bmjgroup.com/almost-all-leading-ai-chatbots-show-signs-of-cognitive-decline/ (2024).