Une journée aux urgences, combien de diagnostics corrects est capable de poser ChatGPT ?

Au début de l'année 2023, la nouvelle selon laquelle le chatbot ChatGPT serait capable de passer avec succès les examens des facultés américaines de droit et d'économie ainsi que le concours de médecine (USMLE) a suscité des attentes très élevées chez certains. Et des inquiétudes chez d'autres.

L'USMLE est composé de trois examens. Pour mener leur expérience, les chercheurs ont interrogé ChatGPT sur 350 des 376 questions de l'année précédente. Le logiciel a obtenu entre 52,4 % et 75 % des points en fonction de l'examen. Cette performance est proche, voire au-dessus du seuil de réussite fixé à 60 %¹. Cela signifie-t-il pour autant que l'outil d'IA peut aider les médecins dans leur prise de décision clinique ?

"Les résultats étaient fascinants, mais aussi assez inquiétants"

À la fin de ses gardes dans son service d'urgence, le Dr Tamayo-Sarver a anonymisé les données de 35 à 40 patients. Il a ensuite entré les notes qu'il avait prises sur leur historique médical, leur anamnèse et leur état actuel dans ChatGPT 3.5.

À la question "Quels sont les diagnostics différentiels pour ce patient qui se présente aux urgences avec [insérer ici les notes] ?", l'outil d'intelligence artificielle a mentionné plusieurs diagnostics importants et couramment rencontrés. Cependant, cela ne fonctionnait vraiment efficacement que lorsque la présentation clinique était typique et que les informations renseignées étaient précises et très détaillées.

Ainsi, pour poser un diagnostic correct de subluxation de la tête radiale (syndrome du coude de la nourrice), environ 200 mots d'information ont été nécessaires. Pour diagnostiquer une fracture de la paroi orbitaire avec éclatement chez un autre patient, il a fallu l'intégralité des notes du médecin, soit 600 mots.

ChatGPT proposait en moyenne six diagnostics. Pour environ 50 % des patients, le bon diagnostic - à savoir celui que le médecin avait établi après l'ensemble de ses investigations - en faisait partie. Selon le Dr Tamayo-Sarver, "ce n'est pas mal, mais ce n'est pas encore taux de réussite satisfaisant pour un service d'urgences"^2,3.

"Le problème est que de nombreux cas de patients ne sont pas comme dans les livres".

Ce taux de réussite de 50 % signifie en réalité que des situations potentiellement mortelles ont régulièrement été négligées. Par exemple, si une tumeur cérébrale a été correctement suspectée chez l'un des patients, cette possibilité a été complètement ignorée chez deux autres patients atteints pourtant eux aussi de tumeurs. Dans un autre cas, ChatGPT a diagnostiqué face à des douleurs abdominales un calcul rénal, alors qu'il s'agissait en réalité d'une rupture de l'aorte, qui a par ailleurs entraîné le décès du patient en salle d'opération.

L'échec le plus cuisant du système a été face au cas d'une jeune femme de 21 ans souffrant de douleurs dans le quadrant inférieur droit. Le bot a immédiatement évoqué une appendicite ou un kyste ovarien parmi d'autres possibilités. En réalité, il s'agissait d'une grossesse ectopique, un diagnostic qui peut être létal s'il est détecté trop tard. À la différence du robot, tous les étudiants en médecine apprennent qu'une douleur d'abdomen aiguë chez une femme en âge de procréer doit impérativement entraîner la vérification de l'existence d'une grossesse. Heureusement, le Dr Tamayo-Sarver a lui rapidement pensé à cette possibilité. Comme cela arrive souvent dans ce cas, la patiente ne s'attendait nullement à être enceinte^2,3.

ChatGPT n'a pas du tout évoqué la possibilité d'une grossesse dans sa réponse. Il n'a posé aucune question à ce sujet et c'est justement ici que réside, selon le Dr Tamayo-Sarver, l'une des principales limites de l'intelligence artificielle. Les outils comme ChatGPT répondent à des questions qu'on leur pose, en se basant sur des informations qu'on leur donne. Cela signifie que si l'on fait fausse route, l'outil renforce ce parti pris. Il renvoie toujours plus d'informations faisant écho aux observations qui lui ont été soumises. Les erreurs ou les omissions finissent ainsi par être amplifiées et non corrigées.

Avons-nous besoin d'un regard plus réaliste sur les capacités de l'IA ?

Dans cette expérience, ChatGPT a bien été en mesure de proposer quelques bons diagnostics différentiels, mais seulement lorsqu'on lui a fourni des informations parfaites et que la présentation clinique de la maladie était absolument classique. C'est d'ailleurs pour cette raison que l'outil d'IA a pu résoudre 60 % des cas de l'examen d'État de médecine "Non pas parce qu'il est "intelligent", mais parce que les cas classiques de l'examen ont une réponse unique, qui existe déjà dans la base de données", explique le Dr Tamayo-Sarver. L'USMLE est un simple test de mémorisation et non de jugement.

Selon le Dr Tamayo-Sarver, l'art de la médecine consiste avant tout à reconnaître le bon récit et les informations pertinentes. L'intelligence artificielle n'est pas encore en mesure de le faire. Sa crainte est que de nombreuses personnes utilisent pourtant déjà ChatGPT chez eux dans le but de s'autodiagnostiquer, au lieu de consulter un médecin. Les informations et réponses fournies par ChatGPT semblent excellentes pour les personnes qui ne sont pas médecins. Si la jeune femme atteinte de grossesse extra-utérine avait opté pour l'utilisation de ChatGPT plutôt que de consulter un professionnel de santé, elle aurait pu finir avec une hémorragie interne.

La conclusion du rapport d'expérience du Dr Tamayo-Sarver est la suivante : "Nous avons désespérément besoin, tant dans la Silicon Valley que parmi le grand public, d'une vision plus réaliste de ce que l'IA peut faire aujourd'hui, ainsi que de ses nombreuses limites, car elles sont souvent dangereuses. Nous devons tous être très prudents pour éviter d'avoir des attentes excessives vis-à-vis de programmes comme ChatGPT. En ce qui concerne la santé humaine, ils peuvent littéralement mettre des vies en danger"^2,3.

Tran, T. H. ChatGPT Passed a Notoriously Difficult Medical Exam. The Daily Beast.
I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients. Medium.
Tamayo-Sarver, J. I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients. Fast Company.

Une journée aux urgences, combien de diagnostics corrects est capable de poser ChatGPT ?

Est-ce que ChatGPT a sa place dans un service d'urgence ? C'est ce que teste un médecin-urgentiste. Aperçu de son rapport d'expérience dans notre article.

Le succès de ChatGPT suscite de grandes attentes. Sont-elles justifiées ?

"Les résultats étaient fascinants, mais aussi assez inquiétants"

"Le problème est que de nombreux cas de patients ne sont pas comme dans les livres".

Avons-nous besoin d'un regard plus réaliste sur les capacités de l'IA ?