Une journée aux urgences : combien de diagnostics corrects est capable de poser chatGPT ?

Est-ce que ChatGPT a sa place dans un service d'urgence ? C'est ce que teste une médecin urgentiste. Aperçu de son rapport d'expérience dans notre article.

Le succès de ChatGPT suscite de grandes attentes. Sont-elles justifiées ?

Au début de l'année 2023, la nouvelle selon laquelle le chatbot ChatGPT serait capable de passer avec succès les examens américains de facultés de droit, d'économie et le concours de médecine (USMLE), a suscité des attentes très élevées chez certaines personnes. Et des inquiétudes chez d'autres.

L'USMLE est composé de trois examens. Pour mener leur expérience, les chercheurs ont interrogé ChatGPT sur 350 des 376 questions de l'année précédente, qui étaient accessibles au public. Le logiciel a obtenu entre 52,4% et 75% de points, en fonction de l'examen. Cette performance est proche, voire au-dessus, du seuil de réussite de 60%1. Cela signifie-t-il pour autant que l'outil d'IA est en mesure d'aider les médecins dans leur prise de décision clinique ?

"Les résultats étaient fascinants, mais aussi assez inquiétants"

À la fin de ses gardes dans un service d'urgence, le Dr Tamayo-Sarver a anonymisé les données de 35 à 40 patients et entré les notes qu'il avait prises sur leur historique médical - anamnèse et état actuel - dans ChatGPT 3.5.

À la question "Quels sont les diagnostics différentiels pour ce patient qui se présente aux urgences avec xy (insérer ici les notes) ?", l'outil d'intelligence artificielle a réussi à mentionner plusieurs diagnostics importants et couramment rencontrés. Cependant, cela ne fonctionnait en réalité efficacement que lorsque la présentation clinique était typique et que les informations renseignées étaient précises et très détaillées.

Ainsi, pour poser un diagnostic correct de subluxation de la tête radiale (syndrome du coude de la nourrice), environ 200 mots d'informations ont été nécessaires. Pour diagnostiquer une fracture de la paroi orbitaire avec éclatement chez un autre patient, il a fallu l'intégralité des notes du médecin, soit 600 mots.

ChatGPT proposait en moyenne six diagnostics. Pour environ 50 % des patients, le bon diagnostic (à savoir celui que le médecin avait établi après l'ensemble de ses investigations) en faisait partie. Ce n'est pas mal, mais ce n'est pas encore, selon Tamayo-Sarver, un taux de réussite satisfaisant pour un service d'urgences2,3.

Le problème : de nombreux cas de patients ne sont pas "comme dans les livres".

Ce taux de réussite de 50 % signifie en réalité que des situations potentiellement mortelles ont régulièrement été négligées. Par exemple, si une tumeur cérébrale a été correctement suspectée chez l'un des patients, cette possibilité a été complètement ignorée chez deux autres patients, atteints pourtant eux aussi de tumeurs. Dans un autre cas, ChatGPT a diagnostiqué face à des douleurs abdominales un calcul rénal, alors qu'il s'agissait en réalité d'une rupture de l'aorte (qui a par ailleurs entraîné le décès du patient en salle d'opération).

L'échec le plus cuisant du système a été face au cas d'une jeune femme de 21 ans, souffrant de douleurs dans le quadrant inférieur droit. Le bot a immédiatement évoqué une appendicite ou un kyste ovarien parmi d'autres possibilités. En réalité, il s'agissait d'une grossesse ectopique, un diagnostic qui peut être létal, s'il est détecté trop tard.

À la différence du robot, tous les étudiants en médecine apprennent qu'une douleur d'abdomen aiguë chez une femme en âge de procréer doit impérativement entraîner la vérification de l'existence d'une grossesse. Heureusement, Tamayo-Sarver a lui rapidement pensé à cette possibilité (et comme cela arrive souvent dans ce cas, la patiente ne s'attendait nullement à être enceinte)2,3.

ChatGPT n'a pas du tout évoqué la possibilité d'une grossesse dans sa réponse. Il n'a posé aucune question à ce sujet et c'est justement ici que réside, selon Tamayo-Sarver, l'une des principales limites de l'intelligence artificielle. Les outils comme ChatGPT répondent à des questions qu'on leur pose, en se basant avant tout sur des informations qu'on leur donne. Cela signifie que si l'on fait fausse route, l'outil renforce ce parti pris. Il renvoie toujours plus d'informations faisant écho aux observations qui lui ont été soumises. Les erreurs ou les omissions finissent ainsi par être amplifiées et non corrigées.

Avons-nous besoin d'un regard plus réaliste sur les capacités de l'IA ?

Dans cette expérience, ChatGPT a bien été en mesure de proposer quelques bons diagnostics différentiels, mais seulement lorsqu'on lui a fourni des informations parfaites et que la présentation clinique de la maladie était absolument classique. C'est d'ailleurs pour cette raison que l'outil d'IA a pu résoudre 60% de cas de l'examen d'État : "Non pas parce qu'il est "intelligent", mais parce que les cas classiques de l'examen ont une réponse unique, qui existe déjà dans la base de données", explique Tamayo-Sarver. L'USMLE est un simple test de mémorisation et non de jugement.

Selon Tamayo-Sarver, l'art de la médecine consiste avant tout à reconnaître le bon récit et les informations pertinentes. L'Intelligence Artificielle n'est pas encore en mesure de le faire. Sa crainte est que de nombreuses personnes utilisent déjà ChatGPT chez eux, dans le but de s'autodiagnostiquer au lieu de consulter un médecin. Les informations et réponses fournies par ChatGPT semblent excellentes pour les personnes qui ne sont pas expertes dans le domaine. Si la jeune femme atteinte de grossesse extra-utérine avait opté pour l'utilisation de ChatGPT plutôt que de consulter un professionnel de la santé, cela aurait pu conduire à une hémorragie interne.

La conclusion du rapport d'expérience de Tamayo-Sarver est la suivante : "Nous avons désespérément besoin, tant dans la Silicon Valley que parmi le grand public, d'une vision plus réaliste de ce que l'IA peut faire aujourd'hui, ainsi que de ses nombreuses limites, souvent dangereuses. Nous devons tous être très prudents pour éviter d'avoir des attentes excessives vis-à-vis de programmes comme ChatGPT. En ce qui concerne la santé humaine, ils peuvent littéralement mettre des vies en danger"2,3.

Sources :
  1. Tran, T. H. ChatGPT Passed a Notoriously Difficult Medical Exam. The Daily Beast.
  2. I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients. Medium.
  3. Tamayo-Sarver, J. I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients. Fast Company.