Vous êtes dans : Accueil > Actualités > Intelligence Artificielle, Machine Learning > Les propos déroutants de GPT-4 appliqué à la radiologie

Les propos déroutants de GPT-4 appliqué à la radiologie

LUNDI 22 MAI 2023 Soyez le premier à réagirSoyez le premier à réagir

La dernière version de ChatGPT, GPT-4, a réussi un examen de type compte rendu de radiologie, soulignant le potentiel des grands modèles de langage, dans une étude publiée dans la Revue Radiology. Mais ce travail révèle également les limites qui entravent sa fiabilité, avec un langage cohérent mais des inexactitudes flagrantes.

RSNA

ChatGPT, le chatbot d'intelligence artificielle (IA) qui utilise un modèle de deep learning pour reconnaître les modèles et les relations entre les mots dans de vastes bases de données, n’a pas de base scientifique solide dans ses données d'entraînement, lce qui peut générer chez lui des réponses factuellement incorrectes.

Évaluation de GPT-3.5 pour des données radiologiques dans une étude canadienne

Pour évaluer ses performances sur les comptes rendus de radiologie et explorer ses forces et ses limites, le Dr Bhayana, radiologue abdominal et responsable de la technologie à l'University Medical Imaging Toronto du Toronto General Hospital (Canada) et ses collègues ont réalisé une étude au cours de laquelle ils ont d'abord testé ChatGPT basé sur GPT-3.5, actuellement la version la plus couramment utilisée. Pour ce travail publié dans la Revue Radiology, ils ont utilisé 150 questions à choix multiples conçues pour correspondre au style, au contenu et à la difficulté des examens du Canadian Royal College and American Board of Radiology.

« L'utilisation de grands modèles de langage comme ChatGPT explose et ne fera qu'augmenter, précise le Dr Rajesh Bhayana. Notre recherche donne un aperçu des performances de ChatGPT dans un contexte de radiologie, soulignant l'incroyable potentiel des grands modèles de langage, ainsi que les limitations actuelles qui le rendent peu fiable. »

Des lacunes flagrantes du modèle dans la réflexion d’ordre supérieur

Les questions posées au logiciel n'incluaient pas d'images et étaient regroupées par type de question afin d’évaluer la réflexion d'ordre inférieur (rappel des connaissances, compréhension de base) et d'ordre supérieur (appliquer, analyser, synthétiser). Les questions de réflexion d'ordre supérieur ont ensuite été sous-classées par type (description des résultats d'imagerie, prise en charge clinique, calcul et classification, associations de maladies). La performance de ChatGPT a été évaluée globalement et par type de question et sujet. La confiance dans la langue des réponses a également été évaluée.

Les chercheurs ont découvert que ChatGPT basé sur GPT-3.5 répondait correctement à 69 % des questions (104 sur 150), proche de la note de passage de 70 % utilisée par le Canadian Royal College. Le modèle a relativement bien fonctionné sur les questions nécessitant une réflexion d'ordre inférieur (84 %, 51 sur 61), mais a eu du mal avec les questions impliquant une réflexion d'ordre supérieur (60 %, 53 sur 89). Plus précisément, il a eu du mal avec des questions d'ordre supérieur impliquant la description des résultats d'imagerie (61 %, 28 sur 46), le calcul et la classification (25 %, 2 sur 8) et l'application de concepts (30 %, 3 sur 10). Ses faibles performances sur les questions de réflexion d'ordre supérieur n'étaient pas surprenantes étant donné son manque de préformation spécifique à la radiologie.

Des résultats déroutants pour GPT-4

Mais il existe désormais GPT-4, qui a été publié en mars 2023 sous une forme limitée aux utilisateurs payants, affirmant spécifiquement avoir des capacités de raisonnement avancées améliorées par rapport à GPT-3.5. Dans une étude de suivi, GPT-4 a répondu correctement à 81 % (121 sur 150) des mêmes questions, surpassant GPT-3.5 et dépassant le seuil de réussite de 70 %. Le GPT-4 a obtenu de bien meilleurs résultats que le GPT-3.5 sur les questions de réflexion d'ordre supérieur (81 %), plus spécifiquement celles impliquant la description des résultats d'imagerie (85 %) et l'application de concepts (90 %).

Les résultats suggèrent que les capacités de raisonnement avancé améliorées revendiquées par GPT-4 se traduisent par des performances améliorées dans un contexte de radiologie. Ils suggèrent également une meilleure compréhension contextuelle de la terminologie spécifique à la radiologie, y compris les descriptions d'imagerie, ce qui est essentiel pour permettre de futures applications en aval.

« Notre étude démontre une amélioration impressionnante des performances de ChatGPT en radiologie sur une courte période, soulignant le potentiel croissant des grands modèles de langage dans ce contexte », ajoute le Dr Bhayana. GPT-4 n'a montré aucune amélioration sur les questions de réflexion d'ordre inférieur (80 % contre 84 %) et a répondu incorrectement à 12 questions auxquelles GPT-3.5 a répondu correctement, soulevant des questions liées à sa fiabilité pour la collecte d'informations.

Un langage utilisé cohérent, même s’il produit des inexactitudes

« Nous avons d'abord été surpris par les réponses précises et confiantes de ChatGPT à certaines questions difficiles de radiologie, mais ensuite tout aussi surpris par certaines affirmations très illogiques et inexactes, poursuit le Dr Bhayana. Bien sûr, compte tenu du fonctionnement de ces modèles, les réponses inexactes ne devraient pas être particulièrement surprenantes. »

La tendance dangereuse de ChatGPT à produire des réponses inexactes, appelées hallucinations, est moins fréquente dans GPT-4, mais limite toujours la convivialité dans la formation et la pratique médicales à l'heure actuelle. Les deux études ont montré que ChatGPT utilisait un langage cohérent, même lorsqu'il était incorrect. Ceci est particulièrement dangereux si on ne s'y fie qu'à titre d'information, note le Dr Bhayana, en particulier pour les novices qui peuvent ne pas reconnaître les réponses incorrectes.

« Pour moi, c'est sa plus grande limite, conclut-il ». 

Pour moi, c'est sa plus grande limite, conclut-il. À l'heure actuelle, ChatGPT est mieux utilisé pour susciter des idées, aider à démarrer le processus de rédaction médicale et résumer les données. S'il est utilisé pour un rappel rapide des informations, il doit toujours être vérifié ».

Bruno Benque avec RSNA


GPT-4 pourrait répondre au défi de la surcharge de travail pour les radiologues
24/04/2024 : Le grand modèle de langage GPT-4 montre, dans une étude publiée dans la Revue Radiology, que ses performances égalent celles des radiologues dans la détection des erreurs dans les comptes rendus de radiologie. Cet outil plus rapide et plus économique que l’humain pourrait répondre au défi de la surcharge de travail pour les radiologues.

Un modèle d'IA plus performant pour identifier les patientes éligibles à une mammographie supplémentaire
09/04/2024 : Une étude suédoise publiée dans la Revue Radiology teste AISmartDensity pour l’identification des patientes éligibles à une imagerie supplémentaire après une mammographie de dépistage négative. Ce travail montre une plus grande eficacité de ce modèle par rapport aux outils classiques de mesure de densité des seins.

Deux outils d'IA pour la TDM d'une société française validés par la FDA
27/03/2024 : La FDA vient de valider la distribution aux USA de deux algorithmes d’assistance à l’interprétation développés par Avicienna.AI. Il s’agit de CINA-iPE et CINA-ASPECTS, deux outils pour la tomodensitométrie.

Partenariat stratégique pour améliorer le diagnostic d'EP à la TDM
16/02/2024 : Avicenna.AI a annoncé, le 14 février 2024, un partenariat stratégique pour intégrer CINA-iPE dans la Blackford AI Platform. La collaboration offre aux professionnels de la santé des capacités améliorées pour détecter les embolies pulmonaires accidentelles dans les TDM de routine.

Des leaders d'opinion promeuvent l'IA pour la radiographie thoracique
29/01/2024 : La radiographie thoracique est l’un des examens qui bénéficient le plus de l’apport de l’IA. Dans éditorial publié dans la Revue Radiology, des leaders d’opinion font la promotion de cette évolution et y voient une opportunité pour que les radiologues reviennent au plus près de leurs patients.

Plaidoyer international pour des usages de l'IA éthiques et responsables en radiologie
25/01/2024 : En publiant la déclaration « Developing, Purchasing, Implementing and Monitoring AI Tools in Radiology: Practical Considerations », cinq sociétés savantes de radiologie s’unissent pour un usage de l’IA éthique et sécuritaire. Ce document plaide pour une collaboration internationale entre les développeurs, les cliniciens et les institutions.

TwinOnco, le projet innovant de suivi des patients porté par l'AP-HP et Dassault Systèmes
23/01/2024 : L’AP-HP et Dassault Systèmes ont élaboré le projet TwinOnco qui vise à créer des jumeaux virtuels aux patients en oncologie. Cette initiative permettra de passer une étape dans la personnalisation des traitements et génèrera de nouvelles cohortes de patients en onciologie.

Une nouvelle formation certifiante RSNA sur l'IA en imagerie d'urgence
22/01/2024 : Dans le panel de formations qu’elle propose aux radiologues sur le champ des applications de l’IA pour l’imagerie médicale, la RSNA lance un cours validant sur la radiologie d’urgence intitulé RSNA Emergency Imaging AI Certificate. D’autres cours relatifs à l’IA en imagerie, de base ou avancés, sont aussi accessibles.

Le RSNA Cervical Spine Fracture AI Challenge a rendu son verdict
10/01/2024 : Le RSNA Cervical Spine Fracture AI Challenge 2022 a rendu son verdict en sélectionnant les 8 projets les plus performants parmi plus de 20 000 candidatures soumises. Ces algorithmes de haute qualité font avancer de manière significative la recherche sur l’IA en radiologie

Le projet de guidage de la neurochirurgie Hyperprobe entre dans sa phase de perfectionnement
19/12/2023 : Le projet européen HyperProbe a bouclé le développement de son système Hyperprobe 1 en vue du développement d’un système de navigation dédié à la neurochirurgie guidée par une imagerie fonctionnelle avancée. L’année 2024 sera celle qui mènera à une étude clinique de l’outil Hyperprobe 2.


Revascularisation d'IVA occluse en vidéo
02/05/2024 : Dans notre série de procédures interventionnelles en vidéo, nous vous présentons aujourd’hui la revascularisation d’une IVA occluse à l’aie d’un guide nouvelle génération.

L'anthroporadiométrie plébiscitée pour les professionnels de médecine nucléaire
30/04/2024 : L’anthroporadiométrie est désormais reconnue comme l’examen de choix pour le contrôle de la contamination interne des professionnels de la médecine nucléaire. Elle est plus pertinente pour les radionucléides à courte demi-vie.

Suivi TDM de l'évolution des anomalies interstitielles en maladie respiratoire aigüe
30/04/2024 : Les fumeurs qui présentent de petites anomalies sur leurs TDM qui augmentent avec le temps ont une plus grande probabilité de souffrir de maladies respiratoires aiguës, selon une nouvelle étude publiée dans la Revue Radiology. Les chercheurs préconisent une surveillance accrue chez ces patients faisant l’objet d’anomalies interstitielles quantitatives.

L'élastographie par IRM pour l'évaluation de la fibrose hépatique pédiatrique
29/04/2024 : Une nouvelle étude publiée dans l'American Journal of Roentgenology (AJR) soutient le rôle de l'élastographie par IRM (MRE) dans la surveillance non invasive de la fibrose hépatique chez les enfants et les jeunes adultes atteints d'une maladie hépatique auto-immune (AILD). Les résultats montrent une forte corrélation entre MRE et scores de fibrose histologique.

Save the date : séminaire qualité en médecine nucléaire
29/04/2024 : La mise en place d’un système qualité en médecine nucléaire robuste et pragmatique fera l’objet d’un séminaire organisé à La Baule en mai prochain. Les participants découvriront un système qualité facile et pragmatique.

Nouvel essai pour le traitement du glioblastome à l'aide de Sonocloud
26/04/2024 : Un essai clinique de phase 2a va être mis en œuvre à la Northwestern University de Chicago pour évaluer l’efficacité et la sécurité d’un traitement du glioblastome favorisé par modulation des checkpoints immunitaires. Cet essai utilisera les propriétés du dispositif Sonocloud-9.

Bientôt des équipes développement durable dans les centres de radiologie ?
25/04/2024 : Un groupe de radiologues international, dirigé par des auteurs de l'Université de Toronto, a développé une approche permettant aux unités et cabinets de radiologie de réduire leurs émissions de gaz à effet de serre et de devenir plus résilients aux effets du changement climatique. Ils ont présenté leur plan d'action dans la Revue Radiology.

GPT-4 pourrait répondre au défi de la surcharge de travail pour les radiologues
24/04/2024 : Le grand modèle de langage GPT-4 montre, dans une étude publiée dans la Revue Radiology, que ses performances égalent celles des radiologues dans la détection des erreurs dans les comptes rendus de radiologie. Cet outil plus rapide et plus économique que l’humain pourrait répondre au défi de la surcharge de travail pour les radiologues.

L'Académie de Médecine souhaite réformer la recherche médicale en France
24/04/2024 : L’Académie nationale de Médecine vient de publier un nouveau rapport qui synthétise les problèmes récurrents rencontrés par la recherche médicale française. Elle y élabore des recommandations afin de réformer son financement ou mieux structurer les ressources notamment.

La SFNR annonce son soutien au mouvement de grève des établissements privés
23/04/2024 : L’hospitalisation privée, mécontente et inquiète devant la faible revalorisation des tarifs hospitaliers par rapport au public, sera en grève totale du 3 au 5 juin 2024. Les radiologues libéraux attachés à ces établissements se sentant en danger, la FNMR a décidé de soutenir le mouvement.


Le thrombus, facteur de risque de rupture d'un anévrisme aortique ?
27/01/2020 : La présence d'un caillot de sang sur la paroi de l'aorte chez les personnes atteintes d'anévrismes de l'aorte abdominale est associée à une croissance plus rapide et potentiellement dangereuse de l'anévrisme, selon une étude majeure publiée dans la revue Radiology. Ces résultats pourraient aider à identifier les patients qui ont besoin d'un traitement plus agressif et d'une imagerie de suivi plus fréquente après leur diagnostic initial.

Découverte des premières images cérébrales d'Iseult, l'IRM 11,7T
02/04/2024 : La plateforme d’IRM à 11,7T nommée Iseult a été présentée ce 2 avril 2024. Cette modalité, qui a bénéficié d’un partenariat scientifique et industriel à grande échelle, a montré ses premières images alliant une résolution spatiale inégalée et des niveauxde contraste jamais atteints.

Nouvel essai pour le traitement du glioblastome à l'aide de Sonocloud
26/04/2024 : Un essai clinique de phase 2a va être mis en œuvre à la Northwestern University de Chicago pour évaluer l’efficacité et la sécurité d’un traitement du glioblastome favorisé par modulation des checkpoints immunitaires. Cet essai utilisera les propriétés du dispositif Sonocloud-9.

ANGIODROID, The CO2 injector
02/03/2015 : L'administration de CO2 est désormais un acte dépourvu de tout risque secondaire, grâce à l'avancée technologique représentée par l'ANGIODROID. Cet injecteur permet de s'affranchirt partiellement de produit de contraste de manière contrôlée et sécurisée.

L'élastographie par IRM pour l'évaluation de la fibrose hépatique pédiatrique
29/04/2024 : Une nouvelle étude publiée dans l'American Journal of Roentgenology (AJR) soutient le rôle de l'élastographie par IRM (MRE) dans la surveillance non invasive de la fibrose hépatique chez les enfants et les jeunes adultes atteints d'une maladie hépatique auto-immune (AILD). Les résultats montrent une forte corrélation entre MRE et scores de fibrose histologique.

Bientôt des équipes développement durable dans les centres de radiologie ?
25/04/2024 : Un groupe de radiologues international, dirigé par des auteurs de l'Université de Toronto, a développé une approche permettant aux unités et cabinets de radiologie de réduire leurs émissions de gaz à effet de serre et de devenir plus résilients aux effets du changement climatique. Ils ont présenté leur plan d'action dans la Revue Radiology.

Save the date : séminaire qualité en médecine nucléaire
29/04/2024 : La mise en place d’un système qualité en médecine nucléaire robuste et pragmatique fera l’objet d’un séminaire organisé à La Baule en mai prochain. Les participants découvriront un système qualité facile et pragmatique.

Un suivi systématique à six mois serait préférable pour les lésions mammaires classées BI-RADS 3
20/05/2020 : Les femmes présentant des lésions mammaires classées BI-RADS 3 devraient systématiquement suivies à six mois. C’est ce que suggère une étude publiée dans la Revue Radiology en raison du risque faible mais non négligeable que ces lésions soient malignes.

L'Académie de Médecine souhaite réformer la recherche médicale en France
24/04/2024 : L’Académie nationale de Médecine vient de publier un nouveau rapport qui synthétise les problèmes récurrents rencontrés par la recherche médicale française. Elle y élabore des recommandations afin de réformer son financement ou mieux structurer les ressources notamment.

La radiologie française rappelée à l'ordre quant à l'exercice illégal de la profession de MERM
02/04/2024 : Alors que des informations relatives à la pratique illégale de la profession de MERM nous arrivent de plus en plus fréquemment, le CNPMEM a réagi en interpelant le G4. Il rappelle, dans une lettre, les radiologues à leurs responsabilités et souhaite sensibiliser tous les professionnels de Santé devant ces pratiques dangereuses pour la qualité de la prise en charge radiologique des patients.