Vous êtes dans : Accueil > Actualités > Intelligence Artificielle, Machine Learning > Les propos déroutants de GPT-4 appliqué à la radiologie

Les propos déroutants de GPT-4 appliqué à la radiologie

LUNDI 22 MAI 2023 Soyez le premier à réagirSoyez le premier à réagir

La dernière version de ChatGPT, GPT-4, a réussi un examen de type compte rendu de radiologie, soulignant le potentiel des grands modèles de langage, dans une étude publiée dans la Revue Radiology. Mais ce travail révèle également les limites qui entravent sa fiabilité, avec un langage cohérent mais des inexactitudes flagrantes.

RSNA

ChatGPT, le chatbot d'intelligence artificielle (IA) qui utilise un modèle de deep learning pour reconnaître les modèles et les relations entre les mots dans de vastes bases de données, n’a pas de base scientifique solide dans ses données d'entraînement, lce qui peut générer chez lui des réponses factuellement incorrectes.

Évaluation de GPT-3.5 pour des données radiologiques dans une étude canadienne

Pour évaluer ses performances sur les comptes rendus de radiologie et explorer ses forces et ses limites, le Dr Bhayana, radiologue abdominal et responsable de la technologie à l'University Medical Imaging Toronto du Toronto General Hospital (Canada) et ses collègues ont réalisé une étude au cours de laquelle ils ont d'abord testé ChatGPT basé sur GPT-3.5, actuellement la version la plus couramment utilisée. Pour ce travail publié dans la Revue Radiology, ils ont utilisé 150 questions à choix multiples conçues pour correspondre au style, au contenu et à la difficulté des examens du Canadian Royal College and American Board of Radiology.

« L'utilisation de grands modèles de langage comme ChatGPT explose et ne fera qu'augmenter, précise le Dr Rajesh Bhayana. Notre recherche donne un aperçu des performances de ChatGPT dans un contexte de radiologie, soulignant l'incroyable potentiel des grands modèles de langage, ainsi que les limitations actuelles qui le rendent peu fiable. »

Des lacunes flagrantes du modèle dans la réflexion d’ordre supérieur

Les questions posées au logiciel n'incluaient pas d'images et étaient regroupées par type de question afin d’évaluer la réflexion d'ordre inférieur (rappel des connaissances, compréhension de base) et d'ordre supérieur (appliquer, analyser, synthétiser). Les questions de réflexion d'ordre supérieur ont ensuite été sous-classées par type (description des résultats d'imagerie, prise en charge clinique, calcul et classification, associations de maladies). La performance de ChatGPT a été évaluée globalement et par type de question et sujet. La confiance dans la langue des réponses a également été évaluée.

Les chercheurs ont découvert que ChatGPT basé sur GPT-3.5 répondait correctement à 69 % des questions (104 sur 150), proche de la note de passage de 70 % utilisée par le Canadian Royal College. Le modèle a relativement bien fonctionné sur les questions nécessitant une réflexion d'ordre inférieur (84 %, 51 sur 61), mais a eu du mal avec les questions impliquant une réflexion d'ordre supérieur (60 %, 53 sur 89). Plus précisément, il a eu du mal avec des questions d'ordre supérieur impliquant la description des résultats d'imagerie (61 %, 28 sur 46), le calcul et la classification (25 %, 2 sur 8) et l'application de concepts (30 %, 3 sur 10). Ses faibles performances sur les questions de réflexion d'ordre supérieur n'étaient pas surprenantes étant donné son manque de préformation spécifique à la radiologie.

Des résultats déroutants pour GPT-4

Mais il existe désormais GPT-4, qui a été publié en mars 2023 sous une forme limitée aux utilisateurs payants, affirmant spécifiquement avoir des capacités de raisonnement avancées améliorées par rapport à GPT-3.5. Dans une étude de suivi, GPT-4 a répondu correctement à 81 % (121 sur 150) des mêmes questions, surpassant GPT-3.5 et dépassant le seuil de réussite de 70 %. Le GPT-4 a obtenu de bien meilleurs résultats que le GPT-3.5 sur les questions de réflexion d'ordre supérieur (81 %), plus spécifiquement celles impliquant la description des résultats d'imagerie (85 %) et l'application de concepts (90 %).

Les résultats suggèrent que les capacités de raisonnement avancé améliorées revendiquées par GPT-4 se traduisent par des performances améliorées dans un contexte de radiologie. Ils suggèrent également une meilleure compréhension contextuelle de la terminologie spécifique à la radiologie, y compris les descriptions d'imagerie, ce qui est essentiel pour permettre de futures applications en aval.

« Notre étude démontre une amélioration impressionnante des performances de ChatGPT en radiologie sur une courte période, soulignant le potentiel croissant des grands modèles de langage dans ce contexte », ajoute le Dr Bhayana. GPT-4 n'a montré aucune amélioration sur les questions de réflexion d'ordre inférieur (80 % contre 84 %) et a répondu incorrectement à 12 questions auxquelles GPT-3.5 a répondu correctement, soulevant des questions liées à sa fiabilité pour la collecte d'informations.

Un langage utilisé cohérent, même s’il produit des inexactitudes

« Nous avons d'abord été surpris par les réponses précises et confiantes de ChatGPT à certaines questions difficiles de radiologie, mais ensuite tout aussi surpris par certaines affirmations très illogiques et inexactes, poursuit le Dr Bhayana. Bien sûr, compte tenu du fonctionnement de ces modèles, les réponses inexactes ne devraient pas être particulièrement surprenantes. »

La tendance dangereuse de ChatGPT à produire des réponses inexactes, appelées hallucinations, est moins fréquente dans GPT-4, mais limite toujours la convivialité dans la formation et la pratique médicales à l'heure actuelle. Les deux études ont montré que ChatGPT utilisait un langage cohérent, même lorsqu'il était incorrect. Ceci est particulièrement dangereux si on ne s'y fie qu'à titre d'information, note le Dr Bhayana, en particulier pour les novices qui peuvent ne pas reconnaître les réponses incorrectes.

« Pour moi, c'est sa plus grande limite, conclut-il ». 

Pour moi, c'est sa plus grande limite, conclut-il. À l'heure actuelle, ChatGPT est mieux utilisé pour susciter des idées, aider à démarrer le processus de rédaction médicale et résumer les données. S'il est utilisé pour un rappel rapide des informations, il doit toujours être vérifié ».

Bruno Benque avec RSNA


Un logiciel d'IA taillé pour le dépistage du cancer du poumon par TDM low dose
03/04/2025 : Median Technologies a publié, le 31 Mars 2025, les résultats finaux de l’étude pivot RELIVE, qui confirment et complètent les premiers résultats annoncés le 3 Février 2025 à propos d’eyonis™, une suite de logiciels dispositifs médicaux basés sur l’IA pour le diagnostic précoce du cancer.

Un CADe français pour la radiographie thoracique obtient l'autorisation FDA
27/03/2025 : La firme française Gleamer a annoncé, le 25 Mars 2025, l’autorisation de mise sur le marché, par la Food and Drug Administration (FDA), de sa solution avancée d’interprétation des radiographies thoraciques, ChestView.

Recommandations européennes pour l'intégration de l'IA dans la radiologie
11/03/2025 : L’European Society of Radiology (ESR), sous la direction de son groupe de travail sur l'IA, vient de publier un document de recommandations pour une implémentation généralisée de l’European AI Act.

L'IA en imagerie thoracique nécessiterait une redéfinition du rôle des radiologues
07/03/2025 : L’imagerie thoracique à la pointe de l’intelligence artificielle. C’est le message que font passer des chercheurs coréens dans un article publié dans la Revue Radiology. Ils listent les applications de cette technologie, comme l’interprétation assistée par l’IA et dépistage opportuniste des maladies non ciblées, mais recommandent une redéfinition proactive du rôle des radiologues essentielle à l’intégration de l’IA en imagerie.

IABM 2025, le colloque pour maitriser l'IA en imagerie biomédicale
11/02/2025 : L’Institut National de Recherche en sciences et technologies du numérique (INRIA)organise, en coopération avec d’autres institutions scientifiques, le 3ème Colloque Français d’Intelligence Artificielle en Imagerie Biomédicale (IABM 2025), les 17 et 18 Mars 2025, au Palais de la Méditerranée à Nice.

Une startup européenne d'IA obtient une importante levée de fonds pour atteindre ses objectifs
27/11/2024 : La plateforme d’IA Raidium agit comme une fabrique de biomarqueurs d’imagerie au service de la pratique clinique et de la recherche. Elle annonce une levée de 13 M$ qui devrait lui permettre de progresser et d’obtenir les certifications FDA et CE.

La confiance des radiologues en l'IA : une arme à double tranchant
19/11/2024 : Lorsqu’ils prennent des décisions diagnostiques aidés par l’Intelligence Artificielle (IA), les radiologues lui font parfois trop confiance alors qu’elle signale une zone d'intérêt spécifique sur une radiographie. C’est en substance ce qui ressort d’une nouvelle étude publiée dans la Revue Radiology.

La lecture des images radiologiques toujours pas au point pour Chat-GPT4 Vision
09/09/2024 : Des chercheurs américains ont réalisé une étude, publiée dans la Revue Radiology, évaluant les performances de ChatGPT-4 Vision, capable d’interpréter du texte et de l’image. Ils ont constaté que le modèle fonctionnait bien sur les questions d'examen de radiologie textuelles, mais qu'il avait du mal à répondre avec précision aux questions liées aux images. Des réponses hallucinatoires suggèrent même des interprétations d’images incorrectes aux conséquences cliniques potentiellement graves.

L'IA vs le radiologue dans l'interprétation de la radiographie pulmonaire
03/09/2024 : Un outil d'intelligence artificielle (IA) utilisé dans une étude danoise publiée dans la Revue Radiology pour interpréter des radiographies pulmonaires s'est avéré efficace pour exclure une pathologie. Il a présenté des taux d'échec critiques sur les radiographies pulmonaires égaux ou inférieurs à ceux des radiologues, ses erreurs se révélant plus graves cliniquement.

Un grand modèle de langage open source pour concurrencer les modèles propriétaires
29/08/2024 : La Revue Radiology publie une étude allemande relative à la performance de Meta Llama 3, un grand modèle de langage open source qui concurrence les grands modèles propriétaires, tels que GPT-4 et Gemini. Les chercheurs ont soumis l’outil à un sous-ensemble de questions d'examen de type jury de radiologie et ont montré la pertinence de Meta Llama 3.


Les performances diagnostiques de l'IRM 3T accélérée six fois
29/04/2025 : L'IRM du genou 3-T accélérée six fois en moins de 5 minutes, utilisant l'imagerie parallèle et l'accélération multicoupes simultanée montre des performances diagnostiques améliorées pour l’exploration du genou. C’est ce que montre une étude publiée dans l’American Journal of Roentgenology (AJR) qui valide les apports de ce protocole en termes de visibilité structurale et d’identification des lésions cartilagineuses ou ligamentaires notamment.

La radiologie libérale en grève contre la proposition de Loi Garot
28/04/2025 : Un travail parlementaire transpartisan a été instauré depuis deux ans pour traiter en urgence le problème des déserts médicaux. Le secteur médical libéral se dresse contre la proposition de Loi Garot sur les autorisations d’installation qui en découle et la FNMR a débuté une grève, avant sa participation à la manifestation nationale du 29 Avril 2025.

LA SFRO organise bientôt l'élection de son nouveau bureau
24/04/2025 : La Société Française de Radiothérapie Oncologique (SFRO) organisera bientôt des élections pour renouveler son Bureau, qui doit comporter dix membres, élus pour 2 ans, ventilés selon trois représentants des CHU et CHG, trois représentants des ESPIC et CLCC, et quatre représentants du secteur libéral.

Thérapies valvulaires adaptées aux variantes anatomiques chez le sujet jeune
23/04/2025 : Dans notre série de procédures interventionnelles en vidéo, voici la session PCR Online diffusée le 16 Avril 2025 qui traitait de l’approche thérapeutique des valves cardiaque selon les différentiations anatomiques chez les jeunes patients.

L'IRM à bas champ étend son domaine clinique
23/04/2025 : Le Laboratoire de recherche en imagerie biomédicale multimodale Biomaps a fait récemment l’acquisition d’une modalité d’IRM bas champ très particulière. Elle pemettra de réaliser de la spirométrie 3D en IRM bas champ et des antennes supraconductrices ultrasensibles permettront d’obtenir des résolutions spatiales équivalentes aux IRM 7T ou 9T.

Évaluer la réponse complète à la chimiothérapie néoadjuvante à l'aide de l'IRM
22/04/2025 : La réponse complète à la chimiothérapie néoadjuvante est difficile à évaluer dans le cancer du sein. Un nouveau modèle utilisant l'IRM qui permettrait de prédire la survie sans récidive e été imaginé dans une étude publiée dans la Revue Radiology, qui combine le score d’hétérogénéité intratumorale et les données cliniques pour prédire la réponse complète eu traitement.

Le lexique radiologique standardisé RadLex fête ses vingt ans
22/04/2025 : RadLex, un lexique radiologique complet développé par la Radiological Society of North America (RSNA) destiné à proposer un langage commun pour communiquer les résultats diagnostiques par les radiologues, célèbre son 20e anniversaire en 2025.

JFR 2025 : les inscriptions sont d'ores et déjà ouvertes !
22/04/2025 : Les prochaines Journées Francophones de Radiologie (JFR) se tiendront du 3 au 6 octobre 2025 au Palais des Congrès de la Porte Maillot, Paris XVIIème. Le Président de l’événement cette année, le Pr Mathieu Lederlin, et son équipe ont choisi pour slogan principal : « La Radiologie, les images d’une vie ».

Quelle technique adopter pour quantifier la graisse dans la stéatose hépatique ?
18/04/2025 : Quelle serait la technique à adopter pour évaluer la quantification graisseuse dans la stétose hépatique à dysfonctionnement métabolique ? Une étude italienne publiée dans l’American Journal of Roentgenology (AJR) expérimente différents critères de ROI en échographie. La fraction de graisse en densité de protons y est utilisée comme référence pour évaluer les meilleurs accords inter opérateurs.

Détection du cancer post-mastectomie par l'IA : les chercheurs doivent persévérer
16/04/2025 : La surveillance des patientes présentant des antécédents de cancer du sein n’étant pas optimale, il est nécessaire d’évaluer les bénéfices de l’IA pour les patientes atteintes d’un cancer du sein post-mastectomie. Une étude coréenne publiée dans la Revue Radiology compare les performances de l’IA à celles des radiologues chez les patientes traitées par mastectomie unilatérale. Un taux de cancer non détectés significatif induit les chercheurs à continuer leurs travaux.


IRM DU SEIN: REHAUSSEMENT DU PARENCHYME COMME PREDICATEUR DE CANCER
13/05/2015 : Le rehaussement parenchymateux en IRM serait un signe favorable à la survenue probable d'un cancer du sein chez les patientes à haut risque. C'est ce qui ressort d'une étude, parue dans Radiology, qui a épluché cinq ans d'examens de dépistage au sein de plusieurs centres.

Les mises à jour des NRD sont inscrites dans la Loi
05/06/2019 : Les dispositions prises par l'ASN concernant la mise à jour des Niveau de Référence Diagnostique (NRD) viennent d'être validées par Arrêté publié au Journal Officiel. Les évaluations en scanner et en interventionnel comprendront 10 patients consécutifs.

Le CAD-RADS pour prédire les événements cardiovasculaires
22/07/2021 : CAD-RADS a récemment fait l’objet de modifications pour préciser les maladies coronariennes à partir du coroscanner. Une étude publiée dans la revue Radiology cherche à savoir si cette classification est pertinente pour prédire les événements cardiovasculaires.

La radiologie libérale en grève contre la proposition de Loi Garot
28/04/2025 : Un travail parlementaire transpartisan a été instauré depuis deux ans pour traiter en urgence le problème des déserts médicaux. Le secteur médical libéral se dresse contre la proposition de Loi Garot sur les autorisations d’installation qui en découle et la FNMR a débuté une grève, avant sa participation à la manifestation nationale du 29 Avril 2025.

Le lexique radiologique standardisé RadLex fête ses vingt ans
22/04/2025 : RadLex, un lexique radiologique complet développé par la Radiological Society of North America (RSNA) destiné à proposer un langage commun pour communiquer les résultats diagnostiques par les radiologues, célèbre son 20e anniversaire en 2025.

Les performances diagnostiques de l'IRM 3T accélérée six fois
29/04/2025 : L'IRM du genou 3-T accélérée six fois en moins de 5 minutes, utilisant l'imagerie parallèle et l'accélération multicoupes simultanée montre des performances diagnostiques améliorées pour l’exploration du genou. C’est ce que montre une étude publiée dans l’American Journal of Roentgenology (AJR) qui valide les apports de ce protocole en termes de visibilité structurale et d’identification des lésions cartilagineuses ou ligamentaires notamment.

Un modèle d'IA peut prédire le cancer du sein à cinq ans
26/03/2024 : Des chercheurs américains ont développé un nouveau modèle d'intelligence artificielle (IA) interprétable pour prédire le risque de cancer du sein sur 5 ans à partir des mammographies, selon une nouvelle étude publiée aujourd'hui dans la Revue Radiology. Ils opensent que cet algorithme pourrait réduire la fréquence du dépistage du cancer du sein.

La vague 2 du Ségur de la Radiologie est lancé
03/03/2025 : L’Agence du Numérique en Santé (ANS) vient de poser les bases d’un accès simplifié aux données de Santé pour les professionnels du secteur. En lançant la vague 2 du Ségur de la Radiologie, elle incite les éditeurs de logiciels d’imagerie à parfaire leur connexion à la DRIMBox et permettra aux acteurs du secteur d’améliorer l’intégration des documents dans le RIS notamment.

Les sociétés savantes se mobilisent pour une radiologie propre
04/03/2025 : L’European Society of Radiology (ESR), en collaboration avec dix sociétés savantes internationales de la discipline, a publié un document commun et un appel à l'action sur la durabilité en radiologie. L’article souligne le besoin urgent d’intégrer des pratiques respectueuses de l’environnement en radiologie tout en garantissant un accès mondial aux soins.

Polypes de vésicule biliaire : Les recommandations de la SRU validées dans une étude
19/02/2024 : Dans une étude publiée dans l'American Journal of Roentgenology (AJR), 10 radiologues abdominaux ont évalué le processus de classification des polypes de vésicule biliaire recommandés par la SRU. Ce travail a validé ces recommandations ciblant le risque de chaque type de lésion ainsi que la prise en charge chirurgicale des patients.