Vous êtes dans : Accueil > Actualités > Intelligence Artificielle, Machine Learning > Les propos déroutants de GPT-4 appliqué à la radiologie

Les propos déroutants de GPT-4 appliqué à la radiologie

LUNDI 22 MAI 2023 Soyez le premier à réagirSoyez le premier à réagir

La dernière version de ChatGPT, GPT-4, a réussi un examen de type compte rendu de radiologie, soulignant le potentiel des grands modèles de langage, dans une étude publiée dans la Revue Radiology. Mais ce travail révèle également les limites qui entravent sa fiabilité, avec un langage cohérent mais des inexactitudes flagrantes.

RSNA

ChatGPT, le chatbot d'intelligence artificielle (IA) qui utilise un modèle de deep learning pour reconnaître les modèles et les relations entre les mots dans de vastes bases de données, n’a pas de base scientifique solide dans ses données d'entraînement, lce qui peut générer chez lui des réponses factuellement incorrectes.

Évaluation de GPT-3.5 pour des données radiologiques dans une étude canadienne

Pour évaluer ses performances sur les comptes rendus de radiologie et explorer ses forces et ses limites, le Dr Bhayana, radiologue abdominal et responsable de la technologie à l'University Medical Imaging Toronto du Toronto General Hospital (Canada) et ses collègues ont réalisé une étude au cours de laquelle ils ont d'abord testé ChatGPT basé sur GPT-3.5, actuellement la version la plus couramment utilisée. Pour ce travail publié dans la Revue Radiology, ils ont utilisé 150 questions à choix multiples conçues pour correspondre au style, au contenu et à la difficulté des examens du Canadian Royal College and American Board of Radiology.

« L'utilisation de grands modèles de langage comme ChatGPT explose et ne fera qu'augmenter, précise le Dr Rajesh Bhayana. Notre recherche donne un aperçu des performances de ChatGPT dans un contexte de radiologie, soulignant l'incroyable potentiel des grands modèles de langage, ainsi que les limitations actuelles qui le rendent peu fiable. »

Des lacunes flagrantes du modèle dans la réflexion d’ordre supérieur

Les questions posées au logiciel n'incluaient pas d'images et étaient regroupées par type de question afin d’évaluer la réflexion d'ordre inférieur (rappel des connaissances, compréhension de base) et d'ordre supérieur (appliquer, analyser, synthétiser). Les questions de réflexion d'ordre supérieur ont ensuite été sous-classées par type (description des résultats d'imagerie, prise en charge clinique, calcul et classification, associations de maladies). La performance de ChatGPT a été évaluée globalement et par type de question et sujet. La confiance dans la langue des réponses a également été évaluée.

Les chercheurs ont découvert que ChatGPT basé sur GPT-3.5 répondait correctement à 69 % des questions (104 sur 150), proche de la note de passage de 70 % utilisée par le Canadian Royal College. Le modèle a relativement bien fonctionné sur les questions nécessitant une réflexion d'ordre inférieur (84 %, 51 sur 61), mais a eu du mal avec les questions impliquant une réflexion d'ordre supérieur (60 %, 53 sur 89). Plus précisément, il a eu du mal avec des questions d'ordre supérieur impliquant la description des résultats d'imagerie (61 %, 28 sur 46), le calcul et la classification (25 %, 2 sur 8) et l'application de concepts (30 %, 3 sur 10). Ses faibles performances sur les questions de réflexion d'ordre supérieur n'étaient pas surprenantes étant donné son manque de préformation spécifique à la radiologie.

Des résultats déroutants pour GPT-4

Mais il existe désormais GPT-4, qui a été publié en mars 2023 sous une forme limitée aux utilisateurs payants, affirmant spécifiquement avoir des capacités de raisonnement avancées améliorées par rapport à GPT-3.5. Dans une étude de suivi, GPT-4 a répondu correctement à 81 % (121 sur 150) des mêmes questions, surpassant GPT-3.5 et dépassant le seuil de réussite de 70 %. Le GPT-4 a obtenu de bien meilleurs résultats que le GPT-3.5 sur les questions de réflexion d'ordre supérieur (81 %), plus spécifiquement celles impliquant la description des résultats d'imagerie (85 %) et l'application de concepts (90 %).

Les résultats suggèrent que les capacités de raisonnement avancé améliorées revendiquées par GPT-4 se traduisent par des performances améliorées dans un contexte de radiologie. Ils suggèrent également une meilleure compréhension contextuelle de la terminologie spécifique à la radiologie, y compris les descriptions d'imagerie, ce qui est essentiel pour permettre de futures applications en aval.

« Notre étude démontre une amélioration impressionnante des performances de ChatGPT en radiologie sur une courte période, soulignant le potentiel croissant des grands modèles de langage dans ce contexte », ajoute le Dr Bhayana. GPT-4 n'a montré aucune amélioration sur les questions de réflexion d'ordre inférieur (80 % contre 84 %) et a répondu incorrectement à 12 questions auxquelles GPT-3.5 a répondu correctement, soulevant des questions liées à sa fiabilité pour la collecte d'informations.

Un langage utilisé cohérent, même s’il produit des inexactitudes

« Nous avons d'abord été surpris par les réponses précises et confiantes de ChatGPT à certaines questions difficiles de radiologie, mais ensuite tout aussi surpris par certaines affirmations très illogiques et inexactes, poursuit le Dr Bhayana. Bien sûr, compte tenu du fonctionnement de ces modèles, les réponses inexactes ne devraient pas être particulièrement surprenantes. »

La tendance dangereuse de ChatGPT à produire des réponses inexactes, appelées hallucinations, est moins fréquente dans GPT-4, mais limite toujours la convivialité dans la formation et la pratique médicales à l'heure actuelle. Les deux études ont montré que ChatGPT utilisait un langage cohérent, même lorsqu'il était incorrect. Ceci est particulièrement dangereux si on ne s'y fie qu'à titre d'information, note le Dr Bhayana, en particulier pour les novices qui peuvent ne pas reconnaître les réponses incorrectes.

« Pour moi, c'est sa plus grande limite, conclut-il ». 

Pour moi, c'est sa plus grande limite, conclut-il. À l'heure actuelle, ChatGPT est mieux utilisé pour susciter des idées, aider à démarrer le processus de rédaction médicale et résumer les données. S'il est utilisé pour un rappel rapide des informations, il doit toujours être vérifié ».

Bruno Benque avec RSNA


Un modèle de segmentation automatique en TDM abdominale pédiatrique
10/05/2024 : Les modèles d'apprentissage par transfert formés sur des ensembles de données publiques hétérogènes et affinés à l'aide de données pédiatriques institutionnelles ont fait l’objet d’une étude publiée dans l’American Journal of Roentgenology (AJR). Ces modèles ont surpassé les modèles de formation native interne et TotalSegmentator dans les données d’examens TDM pédiatriques citées en référence.

GPT-4 pourrait répondre au défi de la surcharge de travail pour les radiologues
24/04/2024 : Le grand modèle de langage GPT-4 montre, dans une étude publiée dans la Revue Radiology, que ses performances égalent celles des radiologues dans la détection des erreurs dans les comptes rendus de radiologie. Cet outil plus rapide et plus économique que l’humain pourrait répondre au défi de la surcharge de travail pour les radiologues.

Un modèle d'IA plus performant pour identifier les patientes éligibles à une mammographie supplémentaire
09/04/2024 : Une étude suédoise publiée dans la Revue Radiology teste AISmartDensity pour l’identification des patientes éligibles à une imagerie supplémentaire après une mammographie de dépistage négative. Ce travail montre une plus grande eficacité de ce modèle par rapport aux outils classiques de mesure de densité des seins.

Deux outils d'IA pour la TDM d'une société française validés par la FDA
27/03/2024 : La FDA vient de valider la distribution aux USA de deux algorithmes d’assistance à l’interprétation développés par Avicienna.AI. Il s’agit de CINA-iPE et CINA-ASPECTS, deux outils pour la tomodensitométrie.

Partenariat stratégique pour améliorer le diagnostic d'EP à la TDM
16/02/2024 : Avicenna.AI a annoncé, le 14 février 2024, un partenariat stratégique pour intégrer CINA-iPE dans la Blackford AI Platform. La collaboration offre aux professionnels de la santé des capacités améliorées pour détecter les embolies pulmonaires accidentelles dans les TDM de routine.

Des leaders d'opinion promeuvent l'IA pour la radiographie thoracique
29/01/2024 : La radiographie thoracique est l’un des examens qui bénéficient le plus de l’apport de l’IA. Dans éditorial publié dans la Revue Radiology, des leaders d’opinion font la promotion de cette évolution et y voient une opportunité pour que les radiologues reviennent au plus près de leurs patients.

Plaidoyer international pour des usages de l'IA éthiques et responsables en radiologie
25/01/2024 : En publiant la déclaration « Developing, Purchasing, Implementing and Monitoring AI Tools in Radiology: Practical Considerations », cinq sociétés savantes de radiologie s’unissent pour un usage de l’IA éthique et sécuritaire. Ce document plaide pour une collaboration internationale entre les développeurs, les cliniciens et les institutions.

TwinOnco, le projet innovant de suivi des patients porté par l'AP-HP et Dassault Systèmes
23/01/2024 : L’AP-HP et Dassault Systèmes ont élaboré le projet TwinOnco qui vise à créer des jumeaux virtuels aux patients en oncologie. Cette initiative permettra de passer une étape dans la personnalisation des traitements et génèrera de nouvelles cohortes de patients en onciologie.

Une nouvelle formation certifiante RSNA sur l'IA en imagerie d'urgence
22/01/2024 : Dans le panel de formations qu’elle propose aux radiologues sur le champ des applications de l’IA pour l’imagerie médicale, la RSNA lance un cours validant sur la radiologie d’urgence intitulé RSNA Emergency Imaging AI Certificate. D’autres cours relatifs à l’IA en imagerie, de base ou avancés, sont aussi accessibles.

Le RSNA Cervical Spine Fracture AI Challenge a rendu son verdict
10/01/2024 : Le RSNA Cervical Spine Fracture AI Challenge 2022 a rendu son verdict en sélectionnant les 8 projets les plus performants parmi plus de 20 000 candidatures soumises. Ces algorithmes de haute qualité font avancer de manière significative la recherche sur l’IA en radiologie


Vers un encadrement des nouvelles méthodologies de la recherche médicale
17/05/2024 : La recherche clinique faisant l’objet de méthodologies alternatives utilisant les technologies modernes, un groupe de travail international publie les résultats de son analyse et émet ses premières recommandations. Un colloque international présentera bientôt ces travaux à Lille.

Corrélation entre infiltration graisseuse du teres minor et prévalence du muscle sous glénoïde accessoire
17/05/2024 : Lors du 124e congrès annuel de l'American Roentgen Ray Society (ARRS), un poster relatif à l’IRM de l’épaule a été primé. Ce travail a mis en lumière la prévalence du muscle sous-glénoïde accessoire chez les patients présentant une infiltration graisseuse du teres minor, avec, souvent, une neuropathie associée.

Une majorité de cardiologues interventionnels plébiscite la robotique
15/05/2024 : Un sondage international effectué auprès de cardiologues interventionnels sonne comme un plébiscite pour l’intégration de la robotique dans leur activité. Ils évoquent la qualité et l’homogénéité des interventions, la radioprotection et l’évolution digitale de la discipline.

Compilation scientifique sur la radiothérapie Ultra Haut Débit de Dose
15/05/2024 : L’Institut de Radioprotection et de Sureté Nucléaire (IRSN) vient de publier un Rapport sur la radiothérapie à ultra haut débit de dose. Il s’agit d’une revue de la littérature scientifique dédiée à cette technique de radiothérapie FLASH qui n’a généré encore que peu de recommandations de bonnes pratiques.

Traitement d'une réocclusion de l'artère fémorale en vidéo
15/05/2024 : Dans notre série de procédures interventionnelles en vidéo, voici un live case réalisé lors du dernier ML-CTO Course Endovascular. Il s’agit du traitement par Rotarex d’une réocclusion intrastent au niveau d’une artère fémorale superficielle.

IRM pédiatrique : le feed & wrap comme alternative à la sédation profonde
14/05/2024 : La sédation profonde peut provoquer des effets secondaires pour les nouveau-nés qui doivent faire l'objet d'une IRM. Une étude publiée dans la Revue European Radiology évalue la qualité d’image obtenue en utilisant la technique d’immobilisation Feed and Wrap. Les chercheurs y voient une méthode efficace avec une qualité d’image significative et annoncent la fin de la sédation profonde pour les nouveau-nés candidats à l’IRM.

Le ganglion axillaire prédicteur de maladie cardiovasculaire ?
13/05/2024 : L'American Roentgen Ray Society (ARRS) publie les résultats d’un travail de recherche sur les ganglions axillaires identifiés en mammographie de dépistage. Un poster présenté lors du 124ème congrès de cette société avance notamment que les galglions graisseux seraient prédicteurs de maladies cardiovasculaires à 10 ans.

Un modèle de segmentation automatique en TDM abdominale pédiatrique
10/05/2024 : Les modèles d'apprentissage par transfert formés sur des ensembles de données publiques hétérogènes et affinés à l'aide de données pédiatriques institutionnelles ont fait l’objet d’une étude publiée dans l’American Journal of Roentgenology (AJR). Ces modèles ont surpassé les modèles de formation native interne et TotalSegmentator dans les données d’examens TDM pédiatriques citées en référence.

Des GML non pertinents pour les tâches cliniques complexes
07/05/2024 : L'utilisation de grands modèles de langage (GML) accessibles au public pour des tâches cliniques complexes peut engendrer un effet négatif sur la prise en charge des patients, selon une nouvelle étude internationale publiée dans la Revue Radiology. Les résultats de l’étude soulignent la nécessité de réglementer ces GML dans des scénarios qui nécessitent un raisonnement médical de haut niveau.

Revascularisation d'IVA occluse en vidéo
02/05/2024 : Dans notre série de procédures interventionnelles en vidéo, nous vous présentons aujourd’hui la revascularisation d’une IVA occluse à l’aie d’un guide nouvelle génération.


Vers un encadrement des nouvelles méthodologies de la recherche médicale
17/05/2024 : La recherche clinique faisant l’objet de méthodologies alternatives utilisant les technologies modernes, un groupe de travail international publie les résultats de son analyse et émet ses premières recommandations. Un colloque international présentera bientôt ces travaux à Lille.

Installer une salle interventionnelle ou une hybride ? L'ANAP a étudié la question
06/12/2019 : L’ANAP vient de publier un guide d’aide à la décision pour les promoteurs de salle hybride interventionnelle en établissement de Santé. Ce document montre comment le projet médico-soignant du secteur impacte le choix du matériel et la réussite du processus d’installation.

Traitement d'une réocclusion de l'artère fémorale en vidéo
15/05/2024 : Dans notre série de procédures interventionnelles en vidéo, voici un live case réalisé lors du dernier ML-CTO Course Endovascular. Il s’agit du traitement par Rotarex d’une réocclusion intrastent au niveau d’une artère fémorale superficielle.

Bientôt des équipes développement durable dans les centres de radiologie ?
25/04/2024 : Un groupe de radiologues international, dirigé par des auteurs de l'Université de Toronto, a développé une approche permettant aux unités et cabinets de radiologie de réduire leurs émissions de gaz à effet de serre et de devenir plus résilients aux effets du changement climatique. Ils ont présenté leur plan d'action dans la Revue Radiology.

Nouvel essai pour le traitement du glioblastome à l'aide de Sonocloud
26/04/2024 : Un essai clinique de phase 2a va être mis en œuvre à la Northwestern University de Chicago pour évaluer l’efficacité et la sécurité d’un traitement du glioblastome favorisé par modulation des checkpoints immunitaires. Cet essai utilisera les propriétés du dispositif Sonocloud-9.

Compilation scientifique sur la radiothérapie Ultra Haut Débit de Dose
15/05/2024 : L’Institut de Radioprotection et de Sureté Nucléaire (IRSN) vient de publier un Rapport sur la radiothérapie à ultra haut débit de dose. Il s’agit d’une revue de la littérature scientifique dédiée à cette technique de radiothérapie FLASH qui n’a généré encore que peu de recommandations de bonnes pratiques.

Une majorité de cardiologues interventionnels plébiscite la robotique
15/05/2024 : Un sondage international effectué auprès de cardiologues interventionnels sonne comme un plébiscite pour l’intégration de la robotique dans leur activité. Ils évoquent la qualité et l’homogénéité des interventions, la radioprotection et l’évolution digitale de la discipline.

Save the date : séminaire qualité en médecine nucléaire
29/04/2024 : La mise en place d’un système qualité en médecine nucléaire robuste et pragmatique fera l’objet d’un séminaire organisé à La Baule en mai prochain. Les participants découvriront un système qualité facile et pragmatique.

IRM pédiatrique : le feed & wrap comme alternative à la sédation profonde
14/05/2024 : La sédation profonde peut provoquer des effets secondaires pour les nouveau-nés qui doivent faire l'objet d'une IRM. Une étude publiée dans la Revue European Radiology évalue la qualité d’image obtenue en utilisant la technique d’immobilisation Feed and Wrap. Les chercheurs y voient une méthode efficace avec une qualité d’image significative et annoncent la fin de la sédation profonde pour les nouveau-nés candidats à l’IRM.

Corrélation entre infiltration graisseuse du teres minor et prévalence du muscle sous glénoïde accessoire
17/05/2024 : Lors du 124e congrès annuel de l'American Roentgen Ray Society (ARRS), un poster relatif à l’IRM de l’épaule a été primé. Ce travail a mis en lumière la prévalence du muscle sous-glénoïde accessoire chez les patients présentant une infiltration graisseuse du teres minor, avec, souvent, une neuropathie associée.