Les propos déroutants de GPT-4 appliqué à la radiologie
LUNDI 22 MAI 2023
La dernière version de ChatGPT, GPT-4, a réussi un examen de type compte rendu de radiologie, soulignant le potentiel des grands modèles de langage, dans une étude publiée dans la Revue Radiology. Mais ce travail révèle également les limites qui entravent sa fiabilité, avec un langage cohérent mais des inexactitudes flagrantes.

ChatGPT, le chatbot d'intelligence artificielle (IA) qui utilise un modèle de deep learning pour reconnaître les modèles et les relations entre les mots dans de vastes bases de données, n’a pas de base scientifique solide dans ses données d'entraînement, lce qui peut générer chez lui des réponses factuellement incorrectes.
Évaluation de GPT-3.5 pour des données radiologiques dans une étude canadienne
Pour évaluer ses performances sur les comptes rendus de radiologie et explorer ses forces et ses limites, le Dr Bhayana, radiologue abdominal et responsable de la technologie à l'University Medical Imaging Toronto du Toronto General Hospital (Canada) et ses collègues ont réalisé une étude au cours de laquelle ils ont d'abord testé ChatGPT basé sur GPT-3.5, actuellement la version la plus couramment utilisée. Pour ce travail publié dans la Revue Radiology, ils ont utilisé 150 questions à choix multiples conçues pour correspondre au style, au contenu et à la difficulté des examens du Canadian Royal College and American Board of Radiology.
« L'utilisation de grands modèles de langage comme ChatGPT explose et ne fera qu'augmenter, précise le Dr Rajesh Bhayana. Notre recherche donne un aperçu des performances de ChatGPT dans un contexte de radiologie, soulignant l'incroyable potentiel des grands modèles de langage, ainsi que les limitations actuelles qui le rendent peu fiable. »
Des lacunes flagrantes du modèle dans la réflexion d’ordre supérieur
Les questions posées au logiciel n'incluaient pas d'images et étaient regroupées par type de question afin d’évaluer la réflexion d'ordre inférieur (rappel des connaissances, compréhension de base) et d'ordre supérieur (appliquer, analyser, synthétiser). Les questions de réflexion d'ordre supérieur ont ensuite été sous-classées par type (description des résultats d'imagerie, prise en charge clinique, calcul et classification, associations de maladies). La performance de ChatGPT a été évaluée globalement et par type de question et sujet. La confiance dans la langue des réponses a également été évaluée.
Les chercheurs ont découvert que ChatGPT basé sur GPT-3.5 répondait correctement à 69 % des questions (104 sur 150), proche de la note de passage de 70 % utilisée par le Canadian Royal College. Le modèle a relativement bien fonctionné sur les questions nécessitant une réflexion d'ordre inférieur (84 %, 51 sur 61), mais a eu du mal avec les questions impliquant une réflexion d'ordre supérieur (60 %, 53 sur 89). Plus précisément, il a eu du mal avec des questions d'ordre supérieur impliquant la description des résultats d'imagerie (61 %, 28 sur 46), le calcul et la classification (25 %, 2 sur 8) et l'application de concepts (30 %, 3 sur 10). Ses faibles performances sur les questions de réflexion d'ordre supérieur n'étaient pas surprenantes étant donné son manque de préformation spécifique à la radiologie.
Des résultats déroutants pour GPT-4
Mais il existe désormais GPT-4, qui a été publié en mars 2023 sous une forme limitée aux utilisateurs payants, affirmant spécifiquement avoir des capacités de raisonnement avancées améliorées par rapport à GPT-3.5. Dans une étude de suivi, GPT-4 a répondu correctement à 81 % (121 sur 150) des mêmes questions, surpassant GPT-3.5 et dépassant le seuil de réussite de 70 %. Le GPT-4 a obtenu de bien meilleurs résultats que le GPT-3.5 sur les questions de réflexion d'ordre supérieur (81 %), plus spécifiquement celles impliquant la description des résultats d'imagerie (85 %) et l'application de concepts (90 %).
Les résultats suggèrent que les capacités de raisonnement avancé améliorées revendiquées par GPT-4 se traduisent par des performances améliorées dans un contexte de radiologie. Ils suggèrent également une meilleure compréhension contextuelle de la terminologie spécifique à la radiologie, y compris les descriptions d'imagerie, ce qui est essentiel pour permettre de futures applications en aval.
« Notre étude démontre une amélioration impressionnante des performances de ChatGPT en radiologie sur une courte période, soulignant le potentiel croissant des grands modèles de langage dans ce contexte », ajoute le Dr Bhayana. GPT-4 n'a montré aucune amélioration sur les questions de réflexion d'ordre inférieur (80 % contre 84 %) et a répondu incorrectement à 12 questions auxquelles GPT-3.5 a répondu correctement, soulevant des questions liées à sa fiabilité pour la collecte d'informations.
Un langage utilisé cohérent, même s’il produit des inexactitudes
« Nous avons d'abord été surpris par les réponses précises et confiantes de ChatGPT à certaines questions difficiles de radiologie, mais ensuite tout aussi surpris par certaines affirmations très illogiques et inexactes, poursuit le Dr Bhayana. Bien sûr, compte tenu du fonctionnement de ces modèles, les réponses inexactes ne devraient pas être particulièrement surprenantes. »
La tendance dangereuse de ChatGPT à produire des réponses inexactes, appelées hallucinations, est moins fréquente dans GPT-4, mais limite toujours la convivialité dans la formation et la pratique médicales à l'heure actuelle. Les deux études ont montré que ChatGPT utilisait un langage cohérent, même lorsqu'il était incorrect. Ceci est particulièrement dangereux si on ne s'y fie qu'à titre d'information, note le Dr Bhayana, en particulier pour les novices qui peuvent ne pas reconnaître les réponses incorrectes.
« Pour moi, c'est sa plus grande limite, conclut-il ».
Pour moi, c'est sa plus grande limite, conclut-il. À l'heure actuelle, ChatGPT est mieux utilisé pour susciter des idées, aider à démarrer le processus de rédaction médicale et résumer les données. S'il est utilisé pour un rappel rapide des informations, il doit toujours être vérifié ».
Bruno Benque avec RSNA