La lecture des images radiologiques toujours pas au point pour Chat-GPT4 Vision
LUNDI 09 SEPTEMBRE 2024
Des chercheurs américains ont réalisé une étude, publiée dans la Revue Radiology, évaluant les performances de ChatGPT-4 Vision, capable d’interpréter du texte et de l’image. Ils ont constaté que le modèle fonctionnait bien sur les questions d'examen de radiologie textuelles, mais qu'il avait du mal à répondre avec précision aux questions liées aux images. Des réponses hallucinatoires suggèrent même des interprétations d’images incorrectes aux conséquences cliniques potentiellement graves.

Chat GPT-4 Vision est connu pour être la première version du grand modèle de langage capable d'interpréter à la fois le texte et les images. Dans une étude publiée dans la Revue Radiology, des chercheurs américains ont éprouvé cet outil pour en évaluer l’efficacité.
Le grand modèle de langage ChatGPT-4 Vision éprouvé sur ses capacités à traiter les images radiologiques et les comptes rendus
« ChatGPT-4 s'est révélé prometteur pour aider les radiologues dans des tâches telles que la simplification des comptes rendus de radiologie destinés aux patients et l'identification du protocole approprié pour les examens d'imagerie, précise le Dr Chad Klochko, radiologue musculo-squelettique et chercheur en intelligence artificielle (IA) chez Henry Ford Health à Détroit (Michigan – USA). Grâce à ses capacités de traitement d'images, GPT-4 Vision permet de nouvelles applications potentielles en radiologie. »
Pour réaliser ce travail, l’équipe de recherche a utilisé des questions retirées des examens d’enseignement en radiologie diagnostique de l’American College of Radiology, une série de tests utilisés pour évaluer les capacités des internes en radiologie. Après avoir exclu les doublons, les chercheurs ont utilisé 377 questions dans 13 domaines, dont 195 questions contenant uniquement du texte et 182 contenant une image.
Un certain degré de compréhension textuelle en radiologie
GPT-4 Vision a répondu correctement à 246 des 377 questions, obtenant un score global de 65,3%. Le modèle a répondu correctement à 81,5% (159) des 195 requêtes contenant uniquement du texte et à 47,8% (87) des 182 questions contenant des images. « La précision de 81,5% pour les questions contenant uniquement du texte reflète les performances du modèle précédent, poursuit le Dr Klochko. Cette cohérence sur les questions textuelles peut suggérer que le modèle possède un certain degré de compréhension textuelle en radiologie. »
La radiologie génito-urinaire était la seule sous-spécialité pour laquelle GPT-4 Vision obtenait de meilleurs résultats sur les questions contenant des images (67%) que sur les questions contenant uniquement du texte (57%). Le modèle a obtenu de meilleurs résultats sur les questions contenant uniquement du texte dans toutes les autres sous-spécialités. Ses meilleurs résultats sur les questions basées sur des images apparaissent dans les sous-spécialités thoraciques et génito-urinaires, répondant correctement à 69% et 67% des questions, respectivement.
Des résultats variables selon le type de questions posées
Le modèle a obtenu les résultats les plus faibles sur les questions contenant des images dans le domaine de la médecine nucléaire, répondant correctement à seulement 2 questions sur 10. L'étude a également évalué l'impact de diverses invites sur les performances de GPT-4 Vision. Des questions estampillées « original », « de base », « chaîne de réflexion », « instruction courte » ou « instruction longue » ont éprouvé ses capacités.
Bien que le modèle ait répondu correctement à 183 des 265 questions avec une invite de base, il a refusé de répondre à 120 questions, dont la plupart contenaient une image. « Le phénomène de refus de répondre aux questions était quelque chose que nous n'avions pas observé lors de notre exploration initiale du modèle », ajoute le Dr Klochko. L'instruction courte a rapidement donné la précision la plus faible (62,6%).
Des réponses hallucinatoires qui suggèrent des interprétations d’images incorrectes aux conséquences cliniques potentiellement graves
Sur les questions textuelles, l'incitation par chaîne de réflexion a surpassé l'instruction longue de 6,1%, l'instruction de base de 6,8% et le style original de 8,9%. Il n'y avait aucune preuve suggérant des différences de performances entre deux invites sur des questions basées sur des images. « Notre étude a montré des signes de réponses hallucinatoires lors de l'interprétation des résultats des images, explique-t-il. Nous avons noté une tendance alarmante du modèle à fournir des diagnostics corrects basés sur des interprétations d'images incorrectes, ce qui pourrait avoir des implications cliniques significatives."
Les résultats de cette étude soulignent la nécessité de méthodes d’évaluation plus spécialisées et plus rigoureuses pour évaluer les performances des grands modèles de langage dans les tâches de radiologie. « Compte tenu des défis actuels liés à l'interprétation précise des images radiologiques clés et de la tendance aux réponses hallucinatoires, l'applicabilité de GPT-4 Vision dans des domaines critiques tels que la radiologie est limitée dans son état actuel », conclut le Dr Klochko.
Paco Carmine