Des chatbot radiologiques pas encore totalement cohérents... mais des progrès certains
LUNDI 26 JUIN 2023
Les modèles linguistiques générés par l’IA ne sont pas encore assez évolués aujourd’hui pour donner des réponses toujours cohérentes à des questions radiologiques posées. C’est ce que rapportent des chercheurs dans un une étude publiée dans la Revue Radiology, dans laquelle ils prévoient des améliorations rapides sur ce champ.

Les modèles de chatbot à grande étendue de langage comme ChatGPT et Google Bard sont de plus en plus introduits dans la sphère publique. Les patients recherchent sur Internet des réponses sur des situations médicales et des comptes rendus et les systèmes de soins de santé se tournent vers ces outils pour répondre aux questions des patients en ligne. Mais quelle est leur précision ? Peut-on compter sur eux pour traiter des questions importantes sur des conditions médicales complexes ?
Une étude compare les informations issues des modèles linguistiques générés par l’IA
Dans une nouvelle étude publiée dans la Revue Radiology, des chercheurs ont évalué et comparé l'exactitude et la cohérence des réponses générées par ChatGPT, Google Bard et des moteurs de recherche bien connus. Quarante questions non expertes sur la prévention, le dépistage et la terminologie du cancer du poumon couramment utilisées dans les comptes rendus de radiologie ont été créées et présentées à ChatGPT et Google Bard, ainsi qu'aux moteurs de recherche Bing et Google. Les réponses ont été notées comme correctes, partiellement correctes, incorrectes ou sans réponse.
ChatGPT a répondu à 120 questions avec 85 (70,8%) correctes, 14 (11,7%) partiellement correctes et 21 (17,5%) incorrectes. Google Bard n'a pas répondu à 23 (19,1 %) questions. Parmi les 97 questions auxquelles Google Bard a répondu, 62 (51,7%) étaient correctes, 11 (9,2%) étaient partiellement correctes et 24 (20%) étaient incorrectes. Ni ChatGPT ni Google Bard n'ont répondu avec une cohérence à 100 % des questions.
Des résultats disparates et beaucoup de réponses incohérentes
Bing a répondu à 120 questions dont 74 (61,7%) correctes, 13 (10,8%) partiellement correctes et 33 (27,5%) incorrectes. Le moteur de recherche Google a répondu à 120 questions dont 66 (55%) correctes, 27 (22,5%) partiellement correctes et 27 (22,5%) incorrectes. Les chercheurs ont observé que ces grands modèles linguistiques ont du mal à fournir des réponses précises face à une terminologie médicale complexe ou technique. Les réponses incorrectes fournies par les chatbots peuvent être liées au fait que ces langages sont formés principalement sur des contenus Internet tels que des articles, des livres, Wikipédia, des actualités et des sites Web, plutôt que sur des informations provenant de sociétés savantes.
Une technologie qui progresse vite pour des outils qui pourraient être utilisables dans un avenir proche
« Pour résoudre ces problèmes, il est nécessaire de les affiner et de les recycler pour éviter de générer des informations inexactes, précisent les auteurs. Bien que cela puisse sembler être une tâche difficile, en fin de compte, les générations futures de ces langages devraient être capables de dialoguer avec les utilisateurs avec l’assurance que leurs réponses correspondent aux questions précises posées. »
Parmi les limites de leur étude, les chercheurs admettent avoir utilisé la version de ChatGPT et Google Bard qui était disponible en avril 2023, alors que des langages comme Med-PaLM et Med-PaLM 2 semblent plus évolués. Ces agents intelligents génératifs progressent rapidement et les futures versions pourraient donner des résultats différents. Ils reconnaissent enfin que les 40 questions sur le cancer du poumon utilisées dans ce travail ne représentent peut-être pas entièrement l'éventail complet des questions à caractère médical.
Bruno Benque avec RSNA