Des GML non pertinents pour les tâches cliniques complexes
MARDI 07 MAI 2024
L'utilisation de grands modèles de langage (GML) accessibles au public pour des tâches cliniques complexes peut engendrer un effet négatif sur la prise en charge des patients, selon une nouvelle étude internationale publiée dans la Revue Radiology. Les résultats de l’étude soulignent la nécessité de réglementer ces GML dans des scénarios qui nécessitent un raisonnement médical de haut niveau.

Les GML, élaborés par l’intelligence artificielle (IA) et génériques accessibles au public comme ChatGPT (GPT 3.5 et GPT-4) et Google Gemini (anciennement Bard), montrent des résultats prometteurs dans certaines tâches, notamment en imagerie médicale. Ils ont déjà été testés dans une grande variété de tâches cliniques, du traitement des formulaires de demande de radiologie aux guides pratiques, en passant par l'aide au diagnostic.
Quel potentiel les GML présentent-ils pour des tâches cliniques complexes ?
Mais ces GML réussissent moins bien dans des tâches plus complexes nécessitant un niveau de raisonnement plus élevé et des connaissances cliniques plus approfondies, comme la formulation de recommandations des pratiques d’imagerie. Les utilisateurs qui recherchent un avis médical ne comprennent pas toujours les limites de ces programmes insuffisamment formés.
Le Dr Andrea Cozzi, résident en radiologie et chercheur postdoctoral à l'Institut d'imagerie de Suisse méridionale, Ente Ospedaliero Cantonale, à Lugano (Suisse), et co-auteur principal d’une étude sur le sujet publiée dans la Revue Radiology, a entrepris, avec son équipe, de tester les GML génériques sur une tâche de routine clinique quotidienne mais où la profondeur du raisonnement médical est élevée et où l'utilisation de langues autres que l'anglais mettrait davantage l'accent sur les capacités des GML. Ils se sont concentrés sur l’accord entre les lecteurs humains et les GML pour l’attribution des catégories du Breast Imaging Reporting and Data System (BI-RADS), un système largement utilisé pour décrire et classer les lésions mammaires.
Une étude compare la classification Bi-RADS des humains vs les GML
« Évaluer les capacités des GML reste important car ces outils sont les plus facilement disponibles de manière générique et peuvent être utilisés de manière injustifiée par les patients et les médecins non-radiologues cherchant un deuxième avis », constate le Dr Cozzi. Les chercheurs suisses se sont associés à une équipe américaine du Memorial Sloan Kettering Cancer Center de New York et à une équipe néerlandaise du Dutch Cancer Institute d'Amsterdam.
L'étude comprenait des classifications BI-RADS de 2 400 comptes rendus d'imagerie mammaire rédigés en anglais, italien et néerlandais. Trois GML – GPT-3.5, GPT-4 et Google Bard (maintenant renommé Google Gemini) – ont attribué des catégories BI-RADS en utilisant uniquement les résultats décrits par les radiologues d'origine. Les chercheurs ont ensuite comparé les performances des GML avec celles des radiologues du sein certifiés.
Des discordances importantes mettant en cause les GML entrainant des failles dans la prise en charge des patients
L’accord pour l’attribution des catégories BI-RADS entre lecteurs humains était presque parfait. Cependant, l’accord entre les humains et les GML n’était que modéré. Plus important encore, les chercheurs ont également observé un pourcentage élevé d’attributions de catégories discordantes qui entraîneraient des changements négatifs dans la prise en charge des patients. Cela soulève plusieurs inquiétudes quant aux conséquences potentielles d’une trop grande dépendance à l’égard de ces GML largement disponibles.
Selon le Dr. Cozzi, les résultats mettent en évidence la nécessité d'une réglementation des GML lorsqu'il existe une possibilité très probable que les utilisateurs leur posent des questions liées aux soins de santé à la complexité variable. « Les résultats de cette étude s'ajoutent au nombre croissant de preuves qui nous rappellent la nécessité de bien comprendre et de mettre en évidence les avantages et les inconvénients de l'utilisation du GML dans les soins de santé, conclut le Dr Cozzi. Ces programmes peuvent constituer un outil formidable pour de nombreuses tâches, mais ils doivent être utilisés à bon escient. Les patients doivent être conscients des lacunes intrinsèques de ces outils et du fait qu’ils peuvent recevoir des réponses incomplètes, voire complètement fausses, à des questions complexes ».
Bruno Benque avec RSNA