Des LLM affinés pour aider à la relecture des comptes rendus
VENDREDI 23 MAI 2025
Selon une nouvelle étude publiée dans la Revue Radiology, un grand modèle de langage (LLM) améliorerait sensiblement la détection des erreurs dans les comptes rendus de radiologie. Les chercheurs ont utilisé des comptes rendus synthétiques et des données ciblées pour donner au LLM de la légèreté.

Les comptes rendus de radiologie peuvent être compromis par des facteurs tels que les erreurs des logiciels de reconnaissance vocale, la variabilité des processus perceptifs et interprétatifs, et les biais cognitifs. Ces erreurs peuvent entraîner des diagnostics erronés ou des retards de traitement, d'où l'urgence de disposer de comptes rendus de qualité.
Les LLM affinés sont-ils pertinents pour aider les radiologues dans la relecture des comptes rendus ?
Les LLM comme ChatGPT, qui offrent un potentiel important en relecture, renforcent à ce titre leur pertinence dans le domaine médical, notamment pour la détection des erreurs dans les comptes rendus de radiologie, mais ils restent sous-explorés.
Pour combler ce manque de connaissances, des chercheurs américains ont évalué des LLM affinés - pré-entraînés puis entraînés sur des données spécifiques à un domaine - pour détecter les erreurs dans les comptes rendus de radiologie lors de la relecture médicale. Ils ont consigné leur travail dans un article publié dans la Revue Radiology.
Un travail de recherche crée une base de données en deux parties pour tester le LLM Affiné
« Dans un premier temps, les LLM sont entraînés sur des données publiques à grande échelle afin d'acquérir des schémas et des connaissances linguistiques générales, explique le Pr Yifan Peng, auteur principal de l'étude et du Département des sciences de la santé des populations de Weill Cornell Medicine à New York (USA). L'étape suivante consiste à affiner le modèle, en lui fournissant un entraînement supplémentaire à l'aide d'ensembles de données plus petits et ciblés, pertinents pour des tâches spécifiques. »
Pour tester ce modèle, le Pr Peng et ses collègues ont construit un ensemble de données en deux parties. La première comprenait 1 656 comptes rendus synthétiques, dont 828 sans erreur et 828 comportant des erreurs. La seconde partie comprenait 614 comptes rendus, dont 307 sans erreur, et 307 comportant des erreurs, provenant de MIMIC-CXR, une vaste base de données publique de radiographies thoraciques.
Un outil conçu sur la base de comptes rendus synthétiques qui met en lumière le potentiel d’un LLM léger
« Les comptes rendus synthétiques peuvent également accroître la couverture et la diversité, équilibrer les cas et réduire les coûts d'annotation, ajoute le premier auteur de l'étude, le Pr Cong Sun, du même service que le Pr Peng. En radiologie, ou plus généralement en clinique, les comptes rendus synthétiques permettent un partage sécurisé des données sans compromettre la confidentialité des patients. »
Les chercheurs ont constaté que le modèle optimisé surpassait GPT-4 et BiomedBERT, un outil de traitement du langage naturel pour la recherche biomédicale. « Le LLM optimisé sur MIMIC-CXR et les comptes rendus synthétiques ont démontré d'excellentes performances dans les tâches de détection d'erreurs, poursuit le Pr Sun. Il répond à nos attentes et met en évidence le potentiel de développement d'un LLM léger et optimisé spécifiquement pour les applications de relecture médicale. »
Des échantillons diversifiés et représentatifs pour répondre à la simplicité du modèle
L'étude a démontré que les LLM peuvent aider à détecter divers types d'erreurs, notamment les erreurs de transcription et les erreurs gauche/droite, qui se réfèrent à une mauvaise identification ou interprétation des directions ou des côtés dans le texte ou les images.
L'utilisation de données synthétiques dans la construction de modèles d'IA a soulevé des inquiétudes quant à la présence de biais dans les données. Le Dr Peng et ses collègues ont pris des mesures pour minimiser ce problème en utilisant des échantillons diversifiés et représentatifs de données réelles pour générer les données synthétiques. Cependant, ils ont reconnu que les erreurs synthétiques pourraient ne pas refléter pleinement la complexité des erreurs réelles dans les comptes rendus de radiologie.
De nouveaux travaux à venir pour étudier la capacité du réglage fin à réduire la charge cognitive des radiologues
Les travaux futurs pourraient inclure une évaluation systématique de l'impact des biais introduits par les erreurs synthétiques sur les performances des modèles. Les chercheurs espèrent étudier la capacité du réglage fin à réduire la charge cognitive des radiologues et à améliorer les soins aux patients. Ils souhaitent également déterminer si le réglage fin dégraderait la capacité du modèle à générer des explications raisonnées.
« Nous sommes impatients de continuer à explorer des stratégies innovantes pour améliorer les capacités de raisonnement des LLM ajustés dans les tâches de relecture médicale, conclut le Pr Peng. Notre objectif est de développer des modèles transparents et compréhensibles auxquels les radiologues peuvent se fier en toute confiance et qu’ils peuvent pleinement adopter. »
Paco Carmine