IA & Données

Un nouvel outil d'extraction de données spécialisé en radiologie

15/07/2025

De Bruno Benque

Illustration Un nouvel outil d'extraction de données spécialisé en radiologie

Les méthodes d’élaboration des grands modèles de langage sont basées sur des règles qui ne traitent pas efficacement les données non standardisées. Des chercheurs britanniques présentent, dans un article publié dans la Revue European Radiology, RADEX, le nouvel outil d’extraction de données radiologiques. Ils décrivent une étude qui éprouve RADEX sur un vaste ensemble de comptes rendus d’échographie thyroïdienne.

Les récentes avancées en traitement automatique du langage (TAL), telles que le machine learning (ML) ou le deep learning (DL) et notamment les grands modèles de langage (MLL) comme BERT et ChatGPT, ont ravivé l'intérêt pour l'extraction automatisée d'informations contenues dans les dossiers patients.

Les méthodes d’élaboration des grands modèles de langage peu efficaces pour traiter les données non structurées

Les modèles de langage spécifiques à un domaine ont montré des résultats prometteurs pour des tâches telles que la classification de textes, la reconnaissance de caractères et la synthèse, en réentraînant le modèle BERT de base à partir de textes cliniques ou de littérature biomédicale. Malgré le potentiel des méthodes ML et DL, le manque de données d'apprentissage spécifiques au domaine et les préoccupations liées à la sécurité, à la fiabilité, à l'explicabilité et aux biais ont limité leur mise en œuvre généralisée.

Pour ces raisons, les méthodes basées sur des règles, qui utilisent les connaissances humaines pour créer des modèles informatiques, restent populaires en médecine. Des modèles bien conçus peuvent atteindre des performances similaires à celles des techniques ML/DL, mais les approches basées sur des règles réside dans la difficulté de développer des modèles robustes, qui nécessite généralement une collaboration interdisciplinaire entre les experts techniques qui construisent le modèle et les experts cliniques qui apportent leur expertise dans l’interprétation des données.

Des regex se montrent efficaces mais difficiles à construire et à maintenir

Les bases de données existantes telles que l'Unified Medical Language System (UMLS) ou le Radiology Lexicon (RadLex) peuvent être utilisées dans des méthodes basées sur des dictionnaires pour identifier les termes médicaux. Mais le recours aux dictionnaires seuls ne permet souvent pas de saisir les nuances cliniques, la variabilité linguistique et le contexte, nécessaires à la classification des comptes rendus dans le cadre de tâches de recherche et d'audit sur mesure. Dans ce cas, une ingénierie manuelle des connaissances est nécessaire pour définir des règles personnalisées répondant aux exigences spécifiques de la tâche.

Ces règles élaborées manuellement sont généralement définies à l'aide du cadre établi des « expressions régulières » - regex – formé par des séquences de lettres et de caractères spéciaux. Les regex offrent une méthode efficace et flexible pour la correspondance de modèles, mais leur construction et leur maintenance sont complexes, car il n'existe actuellement aucune méthode standardisée pour leur génération et leur évaluation.

RADEX, le nouvel outil d’extraction de données radiologiques

Dans une étude publiée dans la Revue European Radiology, des chercheurs britanniques présentent un nouvel outil basé sur des règles pour l'extraction de données radiologiques (RADEX). Il standardise et simplifie la construction de modèles d'expressions régulières grâce à une syntaxe de haut niveau et un protocole de raffinement itératif. Cela permet de traduire efficacement les connaissances du domaine clinique en modèles informatiques pour l'annotation automatisée des données et la classification des rapports. RADEX encourage une approche systématique pour élaborer des stratégies de recherche robustes, complètes et reproductibles.

L’extraction des données à partir de comptes rendus radiologiques non structurés (radiographies, IRM, scanner, échographie) et d'autres documents cliniques (notes cliniques, rapports d'incident, comptes rendus d’anapath et de cytologie, etc.) est fiable et répond aux défis posés par les méthodes précédentes, qui manquaient de transparence et de reproductibilité.

Un article qui éprouve RADEX sur un vaste ensemble de comptes rendus d’échographie thyroïdienne

RADEX s'adresse aux chercheurs biomédicaux et aux professionnels de santé sans expérience préalable en TAL. Il offre une solution pratique, rapide, flexible et gratuite, intégrable aux systèmes cliniques existants. Le flux de travail typique de RADEX est démontré sur un vaste ensemble de données de comptes rendus d'échographie thyroïdienne, un exemple pertinent de rapports non structurés, au langage variable et présentant un large éventail d'indications diagnostiques.

Dans cette étude, 16 246 comptes rendus d'échographie thyroïdienne ont été classés selon 14 critères, couvrant les pathologies diffuses et focales courantes, ainsi que la classification des nodules. Les résultats ont été évalués par rapport à 202 tags de référence, avec le consensus de trois experts indépendants. L'ensemble de données anonymisées produit pourrait être utilisé pour l'évaluation du service rendu, l'amélioration de la cohérence des comptes rendus ou la recherche.

L'objectif de cette étude est de développer et d'évaluer RADEX, qui vise à fournir une solution évolutive, conviviale et rapide pour l'extraction d'informations et la classification de comptes rendus dans de grands ensembles de données, comme c’est le cas dans l'échographie thyroïdienne.

SUR LE MÊME THÈME

IA & Données

Des grands modèles de langage sensés participer à l'annotation des images pour le deep learning

Incontournables pour l’entrainement des modèles de deep learning, les annotations d’images radiologiques sont rébarbatives et chronophages pour les experts qui les créent. Des grands modèles de langage (LLM) pourraient remplacer les annotations humaines, comme l’indique un article scientifique publi...

23/06/2025 -

IA & Données

Les bonnes pratiques pour l'évaluation de la pertinence d'un outil d'IA en imagerie

Radiologues, informaticiens et chercheurs présentent, dans un article publié dans la Revue Radiology, les pièges et les meilleures pratiques pour atténuer les biais des modèles d'intelligence artificielle (IA) en imagerie médicale. Ils présentent une sorte de feuille de route pour des pratiques plus...

13/06/2025 -

IA & Données

Des LLM affinés pour aider à la relecture des comptes rendus

Selon une nouvelle étude publiée dans la Revue Radiology, un grand modèle de langage (LLM) améliorerait sensiblement la détection des erreurs dans les comptes rendus de radiologie. Les chercheurs ont utilisé des comptes rendus synthétiques et des données ciblées pour donner au LLM de la légèreté.

23/05/2025 -

IA & Données

Agir sur la vulnérabilité des grands modèles de langage en radiologie

Dans un nouvel article spécial publié dans la Revue Radiology, des chercheurs abordent les défis de cybersécurité liés aux grands modèles de langage (LLM). Ils soulignent l'importance de mettre en œuvre des mesures de sécurité pour empêcher leur utilisation malveillante dans le système de Santé et m...

21/05/2025 -

IA & Données

Une feuille de route pour atténuer les biais de l'IA

Les biais diagnostiques créés par l’IA relèvent d’un manque d’informations démographiques incluent dans les données de santé. Dans un article publié dans la Revue Radiology, des chercheurs américains décrivent l’importance d’une définition homogène décrivant les groupes démographiques. Un travail qu...

20/05/2025 -

IA & Données

Essais sur une RAG pour améliorer les grands modèles de langages en radiologie

Pour renforcer les attributs des grands modèles de langage appliqués à la radiologie, la RAG, qui code les informations dans un espace vectoriel pour affiner les tâches des LLM basées sur la connaissance, semble pertinente. Dans une étude publiée dans la Revue Radiology : Artificial intelligence, de...

05/05/2025 -

IA & Données

Le lexique radiologique standardisé RadLex fête ses vingt ans

RadLex, un lexique radiologique complet développé par la Radiological Society of North America (RSNA) destiné à proposer un langage commun pour communiquer les résultats diagnostiques par les radiologues, célèbre son 20e anniversaire en 2025.

22/04/2025 -

S'INSCRIRE A LA NEWSLETTER

Inscription gratuite

FOCUS

07/07/2025

CORAIL, le collectif qui informe les radiologues sur les risques de la financiarisation de la spécialité

Les annonces faites en leur temps autour de la financiarisation de la radiologie semblent s’être calmées. Il n’empêche que la communauté doit rester vigilante afin de préserver les bonnes pratiques de...

AGENDA

LETTRE D'INFORMATION

Ne manquez aucune actualité en imagerie médicale et radiologie !

Inscrivez-vous à notre lettre d’information hebdomadaire pour recevoir les dernières actualités, agendas de congrès, et restez informé des avancées et innovations dans le domaine.