Limiter les volumes de données grâce au Supervised Contrastive Learning
MARDI 09 AOûT 2022
Dans un travail de recherche publiée récemment dans la Revue Radiology, des chercheurs de Google et Northwestern ont développé une méthode permettant de réduire les exigences de volumes de données à analyser dans les modèles de deep learning (DL) pour la radiographie pulmonaire. Ils ont mis au point pour cela une approche de DL avancé dénommé supervised contrastive learning (SupCon).

L’Intelligence Artificielle est désormais reconnue comme une discipline solide pour apporter une aide à la décision cliniques des radiologues. Mais le volume de données de Santé et et les ressources de calcul importantes que les modèles d’IA nécessitent pour en valider la pertinence représente un frein à son développement.
Le SupCon learning pour réduire les volumes de données nécessaires aux modèles de DL
Les contraintes au développement des modèles d’IA peuvent provenir, de plus, des changements rapides susceptibles d’intervenir dans les populations de patients, le COVID-19 étant ici un bon exemple. Une atténuation partielle de ces contraintes consiste en l'apprentissage par transfert, en créant un « réseau générique » sur un grand ensemble de données non médicales, puis en affinant un ensemble de données radiologiques spécifiques à une tâche.
Mais des chercheurs de Google et Northwestern ont travaillé récemment sur une approche permettant de limiter ces flux de données et ont publié leur travail dans la Revue Radiology. En développant le supervised contrastive (SupCon) learning pour l’analyse des radiographies de thorax, ils ont certainement fait passer une étape à la discipline. lls ont ainsi généré des « réseaux radio de thorax » à partir de 821 544 radiographies pulmonaires, puis utilisé ces réseaux comme point de départ pour le développement de modèles deep learning dédiés à 10 tâches de prédiction clinique (telles que l'opacité de l'espace aérien, les fractures, la tuberculose et les résultats COVID-19) à l'aide de 5 ensembles de données comprenant 684 955 radiographies pulmonaires venues d'Inde, des États-Unis et de Chine.
Des performances comparables au DL classique à partir de seulement 45 radiographies pulmonaires
"Notre méthode a permis des performances de prédiction comparables aux modèles DL de pointe dans de multiples tâches cliniques en utilisant aussi peu que 45 radiographies pulmonaires", ont précisé les auteurs.
En pratique, le SupCon learning a aidé à générer des réseaux de radiographies thoraciques à partir de 821 544 radiographies thoraciques qui ont été utilisés comme point de départ pour le développement d'un modèle de DL pour 10 tâches de prédiction en utilisant cinq ensembles de données. Trois configurations de développement de modèles ont été testées (classificateur linéaire, classificateur non linéaire et affinage global du réseau) avec différentes tailles d'ensembles de données allant de huit à 85.
Multiplier les modèles pour couvrir un nombre significatif de situations cliniques
Les chercheurs ont constaté que, dans la majorité des tâches, par rapport à l'apprentissage par transfert à partir d'un ensemble de données non médicales, SupCon a réduit les exigences d'étiquetage jusqu'à 688 fois et amélioré la zone AUC à des tailles d'ensemble de données correspondantes. Au régime de données extrêmement faible, la formation de petits modèles non linéaires en utilisant seulement 45 radiographies thoraciques a donné une ASC de 0,95 (non inférieure à la performance du radiologue) dans la classification de la tuberculose confirmée par la microbiologie. À un régime de données plus modéré, la formation de petits modèles non linéaires en utilisant seulement 528 radiographies thoraciques a donné une ASC de 0,75 pour prédire les résultats graves du COVID-19.
Cette étude montre que le SupCon a permis des performances comparables aux modèles de DL de pointe dans de multiples tâches cliniques en utilisant aussi peu que 45 images et de la considérer comme une méthode prometteuse pour la modélisation prédictive avec l'utilisation de petits ensembles de données ainsi que pour prédire les résultats dans les populations de patients changeantes. Il sera néanmoins nécessaire de multiplier les modèles afin que l’aide à la décision puisse couvrir un nombre significatif de situations cliniques.
Bruno Benque avec RSNA