Des biais constatés dans les usages d'un modèle d'IA de fondation
LUNDI 09 OCTOBRE 2023
Un modèle d’IA de fondation pour la détection de pathologies sur des radiographies thoraciques a démontré des biais raciaux et sexuels conduisant à des performances inégales entre les sous-groupes de patients, selon une étude publiée dans la Revue Radiology: Artificial Intelligence. L’étude vise à mettre en évidence les risques potentiels liés à l’utilisation de ces modèles dans le développement de l’IA en imagerie médicale.

Dans le domaine de l’intelligence artificielle (IA), le modèle de fondation est défini par sa capacité à créer un grand modèle d’IA formé sur une grande quantité de donnée non taguées. On peut le trouver dénommé langage de grande taille ou IA générative.
Des modèles d’IA de fondation utilisés pour élargir les bases de données
En raison de la difficulté de collecter de grands volumes de données de formation de haute qualité, le domaine de l’IA de Santé s’est orienté vers l’utilisation de modèles de fondation de deep learning destinés à d’autres domaines d’étude. Ils ont été formés sur de grands ensembles de données qui gèrent des tâches allant de la traduction de texte à l'analyse d'images médicales.
« De nombreux travaux ont été consacrés au développement de modèles d'IA pour aider les médecins à détecter les maladies grâce aux examens médicaux, commente le Pr Ben Glocker, professeur de machine learning pour l'imagerie à l'Imperial College de Londres (Royaume-Uni). Il est assez difficile d’obtenir suffisamment de données à exploiter pour une maladie spécifique et représentatives de tous les groupes de patients.
Une étude compare un modèle de fondation et un modèle médical de référence
L’équipe de recherche du Pr Glocker a comparé, dans une étude publiée dans la Revue Radiology : Artificial Intelligence, les performances d’un modèle de fondation de radiographie thoracique récemment publié et d’un modèle de référence construit par son équipe en évaluant 127 118 radiographies thoraciques avec les tags diagnostiques associés. Le modèle de fondation pré-entraîné a été construit avec plus de 800 000 radiographies thoraciques réalisées en Inde et aux États-Unis.
« Malgré leur popularité croissante, nous savons peu de choses sur les biais potentiels des modèles de fondation qui pourraient affecter les utilisations en aval », poursuit le Pr Glocker. Les chercheurs ont effectué une analyse complète pour déterminer les performances des modèles pour chaque sous-groupe. Les 42 884 patients (âge moyen : 63 ans ; 23 623 hommes) du groupe d’étude comprenaient des patients asiatiques, noirs et blancs. L'analyse des biais a montré des différences significatives entre les caractéristiques liées à la détection de la maladie selon le sexe biologique et la race.
Des biais significatifs observés selon le sexe ou la race des patients
« Notre analyse des biais a montré que le modèle de fondation était systématiquement sous-performant par rapport au modèle de référence, annonce le Pr Glocker. Nous avons observé une baisse des performances de classification des maladies et des disparités spécifiques dans certains sous-groupes. » Des différences significatives ont été constatées entre les hommes et les femmes, les patients asiatiques et noirs dans les critères liés à la détection de la maladie. Par rapport à la performance moyenne du modèle dans tous les sous-groupes, la performance de classification sur le tag « aucun résultat » a chuté entre 6,8 % et 7,8 % pour les femmes, et la performance dans la détection d'un épanchement pleural a chuté entre 10,7 %. % et 11,6 % pour les patients noirs.
« La taille de l'ensemble de données ne garantit pas à elle seule un modèle meilleur ou plus juste, en déduit le Pr Glocker. Nous devons être très prudents dans la collecte de données afin de garantir la diversité et la représentativité. Pour minimiser le risque de biais associé à l’utilisation de modèles de fondation pour la prise de décision clinique, ces modèles doivent être entièrement accessibles et transparents. »
Le Pr Glocker est un défenseur d'une analyse complète des biais en tant que partie intégrante du développement et de l'audit des modèles de fondation. « L’IA est souvent considérée comme une boîte noire, mais ce n’est pas tout à fait vrai, ajoute-t-il. Nous pouvons ouvrir la boîte et inspecter les caractéristiques. L’inspection des modèles est un moyen de surveiller et de signaler en permanence les problèmes qui nécessitent un deuxième examen. Le travail ne commence pas par le modèle d’IA, mais par les données utilisées pour le construire. »
Bruno Benque avec RSNA