Assembler plusieurs modèles de machine learning pour affiner les résultats
MERCREDI 27 NOVEMBRE 2019
La combinaison de plusieurs modèles de machine learning peut s’apparenter à une interprétation avec plusieurs avis de radiologues. Une étude publiée dans la Revue Radiology : Intelligence Artificielle décrit des résultats en ce sens. Un chalenge sur les hémorragies cérébrales explorées par scanner sera organisé au RSNA 2019.

L'apprentissage ensembliste est une méthode de machine learning dans laquelle différents modèles conçus pour accomplir la même tâche sont combinés en un seul modèle.
Faire coopérer des modèles de machine learning différents
L'hétérogénéité de ces modèles est souvent importante et les ensembles ont tendance à donner de meilleurs résultats lorsque la corrélation entre les prédictions de chacun des modèles individuels est relativement faible. Ainsi, plus les différences sous-jacentes d'approche sont importantes, plus l’efficacité de l’ensemble est satisfaite.
Dans ce cadre, un concours dans lequel les candidats sont invités à soumettre leurs meilleurs modèles constitue un moment idéal pour rassembler des modèles performants utilisant différentes techniques. « Les compétitions offrent une occasion unique d’étudier les effets de la combinaison de prédictions issues de modèles hétérogènes », a déclaré Ian Pan, étudiant en médecine à la Warren Alpert Medical School de la Brown University, à Providence, en Irlande du Nord et auteur d’une étude dans la Revue Radiology : Artificial Intelligence.
Un challenge pour l’étude de l’âge osseux utilisant plus de 12 000 radiographies
Pour étudier les améliorations de performance possibles pour l'estimation automatique de l'âge osseux grâce à l’intégration de plusieurs modèles, Pan et ses collègues ont utilisé 48 modèles provenant du 2017 RSNA Pediatric Bone Age Machine Learning Challenge. Les participants ont reçu 12 611 radiographies pédiatriques des mains avec un âge osseux déterminé par un radiologue pédiatrique afin de développer des modèles pour la détermination de l'âge osseux.
Les résultats finaux ont été déterminés en utilisant un ensemble de 200 radiographies étiquetées avec la moyenne pondérée de 6 évaluations. Les chercheurs ont évalué la corrélation et la performance moyennes des modèles par paires de toutes les combinaisons de modèles possibles en utilisant l'écart absolu moyen (MAD).
Des combinaisons que l’on peut assimiler à des interprétations utilisant plusieurs avis
Le MAD estimé d'un modèle unique était de 4,55 mois. Le meilleur ensemble était composé de quatre modèles avec un MAD de 3,79 mois. La corrélation moyenne par paire des modèles au sein de cet ensemble était de 0,47. En comparaison, le MAD le plus bas possible en combinant les modèles les mieux classés basés sur des scores individuels était de 3,93 mois avec huit modèles présentant une corrélation moyenne de 0,67 par modèle.
« Nos résultats attirent l'attention sur un concept qui a des implications pratiques substantielles, alors que les algorithmes de machine learning commencent à passer de la recherche à l'environnement clinique, poursuit Ian Pan. À savoir que les meilleurs résultats sont susceptibles d’être obtenus en combinant plusieurs modèles précis et divers plutôt qu’à partir de modèles uniques. » Ainsi, les praticiens souhaitant incorporer des algorithmes de machine learning à leur flux de travail gagneraient à utiliser différents modèles, ce que l’on peut assimiler à une interprétation radiologique utilisant plusieurs avis.
Un nouveau challenge sur les hémorragies cérébrales au RSNA 2019
Ian Pan a ajouté que les résultats soulignent également l'importance de compétitions ouvertes, telles que le 2017 RSNA Pediatric Bone Age Machine Learning Challenge, car elles expérimentent des cas d'utilisation normalisé et une méthode d'évaluation objective appliquée de la même manière à tous les modèles. « Les concours de machine learning en radiologie devraient promouvoir le développement de modèles hétérogènes dont les prévisions peuvent être combinées pour obtenir des performances optimales », conclut-il.
Pour le 2019 RSNA Intracranial Hemorrhage Detection and Classification Challenge, les chercheurs ont travaillé au développement d'algorithmes permettant d'identifier et de classifier les sous-types d'hémorragies sur scanners cérébraux. L'ensemble de données, qui comprend plus de 25 000 examens fournis par plusieurs instituts de recherche, est le premier ensemble de données multiplanaires utilisé dans le cadre d'un challenge d'intelligence artificielle au RSNA.
Bruno Benque avec RSNA