Des modèles pertinents de deep learning pour la radiographie thoracique
MARDI 03 DéCEMBRE 2019
Selon une étude publiée dans la revue Radiology, le deep learning peut détecter des résultats de radiographie thoracique cliniquement significatifs aussi efficacement que des radiologues expérimentés. Les chercheurs rapportent que leurs résultats pourraient constituer une ressource précieuse pour le développement futur de modèles d’intelligence artificielle pour la radiographie thoracique.

La radiographie thoracique a, depuis longtemps atteint ses limites en termes de diagnostic, notamment depuis la généralisation du scanner. Il n’empêche que cet examen a toujours son utilité et reste celui qui est le plus pratiqué dans le monde.
Des modèles combinant des données du Royaume-Uni et d’Inde
« Nous avons constaté que l’interprétation des radiographies du thorax est très subjective, a déclaré Shravya Shetty, responsable de l’ingénierie chez Google Health à Palo Alto, en Californie et co-auteur d’une étude publiée dans la Revue Radiology. Une variabilité significative entre les lecteurs et une sensibilité non optimale pour la détection de résultats cliniques importants peuvent limiter son efficacité. » Le deep learning a le potentiel d'améliorer l'interprétation des radiographies du thorax, mais il a aussi des limites. Par exemple, les résultats obtenus d'un groupe de patients ne peuvent pas toujours être généralisés à la population en général.
Les chercheurs de Google Health ont développé des modèles de deep learning dans ce cadre, permettant de surmonter certaines de ces limitations. Ils ont utilisé deux grands ensembles de données pour développer, former et tester les modèles. Le premier ensemble de données comprenait plus de 750 000 images provenant de cinq hôpitaux en Inde, tandis que le second ensemble comprenait 112 120 images mises à la disposition du public par le National Institutes of Health (NIH).
Des résultats identiques aux radiologues pour certaines images significatives
Un groupe de radiologues s'est réuni pour créer les annotations d’images pour certaines anomalies visibles sur les radiographies thoraciques utilisées pour former les modèles. « L'interprétation des radiographies thoraciques est souvent une évaluation qualitative, ce qui pose problème du point de vue du deep learning, poursuit Daniel Tse, chef de produit chez Google Health. En utilisant un champ plus large et plus diversifié de données de radiographie thoracique et en les évaluant par panel, nous avons pu produire des modèles plus fiables. »
Les tests des modèles de deep learning ont montré que leurs résultats étaient comparables à ceux des radiologues en détectant quatre types d’images significatives sur les radiographies thoraciques de face : fractures, nodules ou masses, opacités et pneumothorax. L’évaluation des radiologues a conduit à un consensus plus évolué des experts sur les annotations utilisées pour le paramétrage du modèle et sur l'évaluation de la performance. Le consensus global est passé d’un peu plus de 41% après la lecture initiale à plus de 97% après l’utilisation de la nouvelle cohorte.
Développer des modèles d'intelligence artificielle cliniquement utiles pour la radiographie thoracique
Les techniques d'évaluation de modèle rigoureuses présentent des avantages par rapport aux méthodes existantes, ont déclaré les chercheurs. Tout d’abord parce qu’elles mettent en jeu un vaste ensemble d'images cliniques en milieu hospitalier, par l’échantillonnage d’un ensemble divers de cas ensuite, et enfin parce que des métriques ajustées en fonction de la population donnent des résultats plus représentatifs et comparables. « Nous pensons que l'échantillonnage de données utilisé dans ce travail permet de représenter plus précisément l'incidence de ces affections, a déclaré le Dr Tse. À l'avenir, le deep learning peut constituer une ressource utile pour faciliter le développement continu de modèles d'intelligence artificielle cliniquement utiles pour la radiographie thoracique. »
L’équipe de recherche a mis à la disposition des chercheurs les étiquettes d’évaluation des milliers d’images du NIH à l’adresse suivante: https://cloud.google.com/healthcare/docs/resources/public-datasets/nih-chest#. additional_labels. « La base de données du NIH est une ressource très importante, mais les étiquettes actuelles sont bruyantes, ce qui rend difficile l'interprétation des résultats publiés sur ces données, a déclaré Shetty. Nous espérons que la publication de nos étiquettes contribuera à la poursuite des recherches dans ce domaine. »
Bruno Benque avec RSNA