Intelligence artificielle et Cancer
Emmanuelle KEMPF
AP-HP, Mission Intelligence Artificielle et Cancer ; Université Paris Est Créteil, AP-HP, Département d'oncologie médica...
Laure FOURNIER
Assistance Publique-Hôpitaux de Paris, Mission Intelligence Artificielle et Cancer ; Université Paris Cité, AP-HP, Hôpit...
Catherine GUETTIER
Assistance Publique-Hôpitaux de Paris, Mission Intelligence Artificielle et Cancer ; Université Paris Saclay, Assistance...

Rôle de l'Intelligence Artificielle en cancérologie : le présent et le futur Le cancer entraîne chaque année environ 10 millions de décès dans le monde, à l'origine d'une mort sur six, et ce nombre est amené à croître significativement dans le futur[1,2]. Enjeu majeur de santé publique, l'oncologie représente une spécialité médicale prometteuse pour le développement et l'application de techniques d'intelligence artificielle (IA). L'IA créée dans les années 1950 connaît depuis une quinzaine d'années un nouvel essor qui s'appuie sur l'amélioration sans précédent des puissances de calcul des cartes graphiques (GPUs). Ainsi, l'apprentissage machine (machine learning) permet d'entraîner des modèles à effectuer des tâches de classification et de clustering automatiques, à partir de la confrontation à des données de masse de grandes dimensions (big data). Chaque étape du parcours de soins d'un patient atteint de cancer est potentiellement concernée par les solutions IA développées et à venir. Concernant le dépistage du cancer, les solutions IA embarquées sur les techniques d'imagerie médicale standard ont l'ambition de prédire le risque individuel de développement ultérieur d'un cancer bronchique, ou d'identifier les lésions suspectes de néoplasie[3,4]. Appliquée à la pratique de la coloscopie, l'IA permettrait, par exemple, d'améliorer la détection d'adénomes[5]. L'aide à l'interprétation des lames virtuelles d'anatomopathologie est un champ en plein développement, ainsi que celui de l'identification des données omics[6]. La finesse de phénotypage de données de grande dimension permise par l'IA permettrait d'améliorer l'identification des voies de signalisation tumorale à inhiber par thérapies ciblées[7]. Similairement, le phénotypage des cancers dits de primitif indéterminé serait précisé dans plus d'une moitié de cas à partir des données de séquençage, avec un impact favorable sur le choix de la thérapie anti-tumorale[8,9]. Parmi les limites actuelles, le manque d'explicabilité des modèles d'apprentissage profond (deep learning) désigné par l'expression « black box » représente un frein à l'intégration des solutions IA dans la démarche soignante, tant en raison de la peur des soignants que de celle des patients. Sont également à prendre en compte la relative dépendance des modèles par rapport aux spécificités des données d'entraînement (« dilemme biais-variance ») et leur manque de transposabilité entre différentes bases de données, pour des raisons de manque d'interopérabilité. Les données cliniques de ces bases sont, enfin, majoritairement stockées sous format textuel non structuré, rendant leur exploitation non immédiate. Le traitement automatique du langage naturel (natural language processing) est une discipline de l'IA qui permet d'extraire automatiquement des données textuelles d'intérêt, et ainsi enrichir la caractérisation automatique des patients atteints de cancer concernant, par exemple, leur état général, l'état de dissémination de leur cancer, les toxicités présentées lors de l'administration de traitements, etc. Une application prometteuse réside dans l'identification automatique des patients éligibles à l'inclusion dans des essais cliniques[10]. Enfin, un défi posé par l'IA concerne la protection des données sensibles de santé. Entraînés, et donc façonnés, par des données de santé des patients de vie réelle, la structure interne des modèles permet ainsi un accès direct à la reconstitution des caractéristiques spécifiques des patients, laissant accès à une possible ré-identification personnelle, ce qui constitue une infraction majeure aux cadres légaux internationaux de protection de la vie privée[11]. Dans ce contexte, la Filière Intelligence Artificielle et Cancers (FIAC) est développée depuis 2021 entre l'INCa et l'industrie pharmaceutique, avec l'appui du Health Data Hub, afin de favoriser les programmes de soins et de recherche clinique en oncologie s'appuyant sur les outils IA. La plateforme indépendante de données en cancérologie de l'INCa initiée en 2010 a, entre autres, pour objectif d'améliorer les politiques de santé publique dédiées à la cancérologie, à partir notamment des données issues du Système national des données de santé (SNDS), et du chainage avec des registres et biothèques.
Imagerie et Intelligence Artificielle en cancérologie (LF) En imagerie médicale, l'informatique et les algorithmes sont prégnants, que ce soit pour la génération, l'affichage ou l'analyse des images, et la rédaction de comptes-rendus. La détection ou le diagnostic assisté par ordinateur (Computer-aided Detection or Diagnosis, CAD) s'est beaucoup développé au début des années 2000, en particulier dans les domaines de la détection d'anomalies sur les mammographies, de nodules pulmonaires en scanner thoracique et de lésions polypoïdes en coloscopie virtuelle. Leur utilisation a cependant été limitée par leurs performances qui ont plafonné autour de 80-85 %[12], ce qui n'avait pas suffisamment de valeur ajoutée par rapport à la lecture des radiologues. Ces techniques ont bénéficié d'un grand saut en performance avec le développement des réseaux de neurones dans le monde de l'image naturelle[13], qui s'est translaté dans le monde de l'image médicale. Quatre domaines d'application de l'intelligence artificielle peuvent être identifiés en imagerie médicale : le débruitage et reconstruction d'images, la segmentation, la détection et classification, et la quantification. Des algorithmes de débruitage et de reconstruction d'images utilisant des algorithmes d'apprentissage profond sont d'ores et déjà vendus sur les appareils de radiographie, échographie, scanners et IRM. Le principe est d'apprendre à l'algorithme à reconstruire une image à haute résolution à partir d'une image bruitée et/ou sous-échantillonnée[14]. Ceci permet d'en améliorer la qualité (par exemple les radiographies pulmonaires au lit), de baisser les doses de rayons X ou de produit de contraste injecté, d'accélérer l'acquisition en IRM. La segmentation (délimitation d'un organe/tissu/lésion d'intérêt) est une autre tâche pour laquelle les algorithmes basés sur l'apprentissage profond sont supérieurs aux méthodes traditionnelles de traitement d'images[15]. L'application à la segmentation automatique des organes pour la planification en radiothérapie est directe. On peut également imaginer en cancérologie la segmentation automatique de l'emphysème pulmonaire, du volume du parenchyme rénal, de la perte de masse musculaire (sarcopénie), des calcifications coronariennes, de l'ostéoporose à partir d'un scanner de routine de suivi, permettant ainsi de quantifier les complications, comorbidités ou facteurs de risque des patients atteints de cancer. L'ensemble de l'information contenue dans l'image serait exploitée, offrant ainsi un bilan dit « holistique » du patient, permettant sa prise en charge au-delà de la pathologie oncologique elle-même[16]. Les algorithmes de reconnaissance d'images peuvent être appliqués aux images médicales pour effectuer trois types de tâches[17] : la détection (y a-t-il une lésion dans une image ?), la classification (cette lésion est-elle normale / anormale, ou bénigne / maligne ?), la localisation (où se trouve la lésion dans l'image ?). Ces tâches peuvent être combinées, par exemple dans un logiciel CAD (Computer Aided Diagnosis) mammographique où les lésions sont détectées, classées avec un pourcentage de chance d'être cancéreuses et localisées avec un marqueur sur l'image, pour ensuite être validées ou invalidées par le radiologue. Les applications concernent le dépistage en premier lieu, pour le cancer du sein et du poumon, et les outils cliniques sont d'ores et déjà disponibles en routine. Enfin, la radiomique est une nouvelle approche « guidée par les données » (data-driven) qui permet d'extraire un grand nombre de descripteurs complexes quantifiant l'information contenue dans les images médicales. L'intelligence artificielle peut être utilisée dans ce cadre pour extraire, quantifier les éléments de l'image, mais aussi construire les modèles identifiant les éléments de l'image associés à un diagnostic, un stade tumoral, un sous-typage moléculaire et génomique, un pronostic ou la prédiction de la réponse au traitement[18]. On pourra également citer le rôle potentiel de l'intelligence artificielle en dehors de l'analyse directe de l'image[19], par exemple pour des outils d'aide à la programmation d'examens, la rédaction des comptes-rendus, la transmission automatique aux correspondants lors de découverte d'une anomalie grave, ou les développements en robotique en radiologie interventionnelle[20].
Anatomie Pathologique et Intelligence Artificielle en cancérologie L'intelligence Artificielle (IA) est une révolution en Santé par sa capacité à traiter de larges volumes de données multisource. Elle est devenue applicable à l'Anatomie et Cytologie Pathologique (ACP) grâce à la numérisation des lames de verre qui sont le support du diagnostic pathologique. La pathologie est en effet en profonde mutation comme l'a été la radiologie il y a quelques années car il est désormais possible de numériser à fort grossissement le contenu visuel des lames de verre et de les transformer en lames numériques. Les lames numériques sont analysées par le pathologiste sur un écran d'ordinateur avec une très haute résolution via un « viewer » qui offre toutes les fonctions de déplacement et de grandissement d'un microscope et permet d'effectuer des mesures et des annotations. Le taux de pénétration de la numérisation en France reste faible ; on estime que seulement 10% à 15% des structures ACP ont basculé en numérique mais les verrous financiers et technologiques (stockage/archivage des lames numériques qui « pèsent » 1 à 2 Go/lame, adéquation des réseaux) sont en train d'être levés. Une des perspectives majeures de cette « numérisation » de la pathologie est l'analyse des lames numériques par des approches d'intelligence artificielle essentiellement par une méthodologie de deep-learning basée sur des réseaux de neurones, qui va permettre d'automatiser certaines analyses en apportant une aide au pathologiste et aussi d'extraire des informations qui ne sont pas accessibles à l'œil humain[21]. Cette évolution conduit à la construction d'algorithmes d'aide au diagnostic et d'algorithmes prédictifs. Les algorithmes prédictifs du profil moléculaire de la tumeur, du risque de récidive tumorale post-chirurgie ou de la probabilité de réponse à telle ou telle thérapie ciblée, vont très probablement booster l'impact de la pathologie sur la prise en charge des patients atteints de cancer et dans certains cas pourraient remplacer des analyses moléculaires coûteuses. L'irruption de l'IA en pathologie n'en est qu'à ses débuts : des premiers algorithmes d'IA marqués CE-IVD ou encore très rarement CE-IVD R et/ou FDA sont disponibles sur le marché et commencent à être utilisés en pratique courante pour l'instant, sans intégration complète dans le workflow de pathologie numérique. Leur implémentation se heurte d'une part à la faible pénétration de la pathologie numérique d'autre part à des aspects réglementaires et financiers avec un modèle économique qui n'est pas encore établi. Une trentaine d'algorithmes d'IA sont disponibles en pathologie versus environ 300 en radiologie. La plupart de ces algorithmes sont des algorithmes d'aide au diagnostic et concernent le screening des foyers de cancer sur les biopsies de prostate et leur grading, le screening des foyers de cancer sur les biopsies mammaires et les biopsies gastriques, la détection des métastases ganglionnaires, la quantification des biomarqueurs (RO, RP, Ki67 et Her2) dans le cancer du sein et PD-L1. Certains de ces algorithmes, appliqués par exemple aux biopsies de prostate tendent à proposer tous les items nécessaires à l'élaboration d'un compte-rendu anatomopathologique complet. Des algorithmes de détection automatique des mitoses vont être proposés très prochainement. Les algorithmes prédictifs fournissent des informations supplémentaires à celles accessibles au pathologiste. Certains sont prédictifs du statut moléculaire des tumeurs par exemple du statut MSI pour les adénocarcinomes digestifs à partir d'une simple lame d'histologie standard[22,23]. D'autres qui vont arriver prochainement sur le marché permettent d'identifier avec une forte probabilité l'origine d'une métastase de primitif inconnu et entrent en concurrence avec les modèles basés sur les données génomiques et transcriptomiques de ces tumeurs[24]. Parmi les algorithmes prédictifs, les plus remarquables sont probablement ceux qui permettent de prédire l'évolution du cancer à partir d'une simple lame numérique de la tumeur : certains prédisent le risque de récidive post-chirurgie dans les cancers du sein ou la survie dans le cancer colorectal de stade II. Les algorithmes prédictifs du risque de récidive du cancer du sein après chirurgie chez les patientes RH+ HER2- sont déjà disponibles ou vont l'être dans les mois qui viennent. Ils fourniront aux oncologues une information très importante pour décider de l'indication ou non d'une chimiothérapie complémentaire. Cette information est actuellement obtenue par des signatures génomiques coûteuses, là où l'IA ne nécessite qu'une simple lame HES de la tumeur mammaire[25]. Le délai entre les publications montrant des résultats convaincants et la disponibilité d'un algorithme pour l'usage en routine est long. Les industriels rencontrent fréquemment des difficultés de généralisation de leurs algorithmes au cours du processus de validation clinique en lien avec la variabilité de coloration des lames provenant de différents laboratoires, la diversité des formats de lames numériques issues de scanners de marques différentes, les caractéristiques tumorales propres aux différentes régions du monde (Asie/Europe)[26]. Cette phase de validation est indispensable pour assurer la robustesse des algorithmes. Par ailleurs, les étapes réglementaires sont longues, environ 18 mois pour le marquage CE-IVDR d'un algorithme. Néanmoins, les résultats des algorithmes disponibles sont déjà très encourageants, avec un gain de temps médical et une amélioration de la précision diagnostique. À titre d'exemple, le recours à l'IA pour l'analyse des biopsies de prostate permet un temps moyen de lecture d'une lame de 37 versus 56 secondes[27]. Ce gain de temps est précieux dans une période de pénurie de médecins pathologistes. Les performances diagnostiques des algorithmes d'IA sont excellentes pour différencier lésion bénigne et cancer avec une sensibilité et une spécificité de de 98,46% / 97,33% pour l'un des algorithmes Prostate disponibles sur le marché[28]. Il importe de préciser qu'en pratique courante, les analyses issues des algorithmes d'aide au diagnostic sont soumises à la validation du pathologiste. La voie de l'IA en pathologie oncologique est donc largement ouverte mais il reste encore du chemin à parcourir avant un usage réel dans la prise en charge des patients. La première étape de ce chemin est la diffusion de la pathologie numérique au sein des structures ACP. Le deuxième élément essentiel est la capacité des industriels et des start-up à construire des algorithmes robustes et interopérables. Actuellement, la production de lames numériques dispersée au sein de structures ACP encore peu nombreuses et le poids des contraintes réglementaires en vigueur rendent difficile pour les entreprises et start-ups françaises spécialisées dans ce domaine l'accès aux données nécessaires (milliers ou millions de lames) pour le développement et la validation de leurs algorithmes. Si l'on veut résumer la situation, l'étape actuelle concerne les diagnostics d'aide au diagnostic, l'étape suivante sera celle des algorithmes prédictifs et la dernière étape celles des algorithmes intégrant des données multisources pour une médecine réellement personnalisée[29].