La communauté scientifique dispose désormais du premier navigateur web donnant à des utilisateurs non spécialisés en bio-informatique la possibilité d’interroger de grandes quantités de données de génomique fonctionnelle. L’outil QC Genomics est le fruit des recherches de Marco Antonio Mendoza-Parra, responsable au sein de l’unité de Génomique métabolique (laboratoire Genoscope - CEA/CNRS/Université d’Évry) d’une nouvelle équipe de recherche créée grâce au dispositif ATIGE de Genopole (Action thématique incitative de Genopole).

Dans le cadre du Plan Cancer 2009-2013, Marco Mendoza a développé à l’Institut de Génétique et de Biologie Moléculaire et Cellulaire (IGBMC) de Strasbourg, un système de contrôle qualité des données de génomique fonctionnelle (Mendoza-Parra et al. NAR 2013). Depuis, la méthode lui a permis de qualifier plus de 82 000 sources de données publiques, correspondant à plus de 70% des essais dits de « ChIP-sequencing1 » générés dans le monde entier. Est née ainsi la base de données NGS-QC database, aujourd’hui hébergée à Genopole.

Six ans après, le chercheur a développé QC Genomics. Cette plateforme bio-informatique d’accès public explore, identifie, visualise, compare les données générées par les chercheurs, sans avoir besoin de les collecter, ni de les retraiter. Sa conception fait l’objet d’une publication dans la revue Life Science Alliance du 9 décembre 2019.

Plateforme QC Genomics
Interface d’accueil

La génomique devient une science numérique

Le grand programme de séquençage du génome humain, abouti en 2003, avait pour ambition de comprendre le fonctionnement de notre organisme à partir de l’information cryptée dans notre ADN. Presque vingt ans après, la communauté scientifique n’a pas encore élucidé la question car au-delà du seul génome, le vivant est le résultat d’une panoplie de façons d’exprimer le message porté par l’ADN.

Le séquençage à haut débit de l’ADN transforme l’étude du vivant en une science numérique. Des quantités gigantesques de données sont issues des séquences, mais aussi surtout de l’expression des génomes : ces études génèrent des informations multiples relatives à la transcription du message génétique (méthodes RNA-seq), aux marques épigénétiques du génome (méthylation de l’ADN, modifications des protéines liées à l’ADN), aux interactions ADN-protéines participant à l’expression des gènes (méthodes ChIP-seq) ou encore à l’organisation spatiale des filaments d’ADN (Méthodes High Chromosome Contact map (Hi-C) et dérivés). Toutes ces données sont produites à partir de systèmes cellulaires et tissus divers. Elles concernent également différentes situations physiologiques, voire pathologiques. Autant de critères qui multiplient le nombre d’informations.

Des bases de données telles que GEO (Gene expression Omnibus) représentent actuellement plus de 3.6 pétabases (1015) de données de séquençage dont plus de 250 000 échantillons d’origine humaine. Les données continuent de s’accumuler de façon exponentielle, notamment avec l’arrivée des études à l’échelle de la cellule unique, qui s’appliquent à raffiner notre compréhension des systèmes tissulaires, de la complexité des tumeurs cancéreuses, des maladies infectieuses... Les estimations les plus conservatrices estiment que l’échelle de l’exabase (1018) sera atteinte dans la prochaine décennie (Stephens et al., PLOS Biology 2015).

QC Genomics : un accès direct à des données génomiques qualifiées

Plateforme de séquençage de Genoscope
© Christophe Hargoues/Genopole

Ainsi le challenge de notre siècle n’est plus celui de générer de nouvelles données (car d’après les estimations d’Illumina, 4000 gigabases peuvent être séquencées en une heure) mais plutôt de développer des approches analytiques dédiées à l’exploitation de ces larges collections de données. A l’heure actuelle, interroger leur contenu de façon extensive nécessite une expertise en biologie computationnelle ainsi que des ressources informatiques importantes, disponibles dans les grands centres de recherche mais rarement dans les laboratoires de plus petite taille. La plateforme QC Genomics développée par Marco Mendoza permet de traiter les données publiques dans des conditions standardisées et apporte un éclairage avisé sur leur qualité, afin d’éviter des biais et/ou interprétations incorrectes.

Vers des outils performants au service d’applications majeures comme la médecine de précision


Ce développement est une première étape dans l’intégration de données massives nécessaire à la compréhension de la régulation de l’expression du génome. Les approches d’intelligence artificielle vont épauler ces efforts.

« QC Genomics pourrait correspondre à un « Netscape Navigator 2 » des années 1990, montrant le chemin à suivre pour les années à venir : celui de développer des plates-formes performantes d’accès aux données auxquels nous contribuons tous, mais que nous avons peine à interroger de façon exhaustive compte tenu de la technicité que cela nécessite » précise Marco Mendoza, avant de conclure : « l’intégration des données publiques contribuera à mettre en œuvre une médecine de précision, en comparant les données des patients avec les collections ».

1 ChIP-sequencing (ChIP-seq) : méthode combinant l’immunoprécipitation et le séquençage à haut débit pour identifier dans les séquences d’ADN des régions qui interagissent avec des protéines.

2 Netscape Navigator était un navigateur web qui a dominé le marché au milieu des années 1990. Il a régressé face à la concurrence d’Internet Explorer, plus récemment détrôné avec l’arrivée de « google ».

Références :
- A comprehensive resource for retrieving, visualizing and integrating functional genomics data, Life Science Alliance, 2019.
doi : 10.26508/lsa.201900546

- A quality control system for profiles obtained by ChIP sequencing, Nucleic Acids Res., 2013.
doi.org/10.1093/nar/gkt829

- Plus d’informations sur l’équipe de recherche SysFate de Marco Antonio Mendoza

#Bio-informatique #Génomique #Laboratoires