Des chercheurs de l'Institut Pasteur et du Massachusetts Institute of Technology (MIT) ont mis au point une technique de reconstruction rapide de génomes entiers, pouvant s’appliquer par exemple au génome humain. S’inspirant du traitement automatique des langues, qui permet d’agencer des mots plutôt que des lettres, les chercheurs ont entrepris de représenter les données génomiques par des blocs de lettres. Cette méthode leur a permis de reconstruire un génome humain en un temps record, et avec des moyens informatiques considérablement réduits : la reconstruction est cent fois plus rapide et ne nécessite qu’un cinquième des ressources génomiques actuelles, comparée aux approches d’assemblage existantes, pourtant de pointe. L’étude a été publiée le 14 septembre dans la revue Cell Systems.
Des étapes cruciales ont été franchies, depuis la publication en 2003 du premier génome humain complet, fruit d’une collaboration internationale. Pourtant, l’assemblage du génome humain nécessite encore aujourd’hui plusieurs jours de traitement et une puissance informatique considérable. Les technologies de séquençage de troisième génération permettent un séquençage de haute qualité et produisent des téraoctets de séquences génomiques, chacune comportant des dizaines de milliers de paires de bases. L'assemblage du génome à partir de données massives reste une tâche difficile, du fait de comparaisons de séquences par paires, à mener parmi une multitude de combinaisons possibles.
S’inspirant du traitement automatique de la langue naturelle, des chercheurs de l’Institut Pasteur et du Massachusetts Institute of Technology (MIT) ont utilisé la théorie des graphes pour développer un nouveau logiciel de traitement, appelé « minimizer-space de Bruijn graph (mdBG) », incorporant des courtes séquences nucléotidiques, appelées « minimiseurs », plutôt que des nucléotides uniques.
Ce logiciel a ensuite été utilisé pour assembler des données brutes : l’application s’est faite d’abord sur les séquences génomiques de drosophiles Drosophila melanogaster, puis sur le génome humain. Les génomes ainsi obtenus ont été produits en un temps record (10 minutes au lieu de plus de 24h) avec une économie d’énergie considérable. Le mdBG nécessite en effet environ 33 fois moins de temps et 8 fois moins de mémoire vive (RAM), comparé aux autres assembleurs de génomes.
« Il a été possible d’assembler rapidement des génomes et métagénomes entiers, de haute qualité, et pour la première fois sans devoir recourir à des ordinateurs puissants », explique Rayan Chikhi, responsable de l’unité Algorithmes pour les séquences biologiques à l'Institut Pasteur et co-auteur de l’étude.
« Cette innovation est cruciale pour estimer par exemple les modifications du microbiote intestinal, dans un contexte pathologique et/ou lié aux infections bactériennes, telle que la septicémie. Surtout, elle permet de traiter plus rapidement et in fine de sauver des vies » continue Bonnie Berger, professeur de mathématiques au Computer Science et AI Lab du MIT et co-auteure de ces travaux.
En appliquant le mdBG à l’analyse de plus de 600 000 génomes bactériens (issus d’une collection compilée par l’European Bioinformatics Institute), les chercheurs ont en effet pu identifier en 13 minutes tous les gènes de résistance aux antimicrobiens de ces bactéries, un processus qui prenait jusqu’alors 7 heures par requête, via l’alignement standard des séquences.
Grâce à cette technologie, les chercheurs vont maintenant pouvoir séquencer des génomes de manières plus efficace et plus rapide, en utilisant du matériel informatique accessible (ordinateur portable). Le logiciel est disponible en open-source et partagé à l’ensemble de la communauté scientifique.
Ce travail a été soutenu par les National Institutes of Health, ANR Inception, PRAIRIE et PANGAIA.
Source
Minimizer-space de Bruijn graphs: Whole-genome assembly of long reads in minutes on a personal computer, Cell Systems, 14 septembre 2021
Baris Ekim (1,2), Bonnie Berger (1,2) and Rayan Chikhi (3,4)
1 Computer Science and Artificial Intelligence Laboratory (CSAIL), Massachusetts Institute of Technology (MIT), Cambridge, MA 02139, USA
2 Department of Mathematics, Massachusetts Institute of Technology (MIT), Cambridge, MA 02139, USA
3 Department of Computational Biology, Institut Pasteur, Paris 75015, France