Au cours des dernières années, la communauté scientifique a réalisé que différentes souches bactériennes peuvent avoir des rôles très différents dans un environnement. L’identification de ces souches et de leur génome a des impacts autant en recherche fondamentale qu’en santé humaine. Des chercheurs de l’Institut Pasteur ont mis au point une méthode afin d’identifier le génome de différentes souches au sein d’un même milieu.
Pour une même bactérie, on peut observer des souches sans danger voire bénéfique et d’autres souches délétères. Par exemple, Escherichia coli est une bactérie commensale, c’est-à-dire naturellement présente dans notre corps et généralement inoffensive, que l’on trouve dans la flore intestinale humaine. Cependant, certaines de ses souches peuvent être pathogènes ou cancérigènes pour l’humain. L’identification des souches pathogènes et non pathogènes est donc indispensable.
Difficile de différencier les souches de bactéries
Lorsqu’un génome est lu expérimentalement, on obtient souvent des fragments de génomes, qu’il faut ensuite remettre dans l’ordre : c’est la reconstruction. Grâce aux avancées des technologies de séquençage de l’ADN et des algorithmes qui s’occupent de leur traitement, nous pouvons reconstruire les génomes entiers de certaines bactéries présentes dans un milieu. L’ensemble de ces génomes est appelé métagénome. Au sein de ces génomes de populations bactériennes, il est extrêmement difficile, avec les algorithmes existants, de distinguer les souches d’une même espèce. Ces dernières ont souvent des séquences très proches et leurs différences peuvent être confondues avec le « bruit de fond » du séquençage. Les méthodes actuelles permettent uniquement reconstruire des génomes de bactéries qui gomment les différences entre les souches. Ces génomes sont dits « consensus ».
Strainberry, une nouvelle méthode qui permet de reconstruire le génome de différentes souches
Des chercheurs de l'Institut Pasteur ont développé Strainberry, une nouvelle méthode basée sur les toutes dernières technologies de séquençage et des algorithmes avancés. Cette méthode permet d’identifier et de reconstruire correctement les génomes de différentes souches dans un métagénome.
« Strainberry combine une reconstruction au niveau de l'espèce (et donc constituée par des séquences consensus) avec une réutilisation opportune d’algorithmes récemment développés pour la génomique humaine. Strainberry a été validé avec des métagénomes artificiels pour lesquels les résultats sont connus. Strainberry a aussi été évalué sur des données réelles de métagénomes où il a reconstruit 20-118% de matériel génomique additionnel (selon l'échantillon et la reconstruction en amont) par rapport aux approches existantes », explique Riccardo Vicedomini, post-doctorant à l’origine de cette méthode dans le groupe Algorithmes pour les séquences biologiques, dirigé par Rayan Chikhi à l’Institut Pasteur.
Cette méthode a permis de révéler la présence de plusieurs souches qui n'avaient pas été caractérisées précédemment. Ce travail est un premier pas vers une caractérisation de plus en plus précise des métagénomes, certains pouvant être d’une très grande complexité et contenir des milliers de souches différentes, qui nécessitera l’élaboration de nouveaux algorithmes.
Ce travail a été réalisé en collaboration avec Christopher Quince du Earlharm Institute et Aaron Darling de l'Université de technologie de Sydney.
Source
Automated strain separation in low-complexity metagenomes using long reads, Nature communication, 23 juillet 2021
R. Vicedomini1, C. Quince2,3,4, A. E. Darling5, R. Chikhi1
1Sequence Bioinformatics, Department of Computational Biology, Institut Pasteur, Paris, France
2 Organisms and Ecosystems, Earlham Institute, Norwich, United Kingdom
3 Gut Microbes and Health, Quadram Institute, Norwich, United Kingdom
4 Warwick Medical School, University of Warwick, Coventry, United Kingdom
5 The iThree Institute, University of Technology Sydney, Ultimo, Australia