L’Institut Pasteur est à la pointe de la biologie computationnelle. Des chercheurs de l’unité de Bioinformatique évolutive (faisant partie de l'USR 3756 - Institut Pasteur et CNRS) viennent de mettre au point le programme PastML. Cet outil, développé à partir de concepts de la théorie de la décision, reconstruit des « scénarios ancestraux » qui décrivent l’évolution de traits ou caractères le long d’arbres phylogénétiques. Ces caractères peuvent être très variés et représenter la morphologie des espèces étudiés, des propriétés biochimiques de protéines issues d’une même protéine ancestrale, l’origine géographique d’une épidémie et sa diffusion à travers le monde, ou encore l’apparition et la diffusion de résistances aux traitements. En quelques minutes, PastML analyse d’immenses quantités de données et met en avant les hypothèses les plus probables, de façon précise et robuste. PastML est à la disposition de la communauté scientifique internationale, comme le sont Phylogeny.fr depuis 2008 et maintenant NGPhylogeny.fr, sa nouvelle version entièrement rebâtie en 2019 par les mêmes équipes.
La reconstitution de scénarios ancestraux est largement utilisée par les scientifiques pour étudier l’évolution des caractères le long d’arbres phylogénétiques. « C’est le cas, par exemple, des caractères morphologiques, géographiques, écologiques ou moléculaires, pour lesquels on dispose de grandes quantités de données, notamment grâce aux techniques de séquençage », précise Olivier Gascuel, responsable du département de Biologie computationnelle de l’Institut Pasteur. Ces reconstructions trouvent des applications privilégiées sur les pathogènes, en permettant de remonter dans le temps et d’étudier les séquences ancestrales à l’origine des pandémies, ainsi que leurs origines géographiques ou les différents hôtes de ces pathogènes et le(s) passage(s) à l’hôte humain.
A partir de ces données, les chercheurs utilisaient jusqu’à présent des méthodes Bayésiennes lourdes en temps de calcul et inapplicables aux grands échantillons, ou des méthodes de maximum de vraisemblance, plus rapides mais incapables de refléter de manière simple et concise l’incertitude des données. On disposait soit de vecteurs de probabilités difficiles à interpréter (les reconstructions marginales), soit de décisions uniques (les reconstructions jointes) n’indiquant pas les décisions alternatives. L’intuition des biologistes ne suffit pas pour appréhender et interpréter ces résultats complexes, il est nécessaire de faire appel aux mathématiques et aux statistiques pour appuyer, confirmer, réorienter ou infirmer les hypothèses émises.
C’est pourquoi les experts en biologie computationnelle de l’Institut Pasteur proposent une approche simple et rapide, utilisant des concepts de la théorie de la décision (notamment le score de Brier, inventé dans le contexte de la prédiction météorologique) : « Nous associons chaque nœud de l’arbre phylogénétique à un ensemble d’états de caractère probables, un seul dans les zones simples de l’arbre, généralement près des feuilles et des informations récentes, plusieurs dans les régions difficiles, typiquement les plus anciennes proches de la racine », résume Olivier Gascuel. « La méthode combine trois aspects important : la théorie de la décision, la vitesse des calculs, et la visualisation au moyens d’outils graphiques et d’interfaces conviviales. »
Dengue et VIH, des premiers résultats probants
La méthode a été implémentée, en collaboration avec l’université de Tokyo, dans un programme informatique nommé PastML, que l’équipe a testé sur plusieurs jeux de données et questions épidémiologiques. PastML a été appliqué à l’évolution des résistances aux médicaments dans un grand ensemble de données de VIH, et à la phylogéographie de la dengue de sérotype 2 (DENV2). « Ces analyses ont pris quelques minutes et ont fourni des résultats convaincants, démontrant la précision et la robustesse de l’approche. »
- Concernant le VIH, les chercheurs ont reconstruit l’évolution de la résistance aux traitements dans la population, depuis l’arrivée des premiers médicaments au milieu des années 90. On considère généralement que les mutations de résistance émergent de manière indépendante sous la pression des traitements, puis que des clusters de résistance apparaissent, qui correspondent à des transmissions entre patients non traités. Ces clusters de résistance sont particulièrement problématiques, avec la crainte de voir émerger des souches multirésistantes à tout traitement, comme c’est cas pour d’autres pathogènes (le paludisme notamment). « Ce qu’on voit est en accord avec la théorie, souligne Olivier Gascuel. Grâce à ces résultats on peut maintenant quantifier, c’est-à-dire sortir du qualitatif, pour visualiser, prédire et surveiller des sous-épidémies résistantes, observées dans des régions particulières, ou au sein de groupes de patients présentant des risques spécifiques. »
- Concernant la dengue (DENV2), les chercheurs ont reconstruit le scénario phylogéographique expliquant l’apparition de cette pandémie chez l’humain et sa diffusion à la surface du globe. Ces résultats sont globalement en accord avec les connaissances antérieures : l’origine endémique et épidémique est trouvée en Asie du Sud-Est aux alentours de 1750, et la progression à travers les continents et sous-continents est cohérente avec les autres analyses, mais les résultats montrent aussi que la racine profonde des souches sylvatiques, qui prédate la pandémie humaine, ne peut être résolue avec les données disponibles aujourd’hui.
L’Institut Pasteur ouvert sur l’Open science
Ayant ainsi démontré son efficacité, le programme PastML est désormais à la disposition de la communauté internationale, montrant à nouveau l’expertise de l’Institut Pasteur sur les questions biostatistiques et son souhait de produire des logiciels ouverts. La biologie computationnelle est en pointe au sein du campus parisien, avec notamment la création d’un département scientifique dédié au printemps 2019, issu d’un centre qui avait été créé en 2015. Ce département constitue une nouvelle étape actant le rôle majeur de l’Institut Pasteur dans ce champ de recherche.
Source :
A Fast Likelihood Method to Reconstruct and Visualize Ancestral Scenarios, Mol. Biol. Evol., May 24, 2019
Sohta A. Ishikawa *,1,2,3, Anna Zhukova *,1, Wataru Iwasaki 2, and Olivier Gascuel1
1. Unité Bioinformatique évolutive, Institut Pasteur, C3BI USR 3756 IP & CNRS, Paris, France
2. Department of Biological Sciences, The University of Tokyo, Tokyo, Japan
3. Evolutionary Genomics of RNA Viruses, Virology Department, Institut Pasteur, Paris, France
* These authors contributed equally to this work.
NGPhylogeny.fr : la version 2019 d’un programme très utilisé en open science
Phylogeny.fr, créé en 2008, a été conçu pour faciliter l’exécution des workflows phylogénétiques, et il est aujourd’hui très utilisé. « La communauté scientifique internationale y fait largement appel, pour des analyses et des questions très diverses. En 10 ans, il a été cité plus de 3000 fois », explique Olivier Gascuel. Cependant, depuis son développement, les besoins des utilisateurs ont évolué, de nouveaux outils et chaînes de traitement ont été publiés, et le nombre de soumissions a augmenté de manière spectaculaire, révélant ainsi de nouvelles pratiques, qui ont motivé sa refonte.
En avril 2019, les équipes du département de Biologie computationnelle de l’Institut Pasteur ont livré une version entièrement revue. Ils ont développé NGPhylogeny.fr pour être plus flexible en termes d’outils* mais aussi d’enchaînement de ces outils, dans une interface dynamique et conviviale. Ces outils couvrent un large éventail d’utilisations (recherche de séquences, alignement de séquences multiples, sélection de modèle, inférence d’arbres phylogénétiques et visualisation d’arbres), et un large panel de méthodes (distance, parcimonie, maximum de vraisemblance et méthodes bayésiennes). Ils sont intégrés dans des workflows déjà configurés, avec des options multiples :
- « Simple clic » pour les non-experts ;
- « Avancé », c’est-à-dire personnalisables pour certains critères ;
- « À la carte », construits de A à Z, réservé aux spécialistes.
NGPhylogeny.fr est facilement installable, sur n’importe quel serveur ou ordinateur personnel, et est évolutif. « Le Hub de Bionformatique et Biostatistique, plateforme de service du campus de l’Institut Pasteur, a été largement impliqué dans le développement de NGPhylogeny.fr. Ce serveur web est un service rendu à la communauté internationale, puisqu’il est déjà utilisé journellement par plus de 100 chercheurs du monde entier. C’est une excellente vitrine de nos activités et savoir-faire. »
*NGPhylogeny.fr intègre de nombreux outils dans leur dernière version (TNT, FastME, MrBayes, etc.) ainsi que de nouveaux outils conçus au cours des dix dernières années (PhyML 3.0, SMS, FastTree, trimAl, BOOSTER, etc.).
Source :
NGPhylogeny.fr: new generation phylogenetic services for non-specialists, Nucleic Acids Research, July 2, 2019
Frédéric Lemoine 1,2,*, Damien Correia 1,3,4, Vincent Lefort 3, Olivia Doppelt-Azeroual 2, Fabien Mareuil 2, Sarah Cohen-Boulakia 4,* and Olivier Gascuel 1,3,*
1. Unité Bioinformatique évolutive, C3BI USR 3756, Institut Pasteur & CNRS, Paris, France,
2. Hub Bioinformatique et Biostatistique, C3BI USR 3756, Institut Pasteur & CNRS, Paris, France,
3. Méthodes et Algorithmes pour la Bioinformatique, LIRMM UMR 5506, Université de Montpellier & CNRS, Montpellier, France
4. Laboratoire de Recherche en Informatique, Université Paris-Sud, CNRS UMR 8623, Université Paris-Saclay, Orsay, France