Des chercheurs ont réussi à compléter notre connaissance du génome humain : des milliers de variants « longs » détectés en employant une technique originale.
Les variations de l’ADN qui intéressent la plupart des chercheurs sont très précises. En effet, la modification d’un seul nucléotide (brique constitutive de l’ADN) peut changer radicalement la nature de la protéine produite en bout de course. Détecter ces variations peut être chose compliquée : les techniques habituelles consistent à séquencer l’intégralité du génome d’intérêt, puis le comparer à un génome de référence. Une telle quantité de données est susceptible de contenir des erreurs, et les stratégies communément utilisées ne procurent qu’une estimation approximative des variations.
En 2021, pour faire face à ces problématiques, les chercheurs de l’équipe Algorithmes pour les séquences biologiques de l’Institut Pasteur, dirigée par Rayan Chikhi, ont développé un tout nouvel algorithme. Celui-ci est capable de repérer toutes les positions où des variations sont susceptibles de se produire dans un génome étudié. Il est ensuite possible d’examiner informatiquement toutes ces positions pour identifier clairement lesdites variations.
Dans une étude publiée le 22 décembre 2022 dans la revue Nature Methods, les chercheurs ont appliqué cet algorithme pour analyser des variants « longs » particulièrement difficiles à détecter, comprenant plusieurs centaines de nucléotides consécutifs. « L'avancée majeure de notre méthode est la détection 10% de plus de variants longs que tous les autres. 10% peut paraître petit, mais représente en fait une grande avancée à l'échelle d'un génome entier, car ici cela concerne des milliers de variants jusqu'alors inconnus. » précise Rayan Chikhi en se référant à l’étude précédente.
Source :
Denti, L., Khorsand, P., Bonizzoni, P., Hormozdiari, F., & Chikhi, R. (2022). Improved structural variant discovery in hard-to-call regions using sample-specific string detection from accurate long reads. Nature Methods (December 22, 2022)