Algorithms based on k-mers for ancient oral metagenomics
Algorithmes basés sur les k-mers pour la métagénomique orale ancienne
Résumé
Palaeometagenomics is the study of ancient genetic material by using metagenomic sequencing,
a process that entails the characterisation of the DNA from all the organisms in a sample. By
ancient genetic material we refer to the DNA that comes from a non-living source and that shows
signs of molecular degradation. Dental calculus has proven to be an exceptionally rich source of
ancient DNA (aDNA) and it has been used to investigate the evolution of the oral microbiome, as
well as human oral health and diet. Despite the establishment of rigorous laboratory protocols for
aDNA contamination control, aDNA samples are still highly susceptible to contamination from
environmental sources, which can drastically alter the microbial composition and lead to erroneous
conclusions after downstream analyses. This dissertation proposes two algorithms that rely on kmers
(sub-sequences of DNA) to address two relevant challenges in the field of palaeometagenomics:
contamination assessment via Microbial Source Tracking and contamination removal at the read
level. The former task resulted in a first-author publication and an open-software called decOM,
while the latter has also been published as a first-author paper accompanied by an open-software
called aKmerBroom. Both methods were tested on ancient oral metagenomic data, yet their utility
can be extended to samples that do not originate from ancient oral sources. Overall, this thesis
has proven that k-mer-based algorithms have an immense potential for contamination removal and
contamination assessment of metagenomes, as they leverage the wealth of metagenomic information
that has been sequenced and made publicly available throughout the years.
La paléométagénomique est l’étude du matériel génétique ancien à l’aide du séquençage
métagénomique, un processus qui implique la caractérisation de l’ADN de tous les organismes
d’un échantillon. Par matériel génétique ancien, nous entendons l’ADN provenant d’une source
non vivante et présentant des signes de dégradation moléculaire. Le tartre dentaire s’est révélé
être une source exceptionnellement riche d’ADN ancien et a été utilisé pour étudier l’évolution
du microbiome buccal, ainsi que la santé bucco-dentaire et l’alimentation de l’homme. Malgré
la mise en place de protocoles de laboratoire rigoureux pour le contrôle de la contamination de
l’ADN ancien, les échantillons d’ADN ancien court sont encore très sensibles à la contamination par
des sources environnementales, ce qui peut modifier radicalement la composition microbienne et
conduire à des conclusions erronées après les analyses en aval. Cette thèse propose deux algorithmes
qui s’appuient sur les k-mers (sous-séquences d’ADN) pour relever deux défis importants dans
le domaine de la paléométagénomique : l’évaluation de la contamination via le suivi des sources
microbiennes et l’élimination de la contamination au niveau des lectures. La première tâche a
donné lieu à une publication en première auteure et à un logiciel ouvert appelé decOM, tandis que
la seconde a également été publiée en tant qu’article du première auteure accompagné d’un logiciel
ouvert appelé aKmerBroom. Les deux méthodes ont été testées sur des données métagénomiques
orales anciennes, mais leur utilité peut être étendue à des échantillons qui ne proviennent pas de
sources orales anciennes. Dans l’ensemble, cette thèse a prouvé que les algorithmes basés sur k-mer
ont un immense potentiel pour l’élimination de la contamination et l’évaluation de la contamination
des métagénomes, car ils tirent parti de la richesse des informations métagénomiques qui ont été
séquencées et mises à la disposition du public au fil des ans.
Origine : Fichiers produits par l'(les) auteur(s)