V-pipe 3.0: a sustainable pipeline for within-sample viral genetic diversity estimation

Lara Fuhrmann; Kim Philipp Jablonski; Ivan Topolsky; Aashil A Batavia; Nico Borgsmüller; Pelin Icer Baykal; Matteo Carrara; Chaoran Chen; Arthur Dondi; Monica Dragan; David Dreifuss; Anika John; Benjamin Langer; Michal Okoniewski; Louis du Plessis; Uwe Schmitt; Franziska Singer; Tanja Stadler; Niko Beerenwinkel

doi:10.1093/gigascience/giae065

V-pipe 3.0: a sustainable pipeline for within-sample viral genetic diversity estimation

Gigascience. 2024 Jan 2:13:giae065. doi: 10.1093/gigascience/giae065.

Authors

Lara Fuhrmann^{1

2}, Kim Philipp Jablonski^{1

2}, Ivan Topolsky^{1

2}, Aashil A Batavia^{1

2}, Nico Borgsmüller^{1

2}, Pelin Icer Baykal^{1

2}, Matteo Carrara^{2

3}, Chaoran Chen^{1

2}, Arthur Dondi^{1

2}, Monica Dragan^{1

2}, David Dreifuss^{1

2}, Anika John^{1

2}, Benjamin Langer¹, Michal Okoniewski⁴, Louis du Plessis^{1

2}, Uwe Schmitt⁴, Franziska Singer³, Tanja Stadler^{1

2}, Niko Beerenwinkel^{1

2}

Affiliations

¹ Department of Biosystems Science and Engineering, ETH Zurich, Basel 4056, Switzerland.
² SIB Swiss Institute of Bioinformatics, Lausanne 1015, Switzerland.
³ NEXUS Personalized Health Technologies, ETH Zurich, Basel 4058, Switzerland.
⁴ Scientific IT Services, ETH Zurich, Zurich 8092, Switzerland.

Abstract

The large amount and diversity of viral genomic datasets generated by next-generation sequencing technologies poses a set of challenges for computational data analysis workflows, including rigorous quality control, scaling to large sample sizes, and tailored steps for specific applications. Here, we present V-pipe 3.0, a computational pipeline designed for analyzing next-generation sequencing data of short viral genomes. It is developed to enable reproducible, scalable, adaptable, and transparent inference of genetic diversity of viral samples. By presenting 2 large-scale data analysis projects, we demonstrate the effectiveness of V-pipe 3.0 in supporting sustainable viral genomic data science.

Keywords: NGS data processing; benchmark; global haplotype reconstruction; next-generation sequencing; sustainable data analysis workflow; viral genetic diversity.

MeSH terms

Computational Biology / methods
Genetic Variation*
Genome, Viral*
Genomics / methods
High-Throughput Nucleotide Sequencing* / methods
Humans
Software*
Viruses / genetics

Grants and funding

955974/Horizon 2020 Framework Programme