DNA-protein quasi-mapping for rapid differential gene expression analysis in non-model organisms

Kyle Christian L Santiago; Anish M S Shrestha

doi:10.1186/s12859-024-05924-1

DNA-protein quasi-mapping for rapid differential gene expression analysis in non-model organisms

BMC Bioinformatics. 2024 Oct 24;25(Suppl 2):335. doi: 10.1186/s12859-024-05924-1.

Authors

Kyle Christian L Santiago^{1

2}, Anish M S Shrestha^{3

4}

Affiliations

¹ Bioinformatics Lab, Advanced Research Institute for Informatics, Computing, and Networking, De La Salle University Manila, 2401 Taft Avenue, Manila, Philippines.
² Department of Software Technology, College of Computer Studies, De La Salle University Manila, 2401 Taft Avenue, Manila, Philippines.
³ Bioinformatics Lab, Advanced Research Institute for Informatics, Computing, and Networking, De La Salle University Manila, 2401 Taft Avenue, Manila, Philippines. [email protected].
⁴ Department of Software Technology, College of Computer Studies, De La Salle University Manila, 2401 Taft Avenue, Manila, Philippines. [email protected].

Abstract

Background: Conventional differential gene expression analysis pipelines for non-model organisms require computationally expensive transcriptome assembly. We recently proposed an alternative strategy of directly aligning RNA-seq reads to a protein database, and demonstrated drastic improvements in speed, memory usage, and accuracy in identifying differentially expressed genes.

Result: Here we report a further speed-up by replacing DNA-protein alignment by quasi-mapping, making our pipeline > 1000× faster than assembly-based approach, and still more accurate. We also compare quasi-mapping to other mapping techniques, and show that it is faster but at the cost of sensitivity.

Conclusion: We provide a quick-and-dirty differential gene expression analysis pipeline for non-model organisms without a reference transcriptome, which directly quasi-maps RNA-seq reads to a reference protein database, avoiding computationally expensive transcriptome assembly.

Keywords: DNA-protein alignment; Differential gene expression analysis; Non-model organism; Quasi-mapping; RNA-seq.

MeSH terms

DNA / genetics
DNA / metabolism
Gene Expression Profiling* / methods
Proteins / genetics
Proteins / metabolism
Sequence Alignment / methods
Transcriptome / genetics

Substances

DNA
Proteins