A community effort to optimize sequence-based deep learning models of gene regulation

Abdul Muntakim Rafi; Daria Nogina; Dmitry Penzar; Dohoon Lee; Danyeong Lee; Nayeon Kim; Sangyeup Kim; Dohyeon Kim; Yeojin Shin; Il-Youp Kwak; Georgy Meshcheryakov; Andrey Lando; Arsenii Zinkevich; Byeong-Chan Kim; Juhyun Lee; Taein Kang; Eeshit Dhaval Vaishnav; Payman Yadollahpour; Random Promoter DREAM Challenge Consortium; Sun Kim; Jake Albrecht; Aviv Regev; Wuming Gong; Ivan V Kulakovskiy; Pablo Meyer; Carl G de Boer

doi:10.1038/s41587-024-02414-w

A community effort to optimize sequence-based deep learning models of gene regulation

Nat Biotechnol. 2024 Oct 11. doi: 10.1038/s41587-024-02414-w. Online ahead of print.

Authors

Abdul Muntakim Rafi¹, Daria Nogina², Dmitry Penzar^{3

4

5}, Dohoon Lee⁶, Danyeong Lee⁶, Nayeon Kim⁶, Sangyeup Kim⁶, Dohyeon Kim⁶, Yeojin Shin⁶, Il-Youp Kwak⁷, Georgy Meshcheryakov⁵, Andrey Lando⁸, Arsenii Zinkevich^{2

3}, Byeong-Chan Kim⁷, Juhyun Lee⁷, Taein Kang⁷, Eeshit Dhaval Vaishnav^{9

10}, Payman Yadollahpour⁹; Random Promoter DREAM Challenge Consortium; Sun Kim⁶, Jake Albrecht¹¹, Aviv Regev^{9

12}, Wuming Gong¹³, Ivan V Kulakovskiy^{3

5}, Pablo Meyer¹⁴, Carl G de Boer¹⁵

Collaborators

Random Promoter DREAM Challenge Consortium:
Susanne Bornelöv, Fredrik Svensson, Maria-Anna Trapotsi, Duc Tran, Tin Nguyen, Xinming Tu, Wuwei Zhang, Wei Qiu, Rohan Ghotra, Yiyang Yu, Ethan Labelson, Aayush Prakash, Ashwin Narayanan, Peter Koo, Xiaoting Chen, David T Jones, Michele Tinti, Yuanfang Guan, Maolin Ding, Ken Chen, Yuedong Yang, Ke Ding, Gunjan Dixit, Jiayu Wen, Zhihan Zhou, Pratik Dutta, Rekha Sathian, Pallavi Surana, Yanrong Ji, Han Liu, Ramana V Davuluri, Yu Hiratsuka, Mao Takatsu, Tsai-Min Chen, Chih-Han Huang, Hsuan-Kai Wang, Edward S C Shih, Sz-Hau Chen, Chih-Hsun Wu, Jhih-Yu Chen, Kuei-Lin Huang, Ibrahim Alsaggaf, Patrick Greaves, Carl Barton, Cen Wan, Nicholas Abad, Cindy Körner, Lars Feuerbach, Benedikt Brors, Yichao Li, Sebastian Röner, Pyaree Mohan Dash, Max Schubach, Onuralp Soylemez, Andreas Møller, Gabija Kavaliauskaite, Jesper Madsen, Zhixiu Lu, Owen Queen, Ashley Babjac, Scott Emrich, Konstantinos Kardamiliotis, Konstantinos Kyriakidis, Andigoni Malousi, Ashok Palaniappan, Krishnakant Gupta, Prasanna Kumar S, Jake Bradford, Dimitri Perrin, Robert Salomone, Carl Schmitz, Chen JiaXing, Wang JingZhe, Yang AiWei

Affiliations

¹ University of British Columbia, Vancouver, British Columbia, Canada. [email protected].
² Faculty of Bioengineering and Bioinformatics, Lomonosov Moscow State University, Moscow, Russia.
³ Vavilov Institute of General Genetics, Russian Academy of Sciences, Moscow, Russia.
⁴ AIRI, Moscow, Russia.
⁵ Institute of Protein Research, Russian Academy of Sciences, Pushchino, Russia.
⁶ Seoul National University, Seoul, South Korea.
⁷ Chung-Ang University, Seoul, South Korea.
⁸ Yandex, Moscow, Russia.
⁹ Broad Institute of MIT and Harvard, Cambridge, MA, USA.
¹⁰ Sequome, Inc., South San Francisco, CA, USA.
¹¹ Sage Bionetworks, Seattle, WA, USA.
¹² Genentech, San Francisco, CA, USA.
¹³ University of Minnesota, Minneapolis, MN, USA.
¹⁴ Health Care and Life Sciences, IBM Research, New York, NY, USA.
¹⁵ University of British Columbia, Vancouver, British Columbia, Canada. [email protected].

PMID: 39394483
DOI: 10.1038/s41587-024-02414-w

Abstract

A systematic evaluation of how model architectures and training strategies impact genomics model performance is needed. To address this gap, we held a DREAM Challenge where competitors trained models on a dataset of millions of random promoter DNA sequences and corresponding expression levels, experimentally determined in yeast. For a robust evaluation of the models, we designed a comprehensive suite of benchmarks encompassing various sequence types. All top-performing models used neural networks but diverged in architectures and training strategies. To dissect how architectural and training choices impact performance, we developed the Prix Fixe framework to divide models into modular building blocks. We tested all possible combinations for the top three models, further improving their performance. The DREAM Challenge models not only achieved state-of-the-art results on our comprehensive yeast dataset but also consistently surpassed existing benchmarks on Drosophila and human genomic datasets, demonstrating the progress that can be driven by gold-standard genomics datasets.