Machine Learning and Integrative Analysis of Biomedical Big Data

Bilal Mirza; Wei Wang; Jie Wang; Howard Choi; Neo Christopher Chung; Peipei Ping

doi:10.3390/genes10020087

Machine Learning and Integrative Analysis of Biomedical Big Data

Genes (Basel). 2019 Jan 28;10(2):87. doi: 10.3390/genes10020087.

Authors

Bilal Mirza^{1

2}, Wei Wang^{3

4

5

6}, Jie Wang^{7

8}, Howard Choi^{9

10

11}, Neo Christopher Chung^{12

13}, Peipei Ping^{14

15

16

17

18}

Affiliations

¹ NIH BD2K Center of Excellence for Biomedical Computing, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
² Department of Physiology, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
³ NIH BD2K Center of Excellence for Biomedical Computing, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
⁴ Department of Computer Science, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
⁵ Scalable Analytics Institute (ScAi), University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
⁶ Department of Bioinformatics, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
⁷ NIH BD2K Center of Excellence for Biomedical Computing, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
⁸ Department of Physiology, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
⁹ NIH BD2K Center of Excellence for Biomedical Computing, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹⁰ Department of Physiology, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹¹ Department of Bioinformatics, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹² NIH BD2K Center of Excellence for Biomedical Computing, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹³ Institute of Informatics, Faculty of Mathematics, Informatics and Mechanics, University of Warsaw, Banacha 2, 02-097 Warsaw, Poland. [email protected].
¹⁴ NIH BD2K Center of Excellence for Biomedical Computing, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹⁵ Department of Physiology, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹⁶ Scalable Analytics Institute (ScAi), University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹⁷ Department of Bioinformatics, University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].
¹⁸ Department of Medicine (Cardiology), University of California Los Angeles, Los Angeles, CA 90095, USA. [email protected].

Abstract

Recent developments in high-throughput technologies have accelerated the accumulation of massive amounts of omics data from multiple sources: genome, epigenome, transcriptome, proteome, metabolome, etc. Traditionally, data from each source (e.g., genome) is analyzed in isolation using statistical and machine learning (ML) methods. Integrative analysis of multi-omics and clinical data is key to new biomedical discoveries and advancements in precision medicine. However, data integration poses new computational challenges as well as exacerbates the ones associated with single-omics studies. Specialized computational approaches are required to effectively and efficiently perform integrative analysis of biomedical data acquired from diverse modalities. In this review, we discuss state-of-the-art ML-based approaches for tackling five specific computational challenges associated with integrative analysis: curse of dimensionality, data heterogeneity, missing data, class imbalance and scalability issues.

Keywords: class imbalance; curse of dimensionality; data integration; heterogeneous data; machine learning; missing data; multi-omics; scalability.

Publication types

Research Support, N.I.H., Extramural
Review

MeSH terms

Animals
Big Data*
Computational Biology / methods*
Computational Biology / standards
Humans
Machine Learning*

Abstract

Publication types

MeSH terms

Grants and funding