Summix: A method for detecting and adjusting for population structure in genetic summary data

Ian S Arriaga-MacKenzie; Gregory Matesi; Samuel Chen; Alexandria Ronco; Katie M Marker; Jordan R Hall; Ryan Scherenberg; Mobin Khajeh-Sharafabadi; Yinfei Wu; Christopher R Gignoux; Megan Null; Audrey E Hendricks

doi:10.1016/j.ajhg.2021.05.016

Summix: A method for detecting and adjusting for population structure in genetic summary data

Am J Hum Genet. 2021 Jul 1;108(7):1270-1282. doi: 10.1016/j.ajhg.2021.05.016. Epub 2021 Jun 21.

Affiliations

¹ Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA.
² Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
³ Business School, University of Colorado Denver, Denver, CO 80204, USA.
⁴ Chemistry, University of Colorado Denver, Denver, CO 80204, USA.
⁵ Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Biostatistics and Informatics, Colorado School of Public Health, Aurora, CO 80045, USA.
⁶ Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA; Mathematics and Physical Sciences, The College of Idaho, Caldwell, ID 83605, USA.
⁷ Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA; Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Biostatistics and Informatics, Colorado School of Public Health, Aurora, CO 80045, USA. Electronic address: [email protected].

Abstract

Publicly available genetic summary data have high utility in research and the clinic, including prioritizing putative causal variants, polygenic scoring, and leveraging common controls. However, summarizing individual-level data can mask population structure, resulting in confounding, reduced power, and incorrect prioritization of putative causal variants. This limits the utility of publicly available data, especially for understudied or admixed populations where additional research and resources are most needed. Although several methods exist to estimate ancestry in individual-level data, methods to estimate ancestry proportions in summary data are lacking. Here, we present Summix, a method to efficiently deconvolute ancestry and provide ancestry-adjusted allele frequencies (AFs) from summary data. Using continental reference ancestry, African (AFR), non-Finnish European (EUR), East Asian (EAS), Indigenous American (IAM), South Asian (SAS), we obtain accurate and precise estimates (within 0.1%) for all simulation scenarios. We apply Summix to gnomAD v.2.1 exome and genome groups and subgroups, finding heterogeneous continental ancestry for several groups, including African/African American (∼84% AFR, ∼14% EUR) and American/Latinx (∼4% AFR, ∼5% EAS, ∼43% EUR, ∼46% IAM). Compared to the unadjusted gnomAD AFs, Summix's ancestry-adjusted AFs more closely match respective African and Latinx reference samples. Even on modern, dense panels of summary statistics, Summix yields results in seconds, allowing for estimation of confidence intervals via block bootstrap. Given an accompanying R package, Summix increases the utility and equity of public genetic resources, empowering novel research opportunities.

Keywords: allele frequency; ancestry; common controls; external controls; gnomAD; population stratification; population structure; summary.

Publication types

Evaluation Study
Research Support, N.I.H., Extramural

MeSH terms

Alleles
Computer Simulation
Data Interpretation, Statistical*
Gene Frequency
Humans
Inheritance Patterns
Metagenomics / methods*
Pedigree*
Racial Groups / genetics*
Software

Summix: A method for detecting and adjusting for population structure in genetic summary data

Authors

Affiliations

Abstract

Publication types

MeSH terms

Grants and funding