Characterizing substructure via mixture modeling in large-scale genetic summary statistics

Hayley R Stoneman; Adelle M Price; Nikole Scribner Trout; Riley Lamont; Souha Tifour; Nikita Pozdeyev; Colorado Center for Personalized Medicine; Kristy Crooks; Meng Lin; Nicholas Rafaels; Christopher R Gignoux; Katie M Marker; Audrey E Hendricks

doi:10.1016/j.ajhg.2024.12.007

Characterizing substructure via mixture modeling in large-scale genetic summary statistics

Am J Hum Genet. 2025 Jan 11:S0002-9297(24)00449-X. doi: 10.1016/j.ajhg.2024.12.007. Online ahead of print.

Collaborators

Colorado Center for Personalized Medicine:
Heather D Anderson, Christina L Aquilante, Kelsey Arbogast, Christopher H Arehart, Ian M Brooks, Tonya M Brunetti, Judith Brutus-Lestin, Elizabeth E Burke, Emily M Casteel, Joanne B Cole, Curtis R Coughlin 2nd, Kristy Crooks, Jacob Crawford, Erin Culver, Michelle N Edelmann, Matthew J Fisher, Alan W Franklin, Teresa C Frye, Hunter George, Chris R Gignoux, Elizabeth K Gilliland, Casey S Greene, Brooke Hawkes, Emily Hearst, Audrey E Hendricks, Randi K Johnson, Colleen G Julian, Dave Kao, Iain Konigsberg, Lisa Ku, Elizabeth L Kudron, Rashawnda Lacy, Ethan M Lange, Yee Ming Lee, Joe A Lesny, Meng Lin, Jan T Lowery, Luciana B Vargas, Betzaida L Maldonado, Darcy Marceau, James L Martin, Brianna L Gates, David Mayer, Nicole L McDaniel, Andrew Monte, Ethan Moore, Ann Nadrash, Jack Pattee, Nikita Pozdeyev, Alaa Radwan, Nick Rafaels, Sridharan Raghavan, Neda Rasouli, Elise L Shalowitz, Hoda Sherif, Johnathan A Shortt, Adrian M Stewart, Kristen J Sutton, Carolyn T Swartz, Anna Tanaka, Matthew R G Taylor, Candace Teague, Emily B Todd, Katy E Trinkley, Laura K Wiley

Affiliations

¹ Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
² Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA.
³ Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA.
⁴ Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Division of Endocrinology, Diabetes and Metabolism, Department of Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
⁵ Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Department of Pathology, School of Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
⁶ Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
⁷ Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
⁸ Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA.
⁹ Department of Biomedical Informatics, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Human Medical Genetics and Genomics Program, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA; Mathematical and Statistical Sciences, University of Colorado Denver, Denver, CO 80204, USA; Colorado Center for Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO 80045, USA. Electronic address: [email protected].

PMID: 39824191
DOI: 10.1016/j.ajhg.2024.12.007

Abstract

Genetic summary data are broadly accessible and highly useful, including for risk prediction, causal inference, fine mapping, and incorporation of external controls. However, collapsing individual-level data into summary data, such as allele frequencies, masks intra- and inter-sample heterogeneity, leading to confounding, reduced power, and bias. Ultimately, unaccounted-for substructure limits summary data usability, especially for understudied or admixed populations. There is a need for methods to enable the harmonization of summary data where the underlying substructure is matched between datasets. Here, we present Summix2, a comprehensive set of methods and software based on a computationally efficient mixture model to enable the harmonization of genetic summary data by estimating and adjusting for substructure. In extensive simulations and application to public data, we show that Summix2 characterizes finer-scale population structure, identifies ascertainment bias, and scans for potential regions of selection due to local substructure deviation. Summix2 increases the robust use of diverse, publicly available summary data, resulting in improved and more equitable research.

Keywords: admixed; confounding; equitable research; federated learning; genetic similarity; genetic summary data; harmonization; local ancestry; population stratification; selection; substructure; summary data.