Distribution-based clustering: using ecology to refine the operational taxonomic unit

Sarah P Preheim; Allison R Perrotta; Antonio M Martin-Platero; Anika Gupta; Eric J Alm

doi:10.1128/AEM.00342-13

Distribution-based clustering: using ecology to refine the operational taxonomic unit

Appl Environ Microbiol. 2013 Nov;79(21):6593-603. doi: 10.1128/AEM.00342-13. Epub 2013 Aug 23.

Authors

Sarah P Preheim¹, Allison R Perrotta, Antonio M Martin-Platero, Anika Gupta, Eric J Alm

Affiliation

¹ Department of Biological Engineering, Massachusetts Institute of Technology, Cambridge, Massachusetts, USA.

Abstract

16S rRNA sequencing, commonly used to survey microbial communities, begins by grouping individual reads into operational taxonomic units (OTUs). There are two major challenges in calling OTUs: identifying bacterial population boundaries and differentiating true diversity from sequencing errors. Current approaches to identifying taxonomic groups or eliminating sequencing errors rely on sequence data alone, but both of these activities could be informed by the distribution of sequences across samples. Here, we show that using the distribution of sequences across samples can help identify population boundaries even in noisy sequence data. The logic underlying our approach is that bacteria in different populations will often be highly correlated in their abundance across different samples. Conversely, 16S rRNA sequences derived from the same population, whether slightly different copies in the same organism, variation of the 16S rRNA gene within a population, or sequences generated randomly in error, will have the same underlying distribution across sampled environments. We present a simple OTU-calling algorithm (distribution-based clustering) that uses both genetic distance and the distribution of sequences across samples and demonstrate that it is more accurate than other methods at grouping reads into OTUs in a mock community. Distribution-based clustering also performs well on environmental samples: it is sensitive enough to differentiate between OTUs that differ by a single base pair yet predicts fewer overall OTUs than most other methods. The program can decrease the total number of OTUs with redundant information and improve the power of many downstream analyses to describe biologically relevant trends.

Publication types

Research Support, Non-U.S. Gov't
Research Support, U.S. Gov't, Non-P.H.S.

MeSH terms

Algorithms*
Base Sequence
Classification / methods*
Cluster Analysis
Computational Biology
DNA Primers / genetics
Microbiota / genetics*
Molecular Sequence Data
RNA, Ribosomal, 16S / genetics*
Real-Time Polymerase Chain Reaction
Sensitivity and Specificity
Sequence Analysis, DNA
Species Specificity

Substances

DNA Primers
RNA, Ribosomal, 16S

Associated data

GENBANK/KC192376
GENBANK/KC192377
GENBANK/KC192378
GENBANK/KC192379
GENBANK/KC192380
GENBANK/KC192381
GENBANK/KC192382
GENBANK/KC192383
GENBANK/KC192384
GENBANK/KC192385
GENBANK/KC192386
GENBANK/KC192387
GENBANK/KC192388
GENBANK/KC192389
GENBANK/KC192390
GENBANK/KC192391
GENBANK/KC192392
GENBANK/KC192393
GENBANK/KC192394
GENBANK/KC192395
GENBANK/KC192396
GENBANK/KC192397
GENBANK/KC192398
GENBANK/KC192399
GENBANK/KC192400
GENBANK/KC192401
GENBANK/KC192402
GENBANK/KC192403
GENBANK/KC192404
GENBANK/KC192405
GENBANK/KC192406
GENBANK/KC192407
GENBANK/KC192408
GENBANK/KC192409
GENBANK/KC192410
GENBANK/KC192411
GENBANK/KC192412
GENBANK/KC192413
GENBANK/KC192414
GENBANK/KC192415
GENBANK/KC192416
GENBANK/KC192417
GENBANK/KC192418
GENBANK/KC192419
GENBANK/KC192420
GENBANK/KC192421
GENBANK/KC192422
GENBANK/KC192423
GENBANK/KC192424
GENBANK/KC192425
GENBANK/KC192426
GENBANK/KC192427
GENBANK/KC192428
GENBANK/KC192429
GENBANK/KC192430
GENBANK/KC192431
GENBANK/KC192432
GENBANK/KC192433
GENBANK/KC192434
GENBANK/KC192435
GENBANK/KC192436
GENBANK/KC192437
GENBANK/KC192438
GENBANK/KC192439
GENBANK/KC192440
GENBANK/KC192441
GENBANK/KC192442
GENBANK/KC192443
GENBANK/KC192444
GENBANK/KC192445
GENBANK/KC192446
GENBANK/KC192447
GENBANK/KC192448
GENBANK/KC192449
GENBANK/KC192450
GENBANK/KC192451
GENBANK/KC192452
GENBANK/KC192453
GENBANK/KC192454
GENBANK/KC192455
GENBANK/KC192456
GENBANK/KC192457
GENBANK/KC192458
GENBANK/KC192459
GENBANK/KC192460
GENBANK/KC192461
GENBANK/KC192462
GENBANK/KC192463
GENBANK/KC192464
GENBANK/KC192465
GENBANK/KC192466
GENBANK/KC192467
GENBANK/KC192468
GENBANK/KC192469
GENBANK/KC192470
GENBANK/KC192471
GENBANK/KC192472
GENBANK/KC192473
GENBANK/KC192474
GENBANK/KC192475
GENBANK/KC192476
GENBANK/KC192477
GENBANK/KC192478
GENBANK/KC192479
GENBANK/KC192480
GENBANK/KC192481
GENBANK/KC192482
GENBANK/KC192483
GENBANK/KC192484
GENBANK/KC192485
GENBANK/KC192486
GENBANK/KC192487
GENBANK/KC192488
GENBANK/KC192489
GENBANK/KC192490
GENBANK/KC192491
GENBANK/KC192492
GENBANK/KC192493
GENBANK/KC192494
GENBANK/KC192495
GENBANK/KC192496
GENBANK/KC192497
GENBANK/KC192498
GENBANK/KC192499
GENBANK/KC192500
GENBANK/KC192501
GENBANK/KC192502
GENBANK/KC192503
GENBANK/KC192504
GENBANK/KC192505
GENBANK/KC192506
GENBANK/KC192507
GENBANK/KC192508
GENBANK/KC192509
GENBANK/KC192510
GENBANK/KC192511
GENBANK/KC192512
GENBANK/KC192513
GENBANK/KC192514
GENBANK/KC192515
GENBANK/KC192516
GENBANK/KC192517
GENBANK/KC192518
GENBANK/KC192519
GENBANK/KC192520
GENBANK/KC192521
GENBANK/KC192522
GENBANK/KC192523
GENBANK/KC192524
GENBANK/KC192525
GENBANK/KC192526
GENBANK/KC192527
GENBANK/KC192528
GENBANK/KC192529
GENBANK/KC192530
GENBANK/KC192531
GENBANK/KC192532
GENBANK/KC192533
GENBANK/KC192534
GENBANK/KC192535
GENBANK/KC192536
GENBANK/KC192537
GENBANK/KC192538
GENBANK/KC192539
GENBANK/KC192540
GENBANK/KC192541
GENBANK/KC192542
GENBANK/KC192543
GENBANK/KC192544