High similarity sequence comparison in clustering large sequence databases

Lorie Dudoignon; Eric Glemet; Hendrik Cornelis Heus; Mathieu Raffinot

High similarity sequence comparison in clustering large sequence databases

Proc IEEE Comput Soc Bioinform Conf. 2002:1:228-36.

Authors

Lorie Dudoignon¹, Eric Glemet, Hendrik Cornelis Heus, Mathieu Raffinot

Affiliation

¹ IMT, INRIA, Marseille Cedex 20, 13451, France. [email protected]

PMID: 15838139

Abstract

We present a fast algorithm for sequence clustering and searching which works with large sequence databases. It uses a strictly defined similarity measure. The algorithm is faster than conventional EST clustering approaches because its complexity is directly related to the number of subwords shared by the sequences. Furthermore, the algorithm also works with proteic sequences and large sequences like entire chromosomes. We present a theoretical study of our approach and provide experimental results.

Publication types

Comparative Study
Evaluation Study

MeSH terms

Algorithms*
Chromosome Mapping / methods*
Cluster Analysis
Database Management Systems*
Databases, Genetic*
Information Storage and Retrieval / methods
Pattern Recognition, Automated / methods*
Sequence Alignment / methods*
Sequence Analysis / methods*