Using genomics data to reconstruct transmission trees during disease outbreaks

Rev Sci Tech. 2016 Apr;35(1):287-96. doi: 10.20506/rst.35.1.2433.

Abstract

Genetic sequence data from pathogens present a novel means to investigate the spread of infectious disease between infected hosts or infected premises, complementing traditional contact-tracing approaches, and much recent work has gone into developing methods for this purpose. The objective is to recover the epidemic transmission tree, which identifies who infected whom. This paper reviews the various approaches that have been taken. The first step is to define a measure of difference between sequences, which must be done while taking into account such factors as recombination and convergent evolution. Three broad categories of method exist, of increasing complexity: those that assume no withinhost genetic diversity or mutation, those that assume no within-host diversity but allow mutation, and those that allow both. Until recently, the assumption was usually made that every host in the epidemic could be identified, but this is now being relaxed, and some methods are intended for sparsely sampled data, concentrating on the identification of pairs of sequences that are likely to be the result of direct transmission rather than inferring the complete transmission tree. Many of the procedures described here are available to researchers as free software.

L’accès aux données sur les séquences génétiques des agents pathogènes ouvre de nouvelles perspectives pour étudier la manière dont les maladies infectieuses se propagent entre différents hôtes ou établissements infectés, en complément des méthodes traditionnelles d’évaluation de l’exposition ; de grands efforts ont donc été déployés pour mettre au point des techniques permettant d’arriver à cette fin. Leur objectif est de reconstituer l’arborescence de la transmission d’une épidémie, ce qui permet d’identifier chaque individu ayant infecté d’autres individus. Les auteurs passent en revue les différentes méthodes appliquées. La première étape consiste à définir les modalités de mesure des différences entre séquences, ainsi que les facteurs à prendre en compte, par exemple les phénomènes de recombinaison ou d’évolution convergente. Les méthodes disponibles se répartissent en trois catégories principales, par ordre de complexité croissante : celles qui présupposent qu’il ne peut y avoir de diversité ni de mutation génétiques chez l’hôte ; celles qui présupposent qu’il peut y avoir une diversité génétique mais pas de mutation ; enfin celles qui présupposent qu’il peut y avoir les deux. Jusqu’à une période récente, le présupposé le plus courant était que tous les hôtes intervenant dans un foyer pouvaient être identifiés ; cette exigence s’est considérablement assouplie et de nouvelles méthodes ont été conçues pour travailler à partir d’un échantillon de données plus clairsemé, ce qui permet de se concentrer sur l’identification de paires de séquences révélatrices d’une transmission directe au lieu de déduire l’intégralité de l’arbre de transmission. La plupart des procédures décrites par les auteurs existent sous forme de logiciels libres accessibles aux chercheurs.

Los datos de la secuencia genética de patógenos ofrecen un medio novedoso para investigar la propagación de enfermedades infecciosas entre individuos o establecimientos infectados, medio que viene a complementar la fórmula tradicional consistente en rastrear los contactos. De ahí que últimamente se haya dedicado un ingente trabajo a definir métodos útiles para ese fin. El objetivo radica en desentrañar el árbol de transmisión epidémica, que permite determinar quién infectó a quién. Los autores pasan revista a los diferentes planteamientos adoptados. El primer paso consiste en definir una medida de la diferencia entre secuencias, para lo cual hay que tener en cuenta factores como la recombinación o la convergencia evolutiva. Existen tres grandes clases de métodos, que presentan un grado creciente de complejidad: aquellos que presuponen que no hay diversidad genética ni mutaciones dentro del individuo infectado; aquellos que presuponen que no hay diversidad, pero admiten la posibilidad de mutaciones; y aquellos que postulan que ambas cosas pueden producirse. Hasta hace poco, en general se partía de la premisa de que era posible identificar a todos los individuos infectados en una epidemia. Ahora, sin embargo, se está flexibilizando este postulado, y existen métodos que se aplican específicamente a datos obtenidos con muestreos dispersos, con los cuales se trata de determinar pares de secuencias que probablemente sean resultado de la transmisión directa, y no tanto de inferir el árbol de transmisión completo. Muchos de los procedimientos aquí descritos están a disposición de los investigadores en forma de programas informáticos gratuitos.

Keywords: Analyse sequentielle; Epidemiologie moleculaire; Foyer d'infection; Genomique; Transmission de la maladie.

Publication types

  • Research Support, Non-U.S. Gov't

MeSH terms

  • Animals
  • Contact Tracing / methods*
  • Disease Outbreaks*
  • Genetic Variation
  • Genomics*
  • Humans
  • Molecular Epidemiology
  • Software*