Importance of timely metadata curation to the global surveillance of genetic diversity

Conserv Biol. 2023 Aug;37(4):e14061. doi: 10.1111/cobi.14061. Epub 2023 Mar 10.

Abstract

Genetic diversity within species represents a fundamental yet underappreciated level of biodiversity. Because genetic diversity can indicate species resilience to changing climate, its measurement is relevant to many national and global conservation policy targets. Many studies produce large amounts of genome-scale genetic diversity data for wild populations, but most (87%) do not include the associated spatial and temporal metadata necessary for them to be reused in monitoring programs or for acknowledging the sovereignty of nations or Indigenous peoples. We undertook a distributed datathon to quantify the availability of these missing metadata and to test the hypothesis that their availability decays with time. We also worked to remediate missing metadata by extracting them from associated published papers, online repositories, and direct communication with authors. Starting with 848 candidate genomic data sets (reduced representation and whole genome) from the International Nucleotide Sequence Database Collaboration, we determined that 561 contained mostly samples from wild populations. We successfully restored spatiotemporal metadata for 78% of these 561 data sets (n = 440 data sets with data on 45,105 individuals from 762 species in 17 phyla). Examining papers and online repositories was much more fruitful than contacting 351 authors, who replied to our email requests 45% of the time. Overall, 23% of our email queries to authors unearthed useful metadata. The probability of retrieving spatiotemporal metadata declined significantly as age of the data set increased. There was a 13.5% yearly decrease in metadata associated with published papers or online repositories and up to a 22% yearly decrease in metadata that were only available from authors. This rapid decay in metadata availability, mirrored in studies of other types of biological data, should motivate swift updates to data-sharing policies and researcher practices to ensure that the valuable context provided by metadata is not lost to conservation science forever.

Importancia de la curación oportuna de metadatos para la vigilancia mundial de la diversidad genética Resumen La diversidad genética intraespecífica representa un nivel fundamental, pero a la vez subvalorado de la biodiversidad. La diversidad genética puede indicar la resiliencia de una especie ante el clima cambiante, por lo que su medición es relevante para muchos objetivos de la política de conservación mundial y nacional. Muchos estudios producen una gran cantidad de datos sobre la diversidad a nivel genético de las poblaciones silvestres, aunque la mayoría (87%) no incluye los metadatos espaciales y temporales asociados para que sean reutilizados en los programas de monitoreo o para reconocer la soberanía de las naciones o los pueblos indígenas. Realizamos un “datatón” distribuido para cuantificar la disponibilidad de estos metadatos faltantes y para probar la hipótesis que supone que esta disponibilidad se deteriora con el tiempo. También trabajamos para reparar los metadatos faltantes al extraerlos de los artículos asociados publicados, los repositorios en línea y la comunicación directa con los autores. Iniciamos con 838 candidatos de conjuntos de datos genómicos (representación reducida y genoma completo) tomados de la colaboración internacional para la base de datos de secuencias de nucleótidos y determinamos que 561 incluían en su mayoría muestras tomadas de poblaciones silvestres. Restauramos con éxito los metadatos espaciotemporales en el 78% de estos 561 conjuntos de datos (n = 440 conjuntos de datos con información sobre 45,105 individuos de 762 especies en 17 filos). El análisis de los artículos y los repositorios virtuales fue mucho más productivo que contactar a los 351 autores, quienes tuvieron un 45% de respuesta a nuestros correos. En general, el 23% de nuestras consultas descubrieron metadatos útiles. La probabilidad de recuperar metadatos espaciotemporales declinó de manera significativa conforme incrementó la antigüedad del conjunto de datos. Hubo una disminución anual del 13.5% en los metadatos asociados con los artículos publicados y los repositorios virtuales y hasta una disminución anual del 22% en los metadatos que sólo estaban disponibles mediante la comunicación con los autores. Este rápido deterioro en la disponibilidad de los metadatos, duplicado en estudios de otros tipos de datos biológicos, debería motivar la pronta actualización de las políticas del intercambio de datos y las prácticas de los investigadores para asegurar que en las ciencias de la conservación no se pierda para siempre el contexto valioso proporcionado por los metadatos.

物种内的遗传多样性代表了生物多样性的一个基本水平, 但却没有得到重视。遗传多样性可以反映物种面对气候变化的恢复力, 因此遗传多样性的测量被纳入了许多国家和全球保护政策目标。许多研究产生了大量野生种群基因组水平的遗传多样性数据, 但大多(87%)不包括相关的空间和时间元数据, 而这是在监测项目中重新使用这些遗传多样性数据或是明确数据所属国家或原住民主权所必需的。本研究进行了一次分散式的数据马拉松, 以量化这些缺失元数据的可用性, 并检验了其可用性随时间衰减的假设。我们还通过相关发表的论文、在线资源库以及与作者直接沟通来获取这些元数据, 以努力补齐缺失的元数据。我们从国际核苷酸序列数据库合作联盟的848个候选基因组数据集(简化基因组和全基因组)出发, 确定了561个数据集主要包含来自野生种群的样本。我们成功地恢复了其中78%的数据集的时空元数据(440个数据集, 包括17个门、762个物种的45,105个个体的数据)。我们发现, 检查论文和在线资源库比直接联系作者更高效, 我们联系的351位作者有45%回复了我们的电子邮件请求。在与作者的电子邮件通信中, 总计23%的情况下获得了有用的元数据。随着数据集发表时间的增加, 检索得到时空元数据的概率明显下降。从发表论文或在线资源库中获得的元数据年均减少13.5%, 而通过作者获得的元数据则年均减少高达22%。这种元数据可用性的快速下降也反映在对其他类型生物数据的研究中, 表明数据共享政策和研究者实践应迅速更新, 以确保元数据所提供的珍贵背景信息不会永远消失在保护科学中。 【翻译:胡怡思;审校:聂永刚】.

Keywords: Convenio sobre la Diversidad Biológica; Convention on Biological Diversity; biodiversidad; biodiversity; conservation genetics; datos abiertos; digital sequence information; diversidad genética; ecología molecular; evolución; evolution; genetic diversity; información de secuencia digital; metadata; metadatos; molecular ecology; open data; 《生物多样性公约》; 保护遗传学; 元数据; 分子生态学; 开放数据; 数字序列信息; 演化; 遗传多样性.

Publication types

  • Research Support, N.I.H., Extramural
  • Research Support, Non-U.S. Gov't

MeSH terms

  • Biodiversity
  • Conservation of Natural Resources*
  • Genetic Variation
  • Humans
  • Metadata*
  • Probability