A model to predict SARS-CoV-2 infection based on the first three-month surveillance data in Brazil

Trop Med Int Health. 2020 Nov;25(11):1385-1394. doi: 10.1111/tmi.13476. Epub 2020 Sep 7.

Abstract

Objective: COVID-19 diagnosis is a critical problem, mainly due to the lack or delay in the test results. We aimed to obtain a model to predict SARS-CoV-2 infection in suspected patients reported to the Brazilian surveillance system.

Methods: We analysed suspected patients reported to the National Surveillance System that corresponded to the following case definition: patients with respiratory symptoms and fever, who travelled to regions with local or community transmission or who had close contact with a suspected or confirmed case. Based on variables routinely collected, we obtained a multiple model using logistic regression. The area under the receiver operating characteristic curve (AUC) and accuracy indicators were used for validation.

Results: We described 1468 COVID-19 cases (confirmed by RT-PCR) and 4271 patients with other illnesses. With a data subset including 80% of patients from Sao Paulo (SP) and Rio Janeiro (RJ), we obtained a function which reached an AUC of 95.54% (95% CI: 94.41-96.67%) for the diagnosis of COVID-19 and accuracy of 90.1% (sensitivity 87.62% and specificity 92.02%). In a validation dataset including the other 20% of patients from SP and RJ, this model exhibited an AUC of 95.01% (92.51-97.5%) and accuracy of 89.47% (sensitivity 87.32% and specificity 91.36%).

Conclusion: We obtained a model suitable for the clinical diagnosis of COVID-19 based on routinely collected surveillance data. Applications of this tool include early identification for specific treatment and isolation, rational use of laboratory tests, and input for modelling epidemiological trends.

Objectif: Le diagnostic du COVID-19 est un problème critique, principalement dû au manque ou au retard dans les résultats du test. Nous visions à obtenir un modèle pour prédire l'infection par le SRAS-CoV-2 chez les patients suspects signalés au système de surveillance brésilien. MÉTHODES: Nous avons analysé les patients suspects signalés au Système National de Surveillance qui correspondaient à la définition de cas suivante: patients présentant des symptômes respiratoires et de la fièvre, qui se sont rendus dans des régions à transmission locale ou communautaire ou qui ont eu des contacts étroits avec un cas suspect ou confirmé. Sur la base de variables collectées en routine, nous avons obtenu un modèle multiple en utilisant la régression logistique. L’aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) et les indicateurs de précision ont été utilisés pour la validation. RÉSULTATS: Nous avons décrit 1.468 cas de COVID-19 (confirmés par RT-PCR) et 4.271 patients atteints d'autres maladies. Avec un sous-ensemble de données comprenant 80% de patients de Sao Paulo (SP) et de Rio de Janeiro (RJ), nous avons obtenu une fonction qui atteignait une AUC de 95,54% (IC95%: 94,41% - 96,67%) pour le diagnostic de COVID- 19 et une précision de 90,1% (sensibilité 87,62% et spécificité 92,02%). Dans un ensemble de données de validation incluant les 20% restants de patients de SP et de RJ, ce modèle présentait une AUC de 95,01% (92,51% - 97,5%) et une précision de 89,47% (sensibilité 87,32% et spécificité 91,36%).

Conclusion: Nous avons obtenu un modèle adapté au diagnostic clinique du COVID-19 sur la base des données de surveillance collectées en routine. Les applications de cet outil comprennent l'identification précoce pour un traitement et un isolement spécifiques, l'utilisation rationnelle des tests de laboratoire et des données pour modéliser les tendances épidémiologiques.

Keywords: COVID-19; accuracy; clinical diagnosis; multiple regression model; surveillance.

Publication types

  • Research Support, Non-U.S. Gov't
  • Validation Study

MeSH terms

  • Adult
  • Area Under Curve
  • Brazil
  • COVID-19 / diagnosis*
  • Coronavirus Infections
  • Female
  • Humans
  • Male
  • Middle Aged
  • Models, Biological*
  • Pandemics
  • Population Surveillance*
  • ROC Curve
  • Reproducibility of Results
  • SARS-CoV-2
  • Sensitivity and Specificity