Validation of algorithms to identify human immunodeficiency virus cases using administrative data in Manitoba

Can J Public Health. 2024 Nov 13. doi: 10.17269/s41997-024-00951-0. Online ahead of print.

Abstract

Objective: Population-based administrative data are valuable for describing human immunodeficiency virus (HIV) cases, and their health status and outcomes. Our objective was to validate algorithms consisting of physician visits, hospitalizations, and antiretroviral prescriptions against positive confirmatory HIV laboratory tests to identify individuals living with HIV.

Methods: The primary validation cohort consisted of adult Manitoban residents with at least 3 years of health coverage between 2007 and 2018. Positive confirmatory HIV tests from the provincial laboratory were the reference standard. We evaluated 15 algorithms requiring 2 or 3 years of administrative data (hospital, physician, and prescription records) to ascertain cases. Seven measures of accuracy were estimated: sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV), Youden's J, kappa, and area under the receiver operating characteristic curve (AUC) and their 95% confidence intervals. Validity was estimated for pregnant females.

Results: The primary validation cohort included 966,507 individuals, of whom 1452 (0.2%) were HIV cases. Algorithm sensitivity ranged from 82.8% to 97.5%. PPV ranged from 51.8% to 97.8%. Youden's J ranged from 0.83 to 0.97. Kappa ranged from 0.68 to 0.93. AUC ranged from 0.91 to 0.99.

Conclusion: Researchers have a range of algorithms to ascertain HIV cases in administrative data; selection of an appropriate algorithm depends on the user goal. To maximize performance to distinguish HIV cases and non-cases while minimizing data requirements, an algorithm based on three or more physician visits in 2 years is recommended. Further validation in other provinces and territories will assess the generalizability of these findings.

RéSUMé: OBJECTIF: Les données administratives populationnelles sont d’une grande utilité pour décrire les cas de virus de l’immunodéficience humaine (VIH), leur état de santé et leurs résultats cliniques. Nous avons voulu valider des algorithmes sur les visites chez le médecin, les hospitalisations et les ordonnances d’antirétroviraux par rapport aux tests de confirmation positifs du VIH d’un laboratoire afin d’identifier les personnes vivant avec le VIH. MéTHODE: Notre cohorte de validation primaire se composait d’adultes résidant au Manitoba couverts par l’assurance-maladie pendant au moins trois ans entre 2007 et 2018. Les tests de confirmation positifs du VIH provenant du laboratoire provincial ont constitué notre étalon de référence. Nous avons évalué 15 algorithmes nécessitant deux ou trois ans de données administratives (dossiers d’hôpitaux, de médecins et d’ordonnances) pour déterminer les cas. Nous avons estimé sept mesures d’exactitude: la sensibilité, la spécificité, la valeur prédictive positive (VPP), la valeur prédictive négative (VPN), l’indice de Youden, le coefficient Kappa et l’aire sous la courbe d’efficacité du récepteur (ROC), et leurs intervalles de confiance de 95%. Nous avons estimé la validité des algorithmes pour les femmes enceintes. RéSULTATS: La cohorte de validation primaire comptait 966 507 personnes, dont 1 452 (0,2%) cas de VIH. La sensibilité des algorithmes variait de 82,8% à 97,5%. La VPP variait de 51,8% à 97,8%. L’indice de Youden variait de 0,83 à 0,97. Le coefficient Kappa variait de 0,68 à 0,93. L’aire sous la courbe ROC variait de 0,91 à 0,99. CONCLUSION: Les chercheurs disposent d’un choix d’algorithmes pour déterminer les cas de VIH dans les données administratives; la sélection de l’algorithme qui convient dépend de l’objectif visé. Pour maximiser la possibilité de distinguer les cas de VIH des non-cas tout en réduisant les données nécessaires, il est recommandé d’utiliser un algorithme basé sur au moins trois visites chez le médecin en deux ans. Une validation plus poussée dans d’autres provinces et territoires permettra d’évaluer la généralisabilité de ces constats.

Keywords: Algorithm; Case identification; HIV.