Objective: Opioid use disorder (OUD) is a chronic relapsing disorder with a problematic pattern of opioid use, affecting nearly 27 million people worldwide. Machine learning (ML)-based prediction of OUD may lead to early detection and intervention. However, most ML prediction studies were not based on representative data sources and prospective validations, limiting their potential to predict future new cases. In the current study, we aimed to develop and prospectively validate an ML model that could predict individual OUD cases based on representative large-scale health data.
Method: We present an ensemble machine-learning model trained on a cross-linked Canadian administrative health data set from 2014 to 2018 (n = 699,164), with validation of model-predicted OUD cases on a hold-out sample from 2014 to 2018 (n = 174,791) and prospective prediction of OUD cases on a non-overlapping sample from 2019 (n = 316,039). We used administrative records of OUD diagnosis for each subject based on International Classification of Diseases (ICD) codes.
Results: With 6409 OUD cases in 2019 (mean [SD], 45.34 [14.28], 3400 males), our model prospectively predicted OUD cases at a high accuracy (balanced accuracy, 86%, sensitivity, 93%; specificity 79%). In accord with prior findings, the top risk factors for OUD in this model were opioid use indicators and a history of other substance use disorders.
Conclusion: Our study presents an individualized prospective prediction of OUD cases by applying ML to large administrative health datasets. Such prospective predictions based on ML would be essential for potential future clinical applications in the early detection of OUD.
Objectif: Le trouble d’utilisation d’opioïdes (TUO) est un trouble récidivant chronique avec un modèle problématique d’utilisation d’opioïdes, qui affecte près de 27 millions de personnes dans le monde. La prédiction du TUO basée sur l’apprentissage machine (AM) peut mener à la détection précoce et l’intervention. Toutefois, la plupart des études de prédiction d’AM n’étaient pas basées sur des sources de données représentatives et des validations prospectives, ce qui limitait leur potentiel de prédire de futurs nouveaux cas. Dans la présente étude, nous cherchions à développer et à valider prospectivement un modèle d’AM qui pourrait prédire des cas individuels de TUO basés sur des données de santé représentatives à grande échelle.
Méthode: Nous présentons un modèle d’ensemble d’apprentissage machine formé sur des ensembles de données de santé administratives canadiennes croisées de 2014–2018 (n = 699 164), avec validation de cas de TUO prédits par un modèle dans un contre-échantillon 2014–2018 (n = 174 791) et une prédiction prospective de cas de TUO sur un échantillon non-chevauchant de 2019 (n = 316 039). Nous avons utilisé des dossiers administratifs de diagnostics de TUO pour chaque sujet basé sur les codes de la Classification internationale des maladies (CIM).
Résultats: Avec 6 409 cas de TUO en 2019 (moyenne [ET], 45,34 [14,28], 3400 hommes), notre modèle prédisait prospectivement les cas de TUO avec une haute précision (précision équilibrée, 86%, sensibilité, 93%; spécificité 79%). En accord avec les résultats précédents, les principaux facteurs de risque pour le TUO dans ce modèle étaient les indicateurs d’utilisation d’opioïdes et des antécédents de troubles d’utilisation d’autres substances.
Conclusion: Notre étude présente une prédiction prospective individualisée des cas de TUO en appliquant l’AM à de vastes ensembles de données de santé administratives. Ces prédictions prospectives basées sur l’AM seraient essentielles pour les futures applications cliniques potentielles dans la détection précoce des TUO.
Keywords: administrative health data; electronic health records; machine learning; opioid use disorder; prospective validation.