Introduction: Benefiting from the disability pension implies morbid (physical and psychological) and social (fall in income) implications for the person. It also has economic consequences for society, with increasing expenses since 2011 (+4.9% on average per year). Investing in preventive actions against the loss of the ability to work should limit these consequences, but it requires targeting people at risk. The development of artificial intelligence opens up prospects in this regard.
Purpose of the research: To target, using supervised machine learning methods, those people with a high probability of becoming eligible for the disability pension over the course of the year based on their socio-demographic and medical characteristics (pathologies, work stoppages, drugs taken, and medical procedures).
Method: Among the beneficiaries of the French public welfare system aged 20–64 in 2017, we compared the socio-demographic and medical characteristics between 2014 and 2016 of those who received a disability pension in 2017 and not before, and those who did not receive a disability pension from 2014 to 2017. The determination of the boundary between these two groups was tested using logistic regression, decision trees, random forests, naive Bayes classifiers, and support vector machines. The models’ performance was compared with respect to accuracy, precision, sensitivity, specificity, and AUC (area under the curve). Finally, the predictive power of each factor was measured by AUC too.
Results: The boosted logistic regression had the best performance for three of the five criteria, but low sensitivity. The best sensitivity was obtained with the support vector machines, with an accuracy close to that of the boosted logistic regression, but a lower precision and specificity. Random forests offered the best discriminatory ability. The naive Bayes classifier had the worst performance. The most predictive factors in becoming eligible for the disability pension were having 30 days or more off sick in 2014, 2015, and 2016 and being aged 55 to 64.
Conclusion: Supervised learning methods have appeared relevant for identifying people with the highest probability of becoming eligible for the disability pension and, more broadly, for steering public and social policies.
Introduction: Le recours à la pension d’invalidité a des implications morbides (physiques ou psychiques) et sociales (baisse du revenu). Il a aussi des conséquences économiques pour la société, avec des dépenses croissantes depuis 2011 (+4,9 % en moyenne par année). Prévenir la perte de la capacité à travailler devrait permettre de limiter ces conséquences, mais nécessite de cibler les personnes à risque. Le développement des méthodes d’intelligence artificielle ouvre des perspectives en ce sens.
But de l’étude: Cibler les personnes ayant une « forte » probabilité de devenir bénéficiaires d’une pension d’invalidité dans l’année au regard de leurs caractéristiques sociodémographiques et médicales (pathologies, arrêts de travail, médicaments et actes médicaux) à partir de méthodes d’apprentissage automatique supervisé.
Méthodes: Parmi les bénéficiaires du régime général âgés de 21 à 64 ans en 2017, comparaison des caractéristiques de 2014 à 2016 entre les nouveaux bénéficiaires d’une pension d’invalidité en 2017 et ceux n’en bénéficiant pas. La détermination de la frontière entre ces deux groupes a été testée à l’aide de la régression logistique, des arbres de décision, des forêts aléatoires, de la classification naïve bayésienne et des séparateurs à vaste marge. Les performances des modèles ont été comparées au regard de la justesse, la précision, la sensibilité, la spécificité et l’AUC (Area Under the Curve). Le pouvoir prédictif de chaque facteur est estimé à partir de l’AUC.
Résultats: La régression logistique boostée avait les meilleures performances sur trois des cinq critères retenus, mais une faible sensibilité. La meilleure sensibilité était obtenue avec les séparateurs à vaste marge, avec une justesse proche de la régression logistique boostée mais une précision et une spécificité inférieures. Les forêts aléatoires offraient la meilleure capacité discriminatoire. Les facteurs les plus prédictifs du risque de passer en invalidité étaient le bénéfice d’au moins 30 jours d’indemnités journalières pour maladie en 2014, 2015 et 2016 et le fait d’être âgé de 55 à 64 ans.
Conclusion: Les méthodes d’apprentissage supervisé sont apparues pertinentes pour le ciblage des personnes les plus à risque de recourir à la pension d’invalidité et, plus largement, pour le pilotage d’autres prestations sociales.
Keywords: Artificial intelligence; Supervised machine learning; Disability insurance; Forecasting; Social security.