Optimizing radiomics for prostate cancer diagnosis: feature selection strategies, machine learning classifiers, and MRI sequences

Eugenia Mylona; Dimitrios I Zaridis; Charalampos Ν Kalantzopoulos; Nikolaos S Tachos; Daniele Regge; Nikolaos Papanikolaou; Manolis Tsiknakis; Kostas Marias; ProCAncer-I Consortium; Dimitrios I Fotiadis

doi:10.1186/s13244-024-01783-9

Optimizing radiomics for prostate cancer diagnosis: feature selection strategies, machine learning classifiers, and MRI sequences

Insights Imaging. 2024 Nov 4;15(1):265. doi: 10.1186/s13244-024-01783-9.

Authors

Eugenia Mylona^{1

2}, Dimitrios I Zaridis^{1

2

3}, Charalampos Ν Kalantzopoulos^{1

2}, Nikolaos S Tachos^{1

2}, Daniele Regge⁴, Nikolaos Papanikolaou⁵, Manolis Tsiknakis^{6

7}, Kostas Marias^{6

7}; ProCAncer-I Consortium; Dimitrios I Fotiadis^{8

9}

Collaborators

ProCAncer-I Consortium:
Eugenia Mylona, Dimitris Zaridis, Charalampos Kalantzopoulos, Nikolaos S Tachos, Daniele Regge, Nikolaos Papanikolaou, Manolis Tsiknakis, Kostas Marias, Dimitris Fotiadis, Stelios Sfakianakis, Varvara Kalokyri, Eleftherios Trivizakis, Grigorios Kalliatakis, Avtantil Dimitriadis, José Guilherme de Almeida, Ana Castro Verde, Ana Carolina Rodrigues, Nuno Rodrigues, Miguel Chambel, Henkjan Huisman, Maarten de Rooij, Anindo Saha, Jasper J Twilt, Jurgen Futterer, Luis Martí-Bonmatí, Leonor Cerdá-Alberich, Gloria Ribas, Silvia Navarro, Manuel Marfil, Emanuele Neri, Giacomo Aringhieri, Lorenzo Tumminello, Vincenzo Mendola, Nan, Deniz Akata, Mustafa Özmen, Ali Devrim Karaosmanoglu, Firat Atak, Musturay Karcaaltincaba, Joan C Vilanova, Jurgita Usinskiene, Ruta Briediene, Audrius Untanas, Kristina Slidevska, Katsaros Vasilis, Georgiou Georgios, Dow-Mu Koh, Robby Emsley, Sharon Vit, Ana Ribeiro, Simon Doran, Tiaan Jacobs, Gracián García-Martí, Valentina Giannini, Simone Mazzetti, Giovanni Cappello, Giovanni Maimone, Valentina Napolitano, Sara Colantonio, Maria Antonietta Pascali, Eva Pachetti, Giulio Del Corso, Danila Germanese, Andrea Berti, Gianluca Carloni, Jayashree Kalpathy-Cramer, Christopher Bridge, Joao Correia, Walter Hernandez, Zoi Giavri, Christos Pollalis, Dimitrios Agraniotis, Ana Jiménez Pastor, Jose Munuera Mora, Clara Saillant, Theresa Henne, Rodessa Marquez

Affiliations

¹ Biomedical Research Institute, FORTH, GR 45110, Ioannina, Greece.
² Unit of Medical Technology Intelligent Information Systems, University of Ioannina, Ioannina, Greece.
³ Biomedical Engineering Laboratory, School of Electrical & Computer Engineering, National Technical University of Athens, Athens, Greece.
⁴ Department of Radiology, Candiolo Cancer Institute, FPO-IRCCS, Candiolo, Italy.
⁵ Computational Clinical Imaging Group, Champalimaud Foundation, Lisboa, Portugal.
⁶ Computational Biomedicine Laboratory, Institute of Computer Science, FORTH, GR 70013, Heraklion, Greece.
⁷ Department of Electrical and Computer Engineering, Hellenic Mediterranean University, GR 71004, Heraklion, Greece.
⁸ Biomedical Research Institute, FORTH, GR 45110, Ioannina, Greece. [email protected].
⁹ Unit of Medical Technology Intelligent Information Systems, University of Ioannina, Ioannina, Greece. [email protected].

Abstract

Objectives: Radiomics-based analyses encompass multiple steps, leading to ambiguity regarding the optimal approaches for enhancing model performance. This study compares the effect of several feature selection methods, machine learning (ML) classifiers, and sources of radiomic features, on models' performance for the diagnosis of clinically significant prostate cancer (csPCa) from bi-parametric MRI.

Methods: Two multi-centric datasets, with 465 and 204 patients each, were used to extract 1246 radiomic features per patient and MRI sequence. Ten feature selection methods, such as Boruta, mRMRe, ReliefF, recursive feature elimination (RFE), random forest (RF) variable importance, L1-lasso, etc., four ML classifiers, namely SVM, RF, LASSO, and boosted generalized linear model (GLM), and three sets of radiomics features, derived from T2w images, ADC maps, and their combination, were used to develop predictive models of csPCa. Their performance was evaluated in a nested cross-validation and externally, using seven performance metrics.

Results: In total, 480 models were developed. In nested cross-validation, the best model combined Boruta with Boosted GLM (AUC = 0.71, F1 = 0.76). In external validation, the best model combined L1-lasso with boosted GLM (AUC = 0.71, F1 = 0.47). Overall, Boruta, RFE, L1-lasso, and RF variable importance were the top-performing feature selection methods, while the choice of ML classifier didn't significantly affect the results. The ADC-derived features showed the highest discriminatory power with T2w-derived features being less informative, while their combination did not lead to improved performance.

Conclusion: The choice of feature selection method and the source of radiomic features have a profound effect on the models' performance for csPCa diagnosis.

Critical relevance statement: This work may guide future radiomic research, paving the way for the development of more effective and reliable radiomic models; not only for advancing prostate cancer diagnostic strategies, but also for informing broader applications of radiomics in different medical contexts.

Key points: Radiomics is a growing field that can still be optimized. Feature selection method impacts radiomics models' performance more than ML algorithms. Best feature selection methods: RFE, LASSO, RF, and Boruta. ADC-derived radiomic features yield more robust models compared to T2w-derived radiomic features.

Keywords: MRI; Machine learning; Prostate cancer; Radiomics.

Grants and funding

952159/Horizon 2020 Framework Programme