Artificial intelligence for the recognition of benign lesions of vocal folds from audio recordings

Maria Raffaella Marchese; Federico Sensoli; Silvia Campagnini; Matteo Cianchetti; Andrea Nacci; Francesco Ursino; Lucia D'Alatri; Jacopo Galli; Maria Chiara Carrozza; Gaetano Paludetti; Andrea Mannini

doi:10.14639/0392-100X-N2309

Artificial intelligence for the recognition of benign lesions of vocal folds from audio recordings

Acta Otorhinolaryngol Ital. 2023 Oct;43(5):317-323. doi: 10.14639/0392-100X-N2309. Epub 2023 Jul 28.

Authors

Maria Raffaella Marchese¹, Federico Sensoli², Silvia Campagnini^{2

3}, Matteo Cianchetti², Andrea Nacci⁴, Francesco Ursino⁵, Lucia D'Alatri^{1

6}, Jacopo Galli^{1

6}, Maria Chiara Carrozza², Gaetano Paludetti^{1

6}, Andrea Mannini^{2

3}

Affiliations

¹ Unità Operativa Complessa di Otorinolaringoiatria, Dipartimento di Neuroscienze, Organi di Senso e Torace, Fondazione Policlinico Universitario A. Gemelli IRCCS, Rome, Italy.
² Institute of Biorobotics, Scuola Superiore Sant'Anna, Pontedera, Italy.
³ IRCCS Fondazione Don Carlo Gnocchi, Firenze, Italy.
⁴ U.O. Otorinolaringoiatria Audiologia e Foniatria, Azienda Ospedaliero Universitaria Pisana, Pisa, Italy.
⁵ Istituto Nazionale di Ricerche in Foniatria "G. Bartalena", Pisa, Italy.
⁶ Sezione di Otorinolaringoiatria, Dipartimento Universitario Testa-Collo e Organi di Senso, Università Cattolica del Sacro Cuore, Rome, Italy.

Abstract
in English, Italian

Objective: The diagnosis of benign lesions of the vocal fold (BLVF) is still challenging. The analysis of the acoustic signals through the implementation of machine learning models can be a viable solution aimed at offering support for clinical diagnosis.

Materials and methods: In this study, a support vector machine was trained and cross-validated (10-fold cross-validation) using 138 features extracted from the acoustic signals of 418 patients with polyps, nodules, oedema, and cysts. The model's performance was presented as accuracy and average F1-score. The results were also analysed in male (M) and female (F) subgroups.

Results: The validation accuracy was 55%, 80%, and 54% on the overall cohort, and in M and F, respectively. Better performances were observed in the detection of cysts and nodules (58% and 62%, respectively) vs polyps and oedema (47% and 53%, respectively). The results on each lesion and the different patterns of the model on M and F are in line with clinical observations, obtaining better results on F and detection of sensitive polyps in M.

Conclusions: This study showed moderately accurate detection of four types of BLVF using acoustic signals. The analysis of the diagnostic results on gender subgroups highlights different behaviours of the diagnostic model.

Il ruolo del machine learning nel riconoscimento delle lesioni cordali benigne dal segnale vocale.

Obiettivo: La diagnosi delle lesioni cordali benigne è ancora una sfida. L’analisi dei segnali vocali attraverso l’applicazione di modelli di Machine Learning potrebbe rappresentare una valida soluzione nell’offrire un supporto alla diagnosi clinica.

Materiali e metodi: In questo studio una Support Vector Machine è stata addestrata e sottoposta a validazione incrociata 10-fold usando 138 caratteristiche estratte dai segnali acustici di 418 pazienti affetti da polipi, noduli, edema di Reinke e cisti. Le prestazioni del modello sono state espresse in termini di accuratezza e F1-score medio. I risultati sono stati inoltre analizzati nei sottogruppi Maschi (M) e Femmine (F).

Risultati: L’accuratezza era del 55%, 80% e 54% rispettivamente nel campione totale, nei maschi e nelle femmine. Le performances migliori sono state ottenute nel riconoscimento delle cisti e dei noduli (58% e 62% rispettivamente), rispetto ai polipi e agli edemi (47% e 53% rispettivamente). I risultati per ciascuna lesione e i differenti pattern del modello sono in linea con le caratteristiche cliniche nei sottogruppi maschi e femmine per i migliori risultati ottenuti nel gruppo femminile e una sensibile discriminazione dei polipi nei maschi.

Conclusioni: Questa ricerca ha dimostrato una capacità di riconoscimento dei quattro tipi di BLVF in base ai segnali acustici moderatamente accurata. L’analisi dei risultati diagnostici nei sottogruppi divisi per genere evidenzia i diversi comportamenti del modello diagnostico.

Keywords: artificial intelligence; benign lesions of vocal folds; dysphonia; machine learning.

Abstract in English, Italian

Abstract
in English, Italian