Objective: To achieve instance segmentation of upper aerodigestive tract (UADT) neoplasms using a deep learning (DL) algorithm, and to identify differences in its diagnostic performance in three different sites: larynx/hypopharynx, oral cavity and oropharynx.
Methods: A total of 1034 endoscopic images from 323 patients were examined under narrow band imaging (NBI). The Mask R-CNN algorithm was used for the analysis. The dataset split was: 935 training, 48 validation and 51 testing images. Dice Similarity Coefficient (Dsc) was the main outcome measure.
Results: Instance segmentation was effective in 76.5% of images. The mean Dsc was 0.90 ± 0.05. The algorithm correctly predicted 77.8%, 86.7% and 55.5% of lesions in the larynx/hypopharynx, oral cavity, and oropharynx, respectively. The mean Dsc was 0.90 ± 0.05 for the larynx/hypopharynx, 0.60 ± 0.26 for the oral cavity, and 0.81 ± 0.30 for the oropharynx. The analysis showed inferior diagnostic results in the oral cavity compared with the larynx/hypopharynx (p < 0.001).
Conclusions: The study confirms the feasibility of instance segmentation of UADT using DL algorithms and shows inferior diagnostic results in the oral cavity compared with other anatomic areas.
Instance segmentation nei tumori delle vie areo-digestive superiori.
Obiettivo: Valutare l’instance segmentation utilizzando un algoritmo di intelligenza artificiale (IA) nei tumori delle vie aerodigestive superiori. Si è poi confrontata la performance diagnostica in tre diversi siti anatomici: laringe/ipofaringe, cavo orale e orofaringe.
Metodi: Sono state analizzate 1034 immagini NBI di 323 pazienti. Lo studio si è avvalso dell’algoritmo Mask-R-CNN. Il dataset è stato suddiviso in 935 immagini per il training, 48 per la validazione e 51 per il testing. Il principale outcome misurato è stato il Dice Similarity Coefficient (Dsc).
Risultati: L’algoritmo ha identificato le lesioni nel 76.5% delle immagini. Il valore totale del Dsc è stato 0,90 ± 0,05. Considerando le diverse sottosedi, sono state segmentate il 77,8% delle lesioni laringo-ipofaringee, l’86,7% delle orali e il 55,5% delle orofaringee. Il Dsc per le tre sottosedi è stato 0,90 ± 0,05, 0,60 ± 0,26 e 0,81 ± 0,30 rispettivamente per laringe/ipofaringe, cavo orale e orofaringe. L’analisi ha dimostrato risultati migliori per la laringe/ipofaringe e l’orofaringe rispetto a quelli del cavo orale (p < 0,001).
Conclusioni: Questo studio dimostra la fattibilità dell’instance segmentation nelle vie aerodigestive superiori utilizzando un algoritmo di IA, mostrando risultati inferiori nel cavo orale rispetto alle altre sottosedi.
Keywords: artificial intelligence; deep learning; instance segmentation; videomics.
Copyright © 2023 Società Italiana di Otorinolaringoiatria e Chirurgia Cervico-Facciale, Rome, Italy.