Learning Portuguese Clinical Word Embeddings: A Multi-Specialty and Multi-Institutional Corpus of Clinical Narratives Supporting a Downstream Biomedical Task

Lucas Emanuel Silva E Oliveira; Yohan Bonescki Gumiel; Arnon Bruno Ventrilho Dos Santos; Lilian Mie Mukai Cintho; Deborah Ribeiro Carvalho; Sadid A Hasan; Claudia Maria Cabral Moro

doi:10.3233/SHTI190196

Learning Portuguese Clinical Word Embeddings: A Multi-Specialty and Multi-Institutional Corpus of Clinical Narratives Supporting a Downstream Biomedical Task

Stud Health Technol Inform. 2019 Aug 21:264:123-127. doi: 10.3233/SHTI190196.

Authors

Lucas Emanuel Silva E Oliveira¹, Yohan Bonescki Gumiel¹, Arnon Bruno Ventrilho Dos Santos¹, Lilian Mie Mukai Cintho¹, Deborah Ribeiro Carvalho¹, Sadid A Hasan², Claudia Maria Cabral Moro¹

Affiliations

¹ Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil.
² AI Lab, Philips Research North America, Cambridge, MA, USA.

PMID: 31437898
DOI: 10.3233/SHTI190196

Abstract

In this paper, we trained a set of Portuguese clinical word embedding models of different granularities from multi-specialty and multi-institutional clinical narrative datasets. Then, we assessed their impact on a downstream biomedical NLP task of Urinary Tract Infection disease identification. Additionally, we intrinsically evaluated our main model using an adapted version of Bio-SimLex for the Portuguese language. Our empirical results showed that the larger, coarse-grained model achieved a slightly better outcome when compared with the small, fine-grained model in the proposed task. Moreover, we obtained satisfactory results with Bio-SimLex intrinsic evaluation.

Keywords: Electronic Health Records; Natural Language Processing.

MeSH terms

Language
Machine Learning*
Narration
Natural Language Processing*
Portugal