[Data-driven intensive care: a lack of comprehensive datasets]

Med Klin Intensivmed Notfmed. 2024 Jun;119(5):352-357. doi: 10.1007/s00063-024-01141-z. Epub 2024 Apr 26.
[Article in German]

Abstract

Intensive care units provide a data-rich environment with the potential to generate datasets in the realm of big data, which could be utilized to train powerful machine learning (ML) models. However, the currently available datasets are too small and exhibit too little diversity due to their limitation to individual hospitals. This lack of extensive and varied datasets is a primary reason for the limited generalizability and resulting low clinical utility of current ML models. Often, these models are based on data from single centers and suffer from poor external validity. There is an urgent need for the development of large-scale, multicentric, and multinational datasets. Ensuring data protection and minimizing re-identification risks pose central challenges in this process. The "Amsterdam University Medical Center database (AmsterdamUMCdb)" and the "Salzburg Intensive Care database (SICdb)" demonstrate that open access datasets are possible in Europe while complying with the data protection regulations of the General Data Protection Regulation (GDPR). Another challenge in building intensive care datasets is the absence of semantic definitions in the source data and the heterogeneity of data formats. Establishing binding industry standards for the semantic definition is crucial to ensure seamless semantic interoperability between datasets.

Intensivstationen bieten eine datenreiche Umgebung, die das Potenzial hat, Datensätze im Bereich von „Big Data“ zu generieren, die genutzt werden könnten, um leistungsfähige Machine-Learning(ML)-Modelle zu trainieren. Die derzeit verfügbaren Datensätze sind jedoch zu klein und weisen eine – durch die Beschränkung auf einzelne Krankenhäuser – zu geringe Diversität auf. Dieser Mangel an umfangreichen und vielfältigen Datensätzen ist ein Hauptgrund für die eingeschränkte Generalisierbarkeit und den daraus resultierenden geringen klinischen Nutzen aktueller ML-Modelle. Häufig basieren diese Modelle auf Daten einzelner Zentren und leiden unter schlechter externer Validität. Es besteht ein dringender Bedarf an der Entwicklung großangelegter, multizentrischer und multinationaler Datensätze. Die Gewährleistung des Datenschutzes und die Minimierung von Re-Identifikationsrisiken stellen dabei zentrale Herausforderungen dar. Die „Amsterdam University Medical Center data base“ (AmsterdamUMCdb) und „Salzburg Intensive Care database“ (SICdb) zeigen, dass „Open-Access-Datensätze“ unter Einhaltung der datenschutzrechtlichen Bestimmungen der Datenschutz-Grundverordnung (DSGVO) auch in Europa möglich sind. Eine weitere Schwierigkeit im Aufbau von Intensivdatensätzen ist das Fehlen von semantischen Definitionen in den Quelldaten und die Heterogenität der Datenformate. Die Etablierung von verbindlichen Industriestandards für die semantische Definition ist entscheidend, um eine nahtlose semantische Interoperabilität zwischen Datensätzen sicherzustellen.

Keywords: Big data; Data management; Datasets as topic; Health information interoperability; Machine learning.

Publication types

  • Review

MeSH terms

  • Big Data
  • Computer Security
  • Confidentiality
  • Critical Care* / standards
  • Databases, Factual
  • Datasets as Topic
  • Europe
  • Germany
  • Humans
  • Intensive Care Units*
  • Machine Learning*