The increasing digitization of the healthcare system is leading to a growing volume of health data. Leveraging this data beyond its initial collection purpose for secondary use can provide valuable insights into diagnostics, treatment processes, and the quality of care. The Health Data Lab (HDL) will provide infrastructure for this purpose. Both the protection of patient privacy and optimal analytical capabilities are of central importance in this context, and artificial intelligence (AI) provides two opportunities. First, it enables the analysis of large volumes of data with flexible models, which means that hidden correlations and patterns can be discovered. Second, synthetic - that is, artificial - data generated by AI can protect privacy.This paper describes the KI-FDZ project, which aims to investigate innovative technologies that can support the secure provision of health data for secondary research purposes. A multi-layered approach is investigated in which data-level measures can be combined in different ways with processing in secure environments. To this end, anonymization and synthetization methods, among others, are evaluated based on two concrete application examples. Moreover, it is examined how the creation of machine learning pipelines and the execution of AI algorithms can be supported in secure processing environments. Preliminary results indicate that this approach can achieve a high level of protection while maintaining data validity. The approach investigated in the project can be an important building block in the secure secondary use of health data.
Die zunehmende Digitalisierung des Gesundheitswesens ist verbunden mit einem stetig wachsenden Datenvolumen, das durch Sekundärnutzung wertvolle Erkenntnisse über Diagnostik, Behandlungsprozesse und die Versorgungsqualität liefern kann. Das Forschungsdatenzentrum Gesundheit (FDZ) soll hierfür eine Infrastruktur bereitstellen. Dabei sind sowohl der Schutz der Privatsphäre der Patientinnen und Patienten als auch optimale Auswertungsmöglichkeiten von zentraler Bedeutung. Künstliche Intelligenz (KI) bietet hierfür ein doppeltes Potenzial. Zum einen ermöglichen Methoden des Machine Learning die Verarbeitung großer Datenmengen und die Analyse komplexer Zusammenhänge. Zum anderen können mithilfe von KI erzeugte synthetische – also künstliche – Daten die Privatsphäre schützen.In diesem Beitrag wird das Projekt KI-FDZ vorgestellt, welches innovative Technologien erforscht, die eine sichere Bereitstellung von Sekundärdaten für Forschungszwecke gewährleisten können. Es wird ein mehrschichtiger Ansatz untersucht, bei dem Maßnahmen auf Datenebene auf unterschiedliche Weise mit der Verarbeitung in sicheren Umgebungen kombiniert werden können. Dazu werden unter anderem Anonymisierungs- und Synthetisierungsmethoden anhand von 2 konkreten Anwendungsbeispielen evaluiert. Zudem wird untersucht, wie das Erstellen von Pipelines für maschinelles Lernen und die Ausführung von KI-Algorithmen in sicheren Umgebungen gestaltet werden können. Vorläufige Ergebnisse deuten darauf hin, dass mit diesem Ansatz ein hohes Maß an Schutz bei gleichzeitig hoher Datenvalidität erreicht werden kann. Der im Projekt untersuchte Ansatz kann ein wichtiger Baustein für die sichere Sekundärnutzung von Gesundheitsdaten sein.
Keywords: Big data; Data exchange; Data protection technologies; Machine learning; Medical research.
© 2024. The Author(s).