70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
HPC-nativer 5-SAFE Trusted Research Environment (TRE) für skalierbare Medizinische Datenanalyse
2Georg-August-Universität Göttingen, Göttingen, Germany
Text
Einleitung: Die Medizinische Informatik Initiative (MII) [1] hat durch die Etablierung von Datenintegrationszentren (DIZ) [2] bereits entscheidende Fortschritte in der Standardisierung und Bereitstellung von Forschungsdaten erzielt. Nach der freien Datenübergabe an Forschende kann jedoch der Zugriff nicht mehr widerrufen werden und die Einhaltung von IT-Sicherheitsstandards weder überprüft noch unterstützt werden. Zudem existiert keine Transparenz über Datenumgang und -lokalität, worunter sowohl die IT-Sicherheit als auch die Forschungsreproduzierbarkeit leiden.
Gleichzeitig verschärfen sich die legislativen Anforderungen: Im European Health Data Space ist sekundäre Datennutzung nur über Secure Processing Environments möglich [3], und das Gesundheitsdatennutzungsgesetz legt fest, dass Konzepte zur Nutzung von sicheren Verarbeitungsumgebungen entwickelt werden sollen [4]. Auch wachsen, insbesondere durch die steigende Adoption von künstlicher Intelligenz [5], die Anforderungen an Rechenkapazitäten - typische Forschungsumgebungen bieten zu wenig Rechenleistung, während in herkömmlichen High Performance Computing (HPC) Systemen der Fokus primär auf Leistungsmaximierung liegt.
Als Lösung hat die Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) ein HPC-basiertes Trusted Research Environment (TRE) entwickelt, das auf dem etablierten "5 SAFE"-Framework aufbaut [6], [7] und leistungsstarke Datenanalyse unter höchsten Sicherheitsanforderungen ermöglicht.
Methoden: Unser TRE implementiert das „5 SAFE“-Framework vollständig: Safe People (vertrauenswürdige, geschulte Nutzer), Safe Projects (nur genehmigte Projekte erhalten zeitlich beschränkten Zugang), Safe Settings (isolierte Datenverarbeitung ohne Downloadmöglichkeit), Safe Outputs (manuelle Statistical Disclosure Control vor Export durch Datenbesitzer) und Safe Data (pseudonymisierte Daten). Aufbauend auf der Standardisierungsarbeit der MII muss der Forschende für den Zugriff auf Forschungs- und Versorgungsdaten den Projektantrag beim DIZ des Datenbesitzers stellen, der von einem Use-and-Access-Committee genehmigt werden muss. Nach erfolgreicher Schulung und Nutzervereinbarung richtet die GWDG projektspezifische HPC-Umgebungen ein, in denen pseudonymisierte Daten verschlüsselt vom DIZ hochgeladen werden. Innerhalb der Forschungsumgebung können Forschungsgruppen eigene Berechtigungssysteme erstellen.
Die Verarbeitung erfolgt in isolierten Umgebungen via Singularity-Containern mit permanenter Datenverschlüsselung (GoCryptFS) und starken Netzwerk- und Dateibeschränkungen mittels eBPF/Firewall. Der Zugriff findet durch eine virtuelle Linux-Desktopumgebung statt. Da sich die Desktopumgebung bereits auf einem vollwertigen, nicht-virtualisierten Rechenknoten befindet, kann die Datenexploration und -analyse mit integrierten Analysetools oder spezialisierter Software interaktiv stattfinden. Für lange, rechenintensive Jobs können zudem SLURM-Jobs genutzt werden.
Für den Datenexport wurde ein Schleusensystem-Workflow implementiert, bei dem nur aggregierte, nicht-personenidentifizierbare Daten nach einem Vier-Augen-Prinzip exportiert werden dürfen.
Ergebnisse: Unsere TRE-Lösung integriert sich nahtlos in bestehende Forschungsprozesse. Neben der verbesserten Datensicherheit durch Verschlüsselung, Isolation, einem kryptografisch erzwungenen Rechtesystem und weiteren Anpassungen auf Kernel-Ebene bietet sie:
- Vollständige Kontrolle über Datenlebenszyklus für Dateneigentümer
- Bereitstellung von Sensibilisierungstraining für Forscher
- Transparenz durch Audit-Trails aller Dateizugriffe
- Interaktive Forschungsumgebungen mit High-Performance-Computing Kapazitäten
- Compliance mit internationalen Standards (ISO9001, ISO27001, C5 in Vorbereitung)
Ein Pilotprojekt mit den Universitätsmedizin Göttingen und Greifswald wird aktuell durchgeführt.
Schlussfolgerung: Das entwickelte HPC-basierte TRE erfüllt alle 5-SAFE Kriterien und stellt einen Fortschritt für die sichere Analyse medizinischer Daten dar, insbesondere für rechenintensive Use-Cases wie Genomik-Analysen oder KI-gestützte Bildauswertungen. Es überwindet die Leistungslimitationen traditioneller TREs und ermöglicht ein interaktives grafisches Arbeiten. Die nahtlose Integration in bestehende Workflows und Nutzung etablierter Kompetenzen erleichtern die Integration. Mit der Fertigstellung der letzten Komponenten im zweiten und dritten Quartal dieses Jahres wird die TRE zu einer umfassenden Lösung für die sichere Analyse sensibler medizinischer Daten.
Die Autoren sind Mitarbeiter der GWDG und beschreiben in diesem Beitrag die TRE-Lösung dieser Institution.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
References
[1] Semler SC, Wissing F, Heyder R. German Medical Informatics Initiative. Methods Inf Med. 2018 Jul;57(S 01):e50-e56. DOI: 10.3414/ME18-03-0003[2] Albashiti F, Thasler R, Wendt T, Bathelt F, Reinecke I, Schreiweis B. Die Datenintegrationszentren – Von der Konzeption in der Medizininformatik-Initiative zur lokalen Umsetzung in einem Netzwerk Universitätsmedizin [Data integration centers-from a concept in the Medical Informatics Initiative to its local implementation in the Network of University Medicine]. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz. 2024 Jun;67(6):629-636. DOI: 10.1007/s00103-024-03879-5
[3] EHDS Regulation. HealthDCAT-AP. Literacy Article 73. Available from: https://metadata.healthdataportal.eu/dev.py?N=simple&O=2662
[4] Gesetz zur Nutzung von Gesundheitsdaten zu gemeinwohlorientierten Forschungszwecken und zur datenbasierten Weiterentwicklung des Gesundheitswesens (Gesundheitsdatennutzungsgesetz - GDNG). Available from: https://www.gesetze-im-internet.de/gdng/BJNR0660B0024.html
[5] Xie Y, Zhai Y, Lu G. Evolution of artificial intelligence in healthcare: a 30-year bibliometric study. Front Med (Lausanne). 2025 Jan 15;11:1505692. DOI: 10.3389/fmed.2024.1505692
[6] Stokes P. The ‘Five Safes’ – Data Privacy at ONS. Office for National Statistics; 2017. Available from: https://blog.ons.gov.uk/2017/01/27/the-five-safes-data-privacy-at-ons/
[7] Hubbard T, Reilly G, Varma S, Seymour D. Trusted Research Environments (TRE) Green Paper. Version 2.0.0. Zenodo; 2020. DOI: 10.5281/zenodo.4594704



