70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
Fehleranalyse als Mittel der Datenkuration – Erfahrungen aus dem Datenintegrationszentrum
2Institut für Medizinische Statistik, Informatik und Datenwissenschaften, Universitätsklinikum Jena, Jena, Germany
Text
Einleitung: Datenqualität im Gesundheitswesen ist von entscheidender Bedeutung für Forschung, Versorgung und Verbesserung von Entscheidungsprozessen [1], [2]. Im Datenintegrationszentrum (DIZ) werden Daten aus unterschiedlichen klinischen IT-Systemen konform zum Kerndatensatz der Medizininformatik-Initiative zusammengeführt und für die Forschung standardisiert bereitgestellt [3]. Um Datenqualität hinsichtlich der Vollständigkeit und Konformität sicherzustellen, wurde ein Logdatei-Monitoring etabliert. Dieses überwacht ETL-Prozesse auf Fehler, um Datenkuration zu unterstützen und frühzeitige Korrekturen anzustoßen.
Methoden: Eine zentrale Komponente der ETL-Strukturen am DIZ ist ein FHIR-Server, der über eine HL7v2-Nachrichtenschnittstelle verfügt. Auf Basis dieser Schnittstelle wurden im DIZ mehrere ETL-Strecken etabliert. Dadurch werden HL7v2-Nachrichteninhalte in KDS-konforme FHIR-Ressourcen transformiert und direkt persistiert.
Fehler, die bei der Transformation oder Speicherung auftreten, werden in Logdateien protokolliert. Um aufgetretene Fehler im Rahmen der Datenintegration in den Logdateien zu identifizieren und zu klassifizieren, wurden eigene Analyseskripte entwickelt. Die Identifikation und Klassifikation erfolgte anhand vordefinierter Muster, die aus vorhergehenden Analysen der ETL-Logdateien abgeleitet wurden. Die identifizierten Fehler und mögliche Ursachen wurden direkt an das Entwicklungsteam der ETL-Strecke gemeldet um entsprechende Maßnahmen zu ergreifen.
Als weiteres Werkzeug zur Fehleranalyse wurden Dashboards entwickelt, in denen der Datenfluss visualisiert wird, so dass Fehlerquellen in Echtzeit nachvollzogen und zeitnah behoben werden können. Diese Dashboards dienen auch als direkte Rückkopplung der Ergebnisse aus den Fehlerkorrekturen an das Entwicklungsteam.
Ergebnisse: Die Analyse der Logdateien über einen Zeitraum von 15 Monaten mit insgesamt 2,44 Millionen Fehlermeldungen zeigte, dass zu Beginn der Datenerhebung mit 98,62% der Hauptanteil der Fehler durch fehlende Referenzen entstand. Diese wurden vor allem hevorgerufen durch Bezüge auf historische Daten oder nicht eingehaltene Nachrichtenreihenfolgen. Unvorhergesehene Veränderungen an Entities (z.B. Locations oder Organizations) zur Laufzeit der Importe verursachten initial 1,26% der Fehler. Einen verschwindend geringen Anteil von 0,01% machten hingegen Fehler, hervorgerufen durch semantische Inkonsistenzen, beispielsweise durch nicht aktuelle ConceptMaps, aus. Hinzu kam noch ein Anteil von 0,11% nicht näher klassifizierter Fehler.
Aus der näheren Analyse der Fehler wurden Verbesserungen an den ETL-Strecken vorgenommen, die zu einer Reduktion der Gesamtfehler um 89,67% im Vergleich zum Beginn, gemessen über jeweils einen Monat, führten.
Des weiteren konnten die angewendeten Korrekturen genutzt werden um Daten, welche durch die Fehler initial nicht verarbeitet werden konnten, nachzuliefern oder aus alternativen Quellen zu ergänzen und so zu einer Korrektur fehlerhafter oder fehlender Daten beitragen. Außerdem konnten im Rahmen der Ursachenanalysen notwendige Anpassungen an internen Prozessen identifiziert werden, welche direkte Auswirkungen auf die Datenintegration hatten.
Schlussfolgerung: Die ermittelten Fehlerquellen entsprechen weitestgehend denen aus vorherigen Arbeiten [4]. Aus den ermittelten Fehlerraten über die unterschiedlichen Zeiträume lässt sich eine eindeutige Verbesserung der ETL-Strecken nachweisen. Die systematische Analyse der Logs und Rückkopplung der Ergebnisse an das Entwicklungsteam hat nicht nur zu einer optimierten Verarbeitung, sondern in direkter Folge auch zu einer besseren Datenqualität geführt. Des weiteren ließen sich fehlerhafte Daten frühzeitig identifizieren und durch zeitnahes Eingreifen korrigieren.
Eine Fortführung und Erweiterung des kontinuierlichen Monitorings soll zukünftig dafür sorgen, die Datenqualität zu erhalten und noch weiter zu verbessern. Auch eine Ausweitung auf weitere ETL-Komponenten wie z.B. die Data Integration Pipeline [5] wurde begonnen.
Langfristig ist es wichtig, in den Quellsystemen strukturelle Maßnahmen zur Datenqualitätsverbesserung zu fördern.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
Literatur
[1] Declerck J, Kalra D, Thienpont G. Health Data Quality: A Dynamic Complexity. HealthManagement. 2023;23(1).[2] Weber S. Die Auswirkungen von Primärdatenqualität und -interoperabilität auf Analysen von Real-World-Daten. Bundesgesundheitsblatt. 2024;67:195–202. DOI: 10.1007/s00103-023-03824-y
[3] Albashiti F, Thasler R, Wendt T, et al. Die Datenintegrationszentren – Von der Konzeption in der Medizininformatik-Initiative zur lokalen Umsetzung in einem Netzwerk Universitätsmedizin. Bundesgesundheitsbl. 2024;67:629–636. DOI: 10.1007/s00103-024-03879-5
[4] Kamal MM, Kutafina E, Beyan O. Real-Time Process Monitoring Hospital Data. In: Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 945. DOI: 10.3205/24gmds046
[5] Phan-Vogtmann LA, Helhorn A, Kruse HM, et al. Approaching Clinical Data Transformation from Disparate Healthcare IT Systems Through a Modular Framework. In: Shabo (Shvo) A, Madsen I, Prokosch HU, Häyrinen K, Wolf KH, Martin-Sanchez F, Löbe M, Deserno TM, Hrsg. ICT for Health Science Research: Proceedings of the EFMI 2019 Special Topic Conference, Hannover, 7.–10. April 2019. Amsterdam: IOS Press; 2019. S. 85–89. (Studies in Health Technology and Informatics; 258). DOI: 10.3233/978-1-61499-959-1-85



