70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
Datenqualität in empirischen Forschungsvorhaben: Das IDEFIM-Framework
Text
Einleitung: Ausgehend von einer Anwendung der Leitlinie zum adaptiven Management der Datenqualität in Kohortenstudien und Registern [1] für ein Benchmarking von sechs Gesundheitsregistern [2] wurde das Projekt IDEFIM (Indikatoren zur Datenqualität von empirischen Forschungsvorhaben in der Medizin, DFG-Projektnummer 506700202) initiiert. Die in der Leitlinie beschriebenen Indikatoren schienen nicht mehr aktuell und die Einordnung in die Kategorien Organisation, Integrität und Richtigkeit – insbesondere im internationalen Vergleich – nicht mehr zeitgemäß. Dieser Beitrag stellt die Ergebnisse einer Überarbeitung mit dem IDEFIM-Framework und den dort definierten Dimensionen vor.
Methodik: Zunächst wurde eine umfangreiche Literaturrecherche zu Begriffen der Datenqualität in mehreren Datenbanken mit Beschränkung auf Beiträge ab 2013 in deutscher oder englischer Sprache durchgeführt. Nach Ausschluss von Duplikaten verblieben 2.748 Treffer. Die anschließende Bewertung in mehreren Stufen führte zu einer endgültigen Auswahl von 117 Evidenzquellen. Insgesamt konnten 99 Evidenzquellen für die Zusammenstellung von Dimensionen von Daten genutzt werden. Dabei wurden auch Synonyme und benachbarte Konzepte wie Aspekt, Attribut, Kategorie, Charakteristik, Domäne, Merkmal, Metrik und Prozess akzeptiert. Zusätzlich wurden Dimensionen der ISO/IEC 25012 berücksichtigt. Für das Framework wurde weiteres Material einbezogen.
Ergebnisse: Das IDEFIM-Framework setzt sich aus fünf Ebenen zusammen: Kategorien, Dimensionen, Qualitätsindikatoren, Instanzen von Qualitätsindikatoren und Qualitäts-Checks. Damit wurden unterschiedliche Ansätze aus der Literatur sowie die ISO/IEC 25012 aufgenommen. Während Qualitätsindikatoren ein generisches quantitatives Maß wie „fehlende Werte in Datenelementen“ darstellen, sind Instanzen von Qualitätsindikatoren auf einen konkreten Anwendungsfall zugeschnitten, z. B. durch explizite Angabe der einbezogenen Datenelemente wie „fehlende Werte bei Geschlecht“. Instanzen von Qualitätsindikatoren kombinieren in der Regel Ergebnisse von Qualitäts-Checks, um Raten, Verhältnisse oder andere Verteilungsparameter eines Datenbestandes zu bestimmen. Qualitäts-Checks stellen die Bewertung eines einzelnen Eintrags dar, entweder eines Datenfeldes oder einer Gruppe von Datenfeldern. Die ISO 8000 beschränkt die Perspektive auf inhärente Eigenschaften von Daten. Die Zielsetzung einer Fitness for Purpose oder Fitness for Use machte jedoch die Erweiterung der Perspektive auf nicht inhärente Eigenschaften von Daten sowie auf die Ebene eines Datenbestandes notwendig. So wurde die Qualität der Metadaten zu einer weiteren Kategorie. Andere in der Literatur identifizierte Konzepte wie „Zugänglichkeit“ und „Grad der Offenheit“ verweisen auf die FAIR Guiding Principles [3] oder den 5-Sterne-Open-Data-Ansatz (https://5stardata.info). Um diese Aspekte abzudecken wurde eine dritte Kategorie „Qualität der Offenheit“ hinzugefügt. Weitere Aspekte, u. a. der ISO/IEC 25012, deckt eine vierte Kategorie „Kontextqualität“ ab. Dabei beziehen sich die letzten beiden Kategorien auf Informationen zum Datenbestand als Ganzes.
Diskussion/Schlussfolgerung: Das IDEFIM-Framework erweitert den Fokus der Qualität von Daten in ISO 8000 und ISO/IEC 25012 auf die Qualität eines Datenbestandes, wie sie im Mittelpunkt vieler Vorschläge aus wissenschaftlicher Perspektive steht. Es greift insbesondere die Bezeichnungen der Dimensionen aus den Standards auf. Die Unterscheidung zwischen Qualitätsindikatoren, Instanzen von Qualitätsindikatoren und Qualitäts-Checks ist ein einzigartiger Beitrag zur Klärung der Ebenen unterhalb von Dimensionen, wobei die Berechnung der Kennzahlen mithilfe entsprechender Tools kein Bestandteil des Projekts ist. IDEFIM kann damit zu einer Konvergenz zwischen öffentlichen, regulatorischen und wissenschaftlichen Ansätzen beitragen. Die Bestrebungen zur Entwicklung des Labels QUANTUM auf europäischer Ebene (https://quantumproject.eu) für die Datenqualität von Gesundheitsdaten sind ein weiterer Beweis für die wachsende Bedeutung dieses Themas.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
Literatur
[1] Nonnemacher M, Nasseh D, Stausberg J. Datenqualität in der medizinischen Forschung. Leitlinie zum adaptiven Management von Datenqualität in Kohortenstudien und Registern. 2. aktualisierte und erweiterte Auflage. Berlin; 2014. (TMF-Schriftenreihe; 4).[2] Stausberg J, Harkener S, Engel C, Finger R, Heinz C, Jenetzky E, et al. Cross-registry benchmarking of data quality: lessons learned. Stud Health Technol Inform. 2023;302:167-71.
[3] Wilkinson MD, Dumontier M, Aalbersberg IJ, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016;3:160018.



