Logo

70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)
07.-11.09.2025
Jena


Meeting Abstract

Vergleich Multipler Imputationsverfahren zur Ersetzung fehlender Werte in ordinalen Krebsregistervariablen bei der Durchführung von Cox Proportional Hazards Regressionen – Ergebnisse einer Simulationsstudie

Anika Kästner 1
Wolfgang Hoffmann 1
Andreas Stang 2,3
Anika Hüsing 2
1Universitätsmedizin Greifswald, Institut für Community Medicine, Abteilung Versorgungsepidemiologie und Community Health, Greifswald, Germany
2Universitätsmedizin Essen, Institut für Medizinische Informatik, Biometrie und Epidemiologie, Essen, Germany
3Landeskrebsregister Nordrhein-Westfalen, Bochum, Germany

Text

Einleitung: Epidemiologische Studien auf Basis von Krebsregisterdaten sind oftmals durch einen hohen Anteil fehlender Werte limitiert [1]. Besonders betroffen sind ordinalskalierte Variablen wie das Tumorstadium, Tumorgrading oder der allgemeine Gesundheitszustand (Eastern Cooperative Oncology Group Performance Status, ECOG-PS). Diese Variablen sind mögliche Confounder in Überlebenszeitanalysen, da diese die Wahl der Therapie und das Überleben unmittelbar beeinflussen [2]. Dadurch können Verzerrungen (Bias) resultieren, welche die Aussagekraft der Analysen erheblich einschränken, insbesondere wenn die fehlenden Werte mit anderen Kovariaten wie dem Alter oder dem fehlenden Wert selbst zusammenhängen [3]. Die multiple Imputation mittels verketteter Gleichungen (MICE) ist ein etabliertes Verfahren zur Ersetzung fehlender Werte. Dennoch gibt es nur wenige Studien zur Untersuchung der geeignetsten MI-Methode für den Umgang mit fehlenden Werten in ordinalskalierten Krebsregistervariablen [4], [5]. Im Rahmen dieser Simulationsstudie wurden verschiedene MI-Methoden zur Ersetzung fehlender Werte in der ordinalskalierten Variable ECOG-PS unter verschiedenen Szenarien bei der Durchführung von Cox Proportional Hazards Regressionen untersucht.

Methoden: Die Simulationsstudie basiert auf Lungenkrebsfällen mit Erstdiagnose im Zeitraum von 2019 bis 2022, die im Landeskrebsregister Nordrhein-Westfalen erfasst wurden und keine fehlenden Werte in den relevanten Variablen aufwiesen. In der ordinalen Variable ECOG-PS wurden fehlende Werte unter 45 verschiedenen Szenarien erzeugt. Dabei wurden unterschiedliche Mechanismen fehlender Werte (MCAR: Missing Completely at Random; MAR: Missing at Random; MNAR: Missing Not at Random), verschiedene Anteile fehlender Werte (10%, 20%, 30%, 40%, 50%) sowie unterschiedliche Fallzahlen (N=500, N=1.000, N=5.000) berücksichtigt. Anschließend wurden die fehlenden Werte für jedes Szenario durch verschiedene MI-Verfahren ersetzt: MICE mit ordinal logistischer Regression (POLR), multinomial logistischer Regression (POLYREG), Predictive Mean Matching (PMM), Random Forests (RF) und das Joint Model mit latenten normalverteilten Variablen (JM). Zur Bewertung der MI-Methoden wurden der Bias, die mittlere quadratische Abweichung (MSE), die Breite des 95%-Konfidenzintervalls und die Coverage der logarithmierten Hazard Ratios des ECOG-PS analysiert. Die Simulationen wurden mit dem Statistikprogramm R (Version 4.4.1) durchgeführt.

Ergebnisse: In Szenarien mit kleineren Fallzahlen (N=500 und N=1.000) waren wenige Fälle mit stark eingeschränktem Allgemeinzustand vorhanden. Für ECOG-PS=4 zeigte sich in diesen Szenarien für alle MI-Verfahren ab einem Anteil von 30% fehlender Werte ein starker Bias, eine hohe MSE, breite 95%-Konfidenzintervalle sowie eine niedrige Coverage.

In den Szenarien mit der größeren Fallzahl (N=5.000) erzielte MICE mit POLYREG für alle Szenarien einen akzeptablen Bias (<10%). Auch MICE mit RF und PMM wiesen bei bis zu 40% fehlender Werte unter MAR und MNAR akzeptable Bias-Werte auf, wobei MICE mit RF auch bei 50% fehlenden Werten unter MNAR einen niedrigen Bias zeigte. Das JM sowie MICE mit POLR erzielten hingegen nur bis zu einem Anteil von maximal 20% fehlender Werte akzeptable Bias-Werte.

Diskussion: Die Ergebnisse unterstreichen die Bedeutsamkeit der Fallzahl und Verteilung der Kategorien ordinaler Variablen beim Umgang mit fehlenden Werten in Krebsregisterdaten. Insbesondere die Kombination aus kleinen Fallzahlen und Kategorien mit niedrigen Prävalenzen führte in allen untersuchten MI-Verfahren ab 30% fehlenden Werten zu verzerrten Ergebnissen.

Schlussfolgerung: MICE mit POLYREG erwies sich als geeignetste Methode zur Ersetzung fehlender ordinalskalierter ECOG-PS-Werte. Weiterführende Untersuchungen in Bezug auf Überlebenszeitanalysen und multivariate Muster fehlender Werte sind erforderlich, um konkrete Empfehlungen für den Umgang mit fehlenden Werten in ordinalskalierten Krebsregistervariablen abzuleiten.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass ein positives Ethikvotum vorliegt.

Der Beitrag wurde bereits publiziert: [6]


Literatur

[1] Hübner J, Baltus H, Eisemann N, Rohr M, Schumann L, Augustin J, et al. Evaluation of Early Skin Cancer Detection in Germany with Cancer Registry Data - Challenges, Solutions and Current Trends. J Dtsch Dermatol Ges. 2023;21 Suppl 5:13-20. DOI: 10.1111/ddg.15171
[2] Alifano M, Daffré E, Brouchet L, Falcoz PE, Le Pimpec Barthes F, Pages PB, et al. Prognostic Score and Sex-Specific Nomograms to Predict Survival in Resectable Lung Cancer: A French Nationwide Study from the Epithor Cohort Database. The Lancet Regional Health – Europe. 2023;26:100566. DOI: 10.1016/j.lanepe.2022.100566
[3] Di Girolamo C, Walters S, Benitez Majano S, Rachet B, Coleman MP, Njagi EN, et al. Characteristics of Patients with Missing Information on Stage: A Population-Based Study of Patients Diagnosed with Colon, Lung or Breast Cancer in England in 2013. BMC Cancer. 2018;18(1):492. DOI: 10.1186/s12885-018-4417-3
[4] Eisemann N, Waldmann A, Katalinic A. Imputation of Missing Values of Tumour Stage in Population-Based Cancer Registration. BMC Medical Research Methodology. 2011;11(1):129. DOI: 10.1186/1471-2288-11-129
[5] Quartagno M, Carpenter JR. Multiple Imputation for Discrete Data: Evaluation of the Joint Latent Normal Model. Biom J. 2019;61(4):1003-19. DOI: 10.1002/bimj.201800222
[6] Kästner A, Hoffmann W, Stang A, Hüsing A. Multiple Imputation for Missing Values of Ordinal Variables in Cancer Registry Data when Performing Cox Proportional Hazards Regression. In: Statistics in Times of AI. DAGStat 2025. Statistics under one umbrella. 7th Joint Statistical Meeting; 2025 Mar 24-28; Berlin. Abstract-ID: 67.