70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
Vorhersage von koronaren Herzerkrankungen auf der Basis von Aktivitätstrackerdaten mit konventionellen Prognosemodellen und Verfahren des Maschinellen Lernens
2Klinik für Rehabilitations- und Sportmedizin, Medizinische Hochschule Hannover, Hannover, Germany
Text
Smartwatches und Fitnessarmbänder werden immer beliebter zur Überwachung und Analyse der eigenen Alltagsbewegung und sportlichen Aktivitäten. Da damit mögliche klinische Parameter (z.B. die Herzfrequenz) bereits alltäglich erhoben werden, ergibt sich ein großes Potenzial zur Unterstützung der klinischen Diagnose von z.B. kardiovaskulären Erkrankungen [1]. Bei einer solchen Diagnose liegt ein binäres Klassifikationsproblem vor, für dessen Lösung sich die logistische Regression bewährt hat. Doch die von den Trackern generierten Daten sind schwierig für Menschen lesbar und die aufkommende Menge macht eine individuelle Auswertung kompliziert. Außerdem sind die Möglichkeiten der Modellierung mit der logistischen Regression begrenzt, weshalb sich Techniken des Maschinellen Lernens anbieten, die eine automatisierte Erkennung von Mustern zur Erstellung von Prognosen aus komplexen Datensätzen ermöglichen [1]. In einer Sekundäranalyse wurde untersucht, ob die von Trackern generierten Daten zur algorithmengestützten Vorhersage des Vorliegens von koronarer Herzerkrankung (KHK) geeignet sind und einen Mehrwert gegenüber der logistischen Regression bieten. Die verwendeten Daten stammen aus der Studie “Impact of electrically assisted bicycles on physical activity and traffic accident risk: a prospective observational study“ [2], in der Studienteilnehmende 4 Wochen lang Aktivitäten mit einem Fahrrad oder E-Bike per Tracker eigenständig aufgezeichnet haben. Die Studie umfasste 1879 Teilnehmende (68% männlich, mittleres Alter = 52 Jahre), wovon 30% als erkrankt definiert wurden (KHK/Bluthochdruck liegt vor oder Einnahme Herzfrequenz beeinflussender Medikamente).
Auf Basis von deskriptiven Analysen erfolgte zunächst eine umfangreiche Vorverarbeitung der Daten. Hierbei wurden technische Artefakte entfernt und geeignete Variablen identifiziert und generiert. Für das binäre Klassifikationsproblem (an KHK erkrankt oder nicht erkrankt) wurden neben konventionellen Prognosemodellen (logistische und hierarchische logistische Regression), Prognosemodelle durch verschiedene Algorithmen des Überwachten Lernens (decision tree, random forest, support vector machine, k-nearest neighbour) angewendet. Alle generierten Modelle liefern eine Vorhersage zum Vorliegen der Erkrankung und wurden in ihrer prädiktiven Leistung anhand von Sensitivität, Spezifität und Youden‘s Index verglichen.
Die deskriptive Analyse zeigt, dass relevante Parameter in beiden Klassen (an KHK erkrankt oder nicht erkrankt) ähnlich verteilt sind und naturgemäß bei deutlich weniger Studienteilnehmenden eine KHK vorlag, was die Klassifizierung für die Algorithmen des Maschinellen Lernens erschwert. Bei den algorithmengestützen Prognosemodellen liegt die Sensitivität bei ca. 0,4 und die Spezifität bei ca. 0,9 und auch die Hinzunahme von Trackerdaten erhöht die prädiktive Leistung nicht. Mit einem Prognosemodell basierend auf der logistischen Regression, welches auf den Trainingsdaten optimiert wurde, kann die beste prädiktive Leistung erreicht werden. Die Sensitivität und Spezifität liegen bei ca. 0,7, sodass ein ausgeglichenes Verhältnis vorliegt. Die Hinzunahme von Trackerdaten in das Regresssionsmodell verbessert die Sensitivität nur minimal und führt zur Verschlechterung der Spezifität.
Maschinelles Lernen bietet im vorliegenden Anwendungsbeispiel keinen Mehrwert, da mit den klassischen logistischen Regressionsmodellen eine bessere prädiktive Leistung erzielt werden kann. Aufgrund der nur gering ausgeprägten Unterschiede zwischen den an KHK erkrankten und nicht erkrankten Teilnehmenden ist nicht zu erwarten, dass die nicht idealen Ergebnisse der logistischen Regression noch verbessert werden können. Außerdem muss bei der Bewertung der Ergebnisse berücksichtigt werden, dass die Definition der Erkrankung sehr grob war und es sich um selbst aufgezeichnete Daten handelt, welche Anwendungsfehler enthalten können und deren Umwelteinflüsse unbekannt sind.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
References
[1] Hughes A, Shandhi MMH, Master H, Dunn J, Brittain E. Wearable Devices in Cardiovascular Medicine. Circulation Research. 2023;132(5):652-670.[2] Haufe S, Boeck HT, Häckl S, Boyen J, Kück M, et al. Impact of electrically assisted bicycles on physical activity and traffic accident risk: a prospective observational study. BMJ Open Sport & Exercise Medicine. 2022;8(4):e001275.



