Logo

Jahrestagung der Vereinigung Westdeutscher Hals-Nasen-Ohren-Ärzte 2025


07.-08.03.2025
Solingen

Meeting Abstract

Überprüfung der Repräsentativität eines ML-gestützten „Big Data“-Patientendatennetzwerks für zukünftige epidemiologische Sekundärdatenanalysen

Franz Mitze - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
Sabine Eichhorn - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
Fritz Wagner - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
Anne Stöckert - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland
Jonas J.-H. Park - Klinik für Hals-Nasen-Ohrenheilkunde, Kopf- u. Halschirurgie, Universität Witten/Herdecke, Katholisches Krankenhaus Hagen, Hagen, Deutschland

Text

Einleitung: Die Digitalisierung der Medizin in Kombination mit wachsender Rechenleistung und kostengünstigen Speichermöglichkeiten schafft neue Potenziale für die Nutzung KI-gestützter Algorithmen in der Analyse von Big Data aus elektronischen Patientenakten. Ziel dieser Studie war es, die Repräsentativität eines maschinellen Lernens (ML)-basierten Datennetzwerks zu bewerten. Hierzu wurden Basisdaten dieses ML-Datennetzwerks mit öffentlich zugänglichen Daten des Statistischen Bundesamtes (DESTATIS) verglichen, um die wissenschaftliche Validität des Netzwerks für künftige epidemiologische Analysen zu prüfen.

Methoden: In einer retrospektiven Sekundäranalyse wurden 8.106.105 anonymisierte Datensätze aus dem ML-basierten Netzwerk und die entsprechenden Daten von DESTATIS auf Alter, Geschlecht, Krankenhausverweildauer sowie allgemeinen und HNO-spezifischen ICD-10- und OPS-Codes untersucht. Darüber hinaus erfolgte ein Vergleich von ICD-10-Codes im Zusammenhang mit Substanzmissbrauch sowie eine Analyse der regionalen Verteilung zur Prüfung sozioökonomischer Einflussfaktoren.

Ergebnisse: Die Analyse zeigte eine hohe Übereinstimmung zwischen den Variablen Alter, Geschlecht, Verweildauer, den häufigsten allgemeinen ICD-10- und OPS-Codes sowie den HNO-spezifischen OPS-Codes innerhalb vorab definierter Toleranzbereiche. Unter den häufigsten HNO-spezifischen ICD-10-Codes zeigten 2 von 11 Codes eine Abweichung von maximal 3,71 %. Die Untersuchung sozioökonomischer Einflussfaktoren und der regionalen Verteilung ergab keine relevanten Abweichungen zwischen den beiden Datensätzen.

Diskussion: Die Ergebnisse weisen auf eine hohe Repräsentativität des ML-Datensatzes im Vergleich mit den DESTATIS-Daten hin. Dies unterstreicht die wissenschaftliche Validität des ML-basierten Datennetzwerks als Grundlage für zukünftige epidemiologische Analysen. Durch die Nutzung von Big Data können zukünftig Erkenntnisse generiert werden, die mit herkömmlichen Datensätzen bisher nicht zugänglich waren.