Logo

Jahrestagung der Gesellschaft für Medizinische Ausbildung


08.-10.09.2025
Düsseldorf


Meeting Abstract

Large Language Models zur Beurteilung der klinischen Entscheidungsfindung von Medizinstudierenden

Dogus Darici 1
Jonathan Vollprecht 2
Sina Benker 3
1Universität Münster, Institut für Anatomie und Neurobiologie, Münster, Deutschland
2Universität Heidelberg, Heidelberg, Deutschland
3Universität Münster, Münster, Deutschland

Text

Fragestellung/Zielsetzung: Die Beurteilung der klinischen Entscheidungsfindung (Clinical Decision Making, CDM) von Medizinstudierenden ist ein zentraler Bestandteil der medizinischen Ausbildung [1]]. Sie ermöglicht die Identifizierung von Wissenslücken, ermöglicht gezieltes Feedback und stellt sicher, dass Absolvent*innen die erforderlichen beruflichen Kompetenzen erfüllen. Traditionelle Bewertungsmethoden studentischer CDM basieren auf der Fremdeinschätzung von menschlicher Ratern; diese sind jedoch besoders ressourcenintensiv und schwer skalierbar. Diese Studie untersuchte, ob Große Sprachmodelle (Large Language Models, LLMs) als automatisierte Bewerter der CDM-Fähigkeiten von Medizinstudierenden eingesetzt werden können.

Methoden: Wir verglichen ChatGPT v3.5-generierte Bewertungen mit den Einschätzungen zweier menschlicher Expert*innen anhand von 21 Anamnesegesprächen von Medizinstudierenden. Als Bewertungsinstrument diente der Clinical Reasoning Indicator-Health Training Indicator (CRI-HTI) [2].

Ergebnisse: Die Ergebnisse zeigten eine hohe Übereinstimmung zwischen menschlichen Bewertern und dem KI-System (ICC=.675-.782, mittlerer absoluter Fehler=0.343), wobei über 91% der Bewertungen maximal 0.5 Punkte voneinander abwichen. Die Analyse auf Einzelkriterienebene ergab moderate bis exzellente Zuverlässigkeit für alle acht CRI-HTI-Kriterien. Um geschlechtsspezifische Verzerrungen zu untersuchen, wurden dem LLM identische Gesprächsprotokolle mit unterschiedlichen Geschlechtsbezeichnungen (männlich, weiblich, neutral) vorgelegt. Es zeigten sich keine signifikanten Unterschiede zwischen den geschlechtsspezifischen Auswertungen (p>.05), was darauf hindeutet, dass das LLM unabhängig vom Geschlecht der bewerteten Person einheitliche Bewertungsstandards anwendete.

Diskussion: Diese Ergebnisse legen nahe, dass LLMs als zuverlässige und unvoreingenommene Werkzeuge zur Unterstützung der CDM-Bewertung in der medizinischen Ausbildung dienen könnten. Sie bieten möglicherweise eine skalierbare Lösung, um Medizinstudierenden zeitnahes Feedback zu ihrer klinischen Entscheidungsfindung zu geben.


References

[1] Brügge E, Ricchizzi S, Arenbeck M, Keller MN, Schur L, Stummer W, Holling M, Lu MH, Darici D. Large language models improve clinical decision making of medical students through patient simulation and structured feedback: A randomized controlled trial. BMC Med Educ. 2024;24:1391. DOI: 10.1186/s12909-024-06399-7
[2] Fürstenberg S, Helm T, Prediger S, Kadmon M, Berberat PO, Harendza S. Assessing clinical reasoning in undergraduate medical students during history taking with an empirically derived scale for clinical reasoning indicators. BMC Med Educ. 2020;20(1):368. DOI: 10.1186/s12909-020-02260-9