Jahrestagung der Gesellschaft für Medizinische Ausbildung
Jahrestagung der Gesellschaft für Medizinische Ausbildung
Analyse der Limitationen bei der Erstellung von Prüfungsfragen mit Künstlicher Intelligenz (KI)
2Institut für medizinische und pharmazeutische Prüfungsfragen, Mainz, Deutschland
Text
Fragestellung/Zielsetzung: Die Erstellung von Prüfungsfragen stellt eine der zeitintensivsten Aufgaben in der medizinischen Lehre dar. Large Language Modelle (LLM) bieten das Potenzial, diesen Prozess zu unterstützen, da sie in der Lage sind, Multiple-Choice-Fragen sowohl zu lösen als auch zu formulieren (z.B: [1]). Dennoch gibt es Einschränkungen in ihrer Verwendbarkeit, die in der vorliegenden Studie systematisch analysiert wurden [2].
Methoden: Im Rahmen eines iterativen Prompting-Prozesses wurden insgesamt 188 Single-Choice (SC) Aufgaben aus verschiedenen Bereichen der Inneren Medizin mit einem LLM generiert. 127 Aufgaben wurden durch Expert*innen der jeweiligen Fachbereiche des Universitätsklinikums Bonn (UKB) anhand von acht inhaltlichen Kriterien evaluiert. Zusätzlich wurden 10 zufällig ausgewählte Aufgaben vom Institut für medizinische und pharmazeutische Prüfungsfragen (IMPP) gemäß dem IMPP-Standard beurteilt.
Ergebnisse: Die Evaluation der generierten Aufgaben durch die Fachpersonen (UKB) deckte verschiedene Schwachstellen auf. Es erfüllten 45 von 127 Aufgaben alle acht Kriterien positiv und könnten somit uneingeschränkt als Prüfungsaufgaben verwendet werden.
In Bezug auf die inhaltliche Korrektheit der Fallvignette erwiesen sich 13 SC-Aufgaben als fehlerhaft und in zehn Fällen als unrealistisch. Bei 13 Aufgaben waren die angegebenen Vitalparameter nicht plausibel. Beim Fragensatz enthielten sechs Aufgaben inhaltliche Fehler. Bei acht Aufgaben wurde eine mangelnde inhaltliche Homogenität festgestellt. Ein zentrales Problem zeigte sich bei der Target-Bewertung. Insgesamt erfüllten 27 Aufgaben nicht das Kriterium der Eindeutigkeit. Besonders problematisch erwiesen sich die Distraktoren: Bei 66 Aufgaben konnten mindestens ein Distraktor nicht als eindeutig falsch angesehen werden. Bei der allgemeinen Einschätzung, ob die Aufgabe in dieser Form in einer Prüfung verwendet werden könnte, bewerteten die Fachpersonen 59 Aufgaben negativ.
Die stichprobenartige Begutachtung durch das IMPP bestätigte diese Ergebnisse weitgehend. Besonders hervorzuheben ist, dass 21 von 40 Distraktoren eine zu geringe inhaltliche Trennschärfe zur Lösung aufwiesen. Zudem war der Antwortraum in allen Aufgaben inhaltlich und/oder formal inhomogen und enthielt einige Cuings. Nur 1 von 10 Aufgaben wäre für den weiteren IMPP-Prozess geeignet.
Diskussion: Die größte Herausforderung bei der automatisierten Generierung von SC-Aufgaben ist die Erstellung eindeutig falscher Distraktoren. Dies kann darauf zurückgeführt werden, dass LLMs in der Regel darauf trainiert werden, faktenbasiert zu antworten, wodurch die Generierung von falschen, aber plausiblen Distraktoren erschwert wird. Zukünftig stellt sich die Frage, durch welche Trainingsansätze diese Herausforderung besser bewältigt werden kann.
References
[1] Persike M. Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University. In: e-teaching.org Podcast. 01.02.2024. Zugänglich unter/available from: https://www.e-teaching.org/materialien/podcasts/podcast-2024/pruefungen-generieren-mit-ki-neue-erkenntnisse-aus-der-rwth-aachen-university[2] Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024;100(1189):858-865. DOI: 10.1093/postmj/qgae065