Analyse der Limitationen bei der Erstellung von Prüfungsfragen mit Künstlicher Intelligenz (KI)

25gma261 10.3205/25gma261 urn:nbn:de:0183-25gma2614 Meeting Abstract Analyse der Limitationen bei der Erstellung von Prüfungsfragen mit Künstlicher Intelligenz (KI) Nett Nett Nadine N

Universitätsklinikum Bonn, Institut für Medizindidaktik, Bonn, Deutschland

author Schneider Schneider Anke A

Institut für medizinische und pharmazeutische Prüfungsfragen, Mainz, Deutschland

author Lindner Lindner Marcus M

Institut für medizinische und pharmazeutische Prüfungsfragen, Mainz, Deutschland

author Oksche Oksche Alexander A

Institut für medizinische und pharmazeutische Prüfungsfragen, Mainz, Deutschland

author Shahla Shahla Hossein H

Institut für medizinische und pharmazeutische Prüfungsfragen, Mainz, Deutschland

author Raupach Raupach Tobias T

Universitätsklinikum Bonn, Institut für Medizindidaktik, Bonn, Deutschland

author Becker Becker Jan Carl JC

Institut für medizinische und pharmazeutische Prüfungsfragen, Mainz, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20250908 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0626 261 Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) P-08 Assessment / Evaluation der Lehre Düsseldorf 20250908 20250910 P-08-11 TextFragestellung/Zielsetzung: Die Erstellung von Prüfungsfragen stellt eine der zeitintensivsten Aufgaben in der medizinischen Lehre dar. Large Language Modelle (LLM) bieten das Potenzial, diesen Prozess zu unterstützen, da sie in der Lage sind, Multiple-Choice-Fragen sowohl zu lösen als auch zu formulieren (z.B: ). Dennoch gibt es Einschränkungen in ihrer Verwendbarkeit, die in der vorliegenden Studie systematisch analysiert wurden .Methoden: Im Rahmen eines iterativen Prompting-Prozesses wurden insgesamt 188 Single-Choice (SC) Aufgaben aus verschiedenen Bereichen der Inneren Medizin mit einem LLM generiert. 127 Aufgaben wurden durch Expert*innen der jeweiligen Fachbereiche des Universitätsklinikums Bonn (UKB) anhand von acht inhaltlichen Kriterien evaluiert. Zusätzlich wurden 10 zufällig ausgewählte Aufgaben vom Institut für medizinische und pharmazeutische Prüfungsfragen (IMPP) gemäß dem IMPP-Standard beurteilt.Ergebnisse: Die Evaluation der generierten Aufgaben durch die Fachpersonen (UKB) deckte verschiedene Schwachstellen auf. Es erfüllten 45 von 127 Aufgaben alle acht Kriterien positiv und könnten somit uneingeschränkt als Prüfungsaufgaben verwendet werden.In Bezug auf die inhaltliche Korrektheit der Fallvignette erwiesen sich 13 SC-Aufgaben als fehlerhaft und in zehn Fällen als unrealistisch. Bei 13 Aufgaben waren die angegebenen Vitalparameter nicht plausibel. Beim Fragensatz enthielten sechs Aufgaben inhaltliche Fehler. Bei acht Aufgaben wurde eine mangelnde inhaltliche Homogenität festgestellt. Ein zentrales Problem zeigte sich bei der Target-Bewertung. Insgesamt erfüllten 27 Aufgaben nicht das Kriterium der Eindeutigkeit. Besonders problematisch erwiesen sich die Distraktoren: Bei 66 Aufgaben konnten mindestens ein Distraktor nicht als eindeutig falsch angesehen werden. Bei der allgemeinen Einschätzung, ob die Aufgabe in dieser Form in einer Prüfung verwendet werden könnte, bewerteten die Fachpersonen 59 Aufgaben negativ.Die stichprobenartige Begutachtung durch das IMPP bestätigte diese Ergebnisse weitgehend. Besonders hervorzuheben ist, dass 21 von 40 Distraktoren eine zu geringe inhaltliche Trennschärfe zur Lösung aufwiesen. Zudem war der Antwortraum in allen Aufgaben inhaltlich und/oder formal inhomogen und enthielt einige Cuings. Nur 1 von 10 Aufgaben wäre für den weiteren IMPP-Prozess geeignet.Diskussion: Die größte Herausforderung bei der automatisierten Generierung von SC-Aufgaben ist die Erstellung eindeutig falscher Distraktoren. Dies kann darauf zurückgeführt werden, dass LLMs in der Regel darauf trainiert werden, faktenbasiert zu antworten, wodurch die Generierung von falschen, aber plausiblen Distraktoren erschwert wird. Zukünftig stellt sich die Frage, durch welche Trainingsansätze diese Herausforderung besser bewältigt werden kann. Kıyak YS Emekli E ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review 2024 Postgrad Med J 858-865 Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024;100(1189):858-865. DOI: 10.1093/postmj/qgae065 http://dx.doi.org/10.1093/postmj/qgae065 Persike M Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University 2024 e-teaching.org Podcast Persike M. Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University. In: e-teaching.org Podcast. 01.02.2024. Zugänglich unter/available from: https://www.e-teaching.org/materialien/podcasts/podcast-2024/pruefungen-generieren-mit-ki-neue-erkenntnisse-aus-der-rwth-aachen-university https://www.e-teaching.org/materialien/podcasts/podcast-2024/pruefungen-generieren-mit-ki-neue-erkenntnisse-aus-der-rwth-aachen-university 0 0 0 0