Logo

Jahrestagung der Gesellschaft für Medizinische Ausbildung


08.-10.09.2025
Düsseldorf


Meeting Abstract

Faktoren für eine hohe Trennschärfe bei Multiple-Choice-Aufgaben

Luise Magdalena Storck 1
Hendrik Friederichs 1
1Universität Bielefeld, Medizinische Fakultät OWL, AG Medical Education, Bielefeld, Deutschland

Text

Fragestellung/Zielsetzung: Multiple-Choice-Aufgaben (MCQs) sind das zentrale Prüfungsinstrument des Wissenszuwachses im Medizinstudium [1]. Ein wichtiges Maß für die Güte einer MCQ ist die Trennschärfe [2]. Trotz ihrer Bedeutung ist wenig über die Einflussfaktoren für eine hohe Trennschärfe bekannt. Ziel dieser Studie ist die Identifikation solcher Faktoren, um Aussagekraft und Durchführbarkeit von MCQs zu optimieren.

Methoden: Datengrundlage bildeten 200 MCQs des 50. Progress Test Medizin (PTM), die in Fachgebiet, Organsystem, Domäne und Kompetenzniveau klassifiziert wurden. Im Sommersemester 2024 nahmen 9673 Medizinstudierende teil, sodass Trennschärfe und Schwierigkeit aller MCQs vorlagen. Die MCQs mit einer Trennschärfe oberhalb oder unterhalb der ersten Standardabweichung (SD) wurden in 19 weiteren Kategorien nach inhaltlichen und formalen Aspekten analysiert. Mittels Pearson-Chi-Quadrat-Test wurde ermittelt, welche Merkmale einen signifikanten Unterschied zwischen hoher und niedriger Trennschärfe aufwiesen.

Ergebnisse: Die Trennschärfe der 200 MCQs lag im Mittelwert bei 0,457 (±0,105). In die Analyse wurden 31 Aufgaben mit einer Trennschärfe oberhalb und 33 Aufgaben unterhalb einer SD einbezogen.

Von den 24 untersuchten Faktoren zeigten vier signifikante Unterschiede zwischen den MCQs.

In der Kategorie Kompetenzniveau, also ob eine Aufgabe auf das Erinnern oder das Anwenden von Wissen abzielte, zeigte sich ein signifikanter Unterschied (χ²=8,62, df=2, p=0,013). Auch die Domänenzugehörigkeit wies eine Signifikanz auf (χ²=14,51, df=7, p=0,043). Zudem zeigte die Analyse einen signifikanten Unterschied hinsichtlich des treppenförmigen Aufwuchses der richtigen Antworten über die Semester (χ²=14,55, df=1, p<0,001). Ebenso zeigte sich eine Signifikanz, wenn eine paradoxe Antwortverteilung vorlag, also die richtige Antwort seltener gewählt wurde als die Summe der falschen Optionen (χ²=19,19, df=1, p<0,001).

Diskussion: Die geringe Anzahl an MCQs mit sehr niedriger Trennschärfe zeigt das hohe Niveau des PTM.

Der Unterschied in Bezug auf das Kompetenzniveau deutet darauf hin, dass die Abfrage von Wissensanwendung die Trennschärfe fördern könnte. Die Signifikanz im Bereich der Domänen könnte diesen Effekt bestätigen, da in Kategorien wie „Diagnosestellung“ eher eine Wissensanwendung abgefragt wird, als bspw. bei „Struktur und Funktion“.

Bei den beiden formalen Aspekten stellt sich die Frage der Kausalität: Fördert eine gut konzipierte MCQ diese Antwortverteilungen oder sind sie Indikatoren für die Trennschärfe?

Da es sich vermutlich um einen multifaktoriellen Einfluss handelt, sollte in Zukunft nach weiteren Faktoren gesucht werden. Zudem sollten im Rahmen von Regressionsanalysen und Interventionsstudien die Beziehungen und Kausalzusammenhänge geklärt werden.

Take Home Message: Die Berücksichtigung des Kompetenzniveaus bei der Erstellung von MCQ könnte die Aufgabenqualität verbessern.


Literatur

[1] Parekh P, Bahadoor V. The Utility of Multiple-Choice Assessment in Current Medical Education: A Critical Review. Cureus. 2024;16(5):e59778. DOI: 10.7759/cureus.59778
[2] Möltner A, Schellberg D, Jünger J. Grundlegende quantitative Analysen medizinischer Prüfungen. GMS Z Med Ausbild. 2006; 23(3):Doc53.