Jahrestagung der Gesellschaft für Medizinische Ausbildung
Jahrestagung der Gesellschaft für Medizinische Ausbildung
Qualität statt Quantität? – Auswirkung einer trennschärfebasierten Fragenreduktion auf die Rangstabilität im Progress Test
Text
Fragestellung/Zielsetzung: Die Messung des Wissenszuwachses im Medizinstudium ist eine gute Möglichkeit, Lernerfolge der Studierenden möglichst objektiv zu erfassen und die Wirksamkeit curricularer Maßnahmen zu bewerten. Dabei gehören Multiple-Choice-Fragen (MC-Fragen) zu den am häufigsten verwendeten Methoden zur Wissensmessung und bieten durch gut konstruierte Fragen eine hohe Messgenauigkeit hinsichtlich des kognitiven Wissenszuwachses [1]. Dies wird in Progress Tests genutzt, bei denen Studierende über die gesamte Studiendauer hinweg regelmäßig den gleichen Wissenstest von gleichem Umfang absolvieren. Dieses Verfahren erlaubt eine longitudinale Erfassung des Lernfortschritts [2]. Aufgrund der hohen Anzahl benötigter Fragen entstehen jedoch sehr hohe Anforderungen an Studierende und Lehrende.
In dieser Studie soll untersucht werden, inwiefern eine reduzierte Anzahl von MC-Fragen mit hoher Trennschärfe aus einem Gesamtpool von 200 Fragen ausreicht, um das Ranking der Studierenden hinsichtlich ihrer Prüfungsleistungen zuverlässig abzubilden.
Methoden: Hierzu wurden zunächst aus den 200 MC-Fragen die 20 Fragen mit den höchsten Trennschärfewerten ausgewählt. Die Rangpositionen der Studierenden wurden einmal basierend auf den Ergebnissen aller 200 Fragen sowie auf Basis der 20 ausgewählten Fragen berechnet. Zur Überprüfung der Übereinstimmung beider Rankings wurde Spearman’s Rangkorrelationskoeffizient ρ (rho) sowohl für die gesamte Stichprobe als auch getrennt nach Studiensemestern berechnet.
Ergebnisse: Die 200 MC-Fragen hatten eine mittlere Trennschärfe von 0,45 (SD=0,12; Median=0,48; Range=0,04-0,71), die 20 ausgewählten Fragen mit den höchsten Trennschärfewerten dagegen im Durchschnitt einen Wert von 0,63 (SD=0,03; Median=0,62; Range=0,61-0,71, p<0,001).
Die pseudonymisierten Scores von insgesamt 226 Studierenden konnten in die Analyse aufgenommen werden. Die Ergebnisse zeigten eine sehr hohe Übereinstimmung zwischen den Rangpositionen basierend auf allen 200 Fragen und den 20 Fragen mit hoher Trennschärfe (Spearman’s ρ=0,94; 95-%-Konfidenzintervall 0,93-0,96; p<0,001, Adjustierung nach Holm). Die separate Auswertung nach Semestern bestätigte ebenfalls eine sehr hohe Korrelation mit Rho-Werten zwischen 0,77 und 0,88 (n=49-60; jeweils p<0,001).
Diskussion: Die Befunde zeigen die Möglichkeit, dass eine deutlich reduzierte Anzahl von Fragen mit Trennschärfen größer 0,6 ausreicht, um Studierendenleistungen hinsichtlich ihres Rankings relativ zuverlässig abzubilden. Allerdings sind dann keine fächer- oder organspezifischen Analysen der Ergebnisse mehr möglich. Die Akzeptanz eines derartigen Ansatzes bei den Studierenden müsste noch untersucht werden.
References
[1] Parekh P, Bahadoor V. The utility of multiple-choice assessment in current medical education: A critical review. Cureus. 2024;16(5):e59778. DOI: 10.7759/cureus.59778[2] Görlich D, Friederichs H. Using longitudinal progress test data to determine the effect size of learning in undergraduate medical education - a retrospective, single-center, mixed model analysis of progress testing results. Med Educ Online. 2021;26(1):1972505. DOI: 10.1080/10872981.2021.1972505