Jahrestagung der Gesellschaft für Medizinische Ausbildung
Jahrestagung der Gesellschaft für Medizinische Ausbildung
Bewertung von Mehrfach-Richtig-Falsch-Aufgaben: Beurteilung von Scoring-Algorithmen mittels Finite-State-Modell
Text
Fragestellung/Zielsetzung: Seit über 40 Jahren ist die Frage, wie Mehrfach-Richtig-Falsch Aufgaben (MTF, auch Typ X oder Kprim) optimal zu bewerten sind, immer wieder Thema von Publikationen. Schmidt et al. [1] haben in einer Übersichtsarbeit 31 unterschiedliche Scoring-Algorithmen für MTF-Aufgaben in der Literatur aufgeführt, die verwendet werden oder wurden.
In der Literatur findet sich eine Reihe von empirischen Vergleichen, die z. B. die Itemschwierigkeiten oder die Reliabilität von Tests bei Verwendung unterschiedlicher Scoringmethoden untersuchen. Weitgehend offen ist hingegen die Frage, weshalb sich bestimmte Methoden anderen gegenüber als überlegen erweisen.
Ziel der Untersuchung ist
- Kriterien zur Beurteilung von Scoring-Algorithmen zu begründen und
- mittels eines mathematischen Modells (Finite-State-Modell) deren Eigenschaften zu untersuchen.
Methoden: Formales Modell zur Analyse von MTF-Aufgaben ist das Finite-State-Modell, das für Typ A-Fragen von Garcia-Perez [2] u. a. entwickelt wurde. In diesem Modell wird angenommen, dass jeder Testteilnehmer einen individuellen Fähigkeitsparameter p besitzt, welcher die Wahrscheinlichkeit dafür angibt, bei einer Teilfrage zu wissen, ob sie korrekt oder falsch ist.
Hiermit lassen sich Kenngrößen wie die Ratewahrscheinlichkeit (Erwartungswert bei p=0), der erwartete Score bei Kenntnis von 50% der Aussagen (p=0,5) und die Übereinstimmung des Verlaufs der erwarteten Scores in Abhängigkeit von p mit dem bei Typ A-Fragen behandeln.
Weiteres Beurteilungskriterium ist die Itemreliabilität. Hierzu wird die Verteilung der Fähigkeitsparameter p durch eine Betaverteilung approximiert. In Abhängigkeit von den Parametern der Verteilung lassen sich Reliabilität sowie relative Reliabilität im Vergleich zu einem für die spezielle Verteilungsgestalt optimalen Scoring bestimmen.
Ergebnisse: Für MTF-Aufgaben mit vier oder fünf Teilfragen führt die Vergabe von Teilpunkten bei einem bzw. zwei Fehlern über einen weiten Bereich von Verteilungsannahmen für p zu optimaler oder nahezu optimaler Itemreliabilität. Die Scores können so gewählt werden, dass ähnliche Ratewahrscheinlichkeiten wie bei Typ A-Fragen erzielt werden.
Diskussion: Die theoretische Analyse stimmt mit den in der Literatur mehrfach berichteten empirischen Ergebnissen zum Scoring von MTF-Aufgaben überein. Durch eine adäquate Wahl der Scores können ähnliche Schwierigkeitscharakteristika wie die bei Typ A-Aufgaben erzielt werden, weshalb sich auch die oft verwendete 60 %-Standardbestehensgrenze bei Prüfungen mit MTF-Aufgaben rechtfertigen lässt.
Das Modell kann dahingehend verallgemeinert werden, dass für die Teilfragen unterschiedliche Schwierigkeiten angenommen werden, wodurch die eine deutlich bessere Realitätsnähe des Modells erzielt wird.
Take Home Message: Das Finite-State-Modell erweist sich insbesondere bei MTF-Aufgaben als voraussetzungsarmes Modell, mit dem die Bewertungskriterien von Scoring-Methoden systematisch analysiert werden können.
References
[1] Schmidt D, Raupach T, Wiegand A, Herrmann M, Kanzow P. Relation between examinees‘ true knowledge and examination scores: systematic review and exemplary calculations on Multiple-True-False items. Educ Res Rev. 2021;34:1004509. DOI: 10.1016/j.edurev.2021.100409[2] García-Pérez MA. A finite state theory of performance in multiple-choice tests. In: Roskam EE, editor. Progress in mathematical psychology. Amsterdam: Elsevier; 1987. p.455-464.