Bewertung von Mehrfach-Richtig-Falsch-Aufgaben: Beurteilung von Scoring-Algorithmen mittels Finite-State-Modell

25gma049 10.3205/25gma049 urn:nbn:de:0183-25gma0497 Meeting Abstract Bewertung von Mehrfach-Richtig-Falsch-Aufgaben: Beurteilung von Scoring-Algorithmen mittels Finite-State-Modell Möltner Möltner Andreas A

Universität Heidelberg, Qualitätssicherung Prüfungen/QM Lehre, Heidelberg, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20250908 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0626 049 Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) V-07 Prüfungen 1 Düsseldorf 20250908 20250910 V-07-02 TextFragestellung/Zielsetzung: Seit über 40 Jahren ist die Frage, wie Mehrfach-Richtig-Falsch Aufgaben (MTF, auch Typ X oder Kprim) optimal zu bewerten sind, immer wieder Thema von Publikationen. Schmidt et al. haben in einer Übersichtsarbeit 31 unterschiedliche Scoring-Algorithmen für MTF-Aufgaben in der Literatur aufgeführt, die verwendet werden oder wurden.In der Literatur findet sich eine Reihe von empirischen Vergleichen, die z. B. die Itemschwierigkeiten oder die Reliabilität von Tests bei Verwendung unterschiedlicher Scoringmethoden untersuchen. Weitgehend offen ist hingegen die Frage, weshalb sich bestimmte Methoden anderen gegenüber als überlegen erweisen.Ziel der Untersuchung ist Kriterien zur Beurteilung von Scoring-Algorithmen zu begründen und mittels eines mathematischen Modells (Finite-State-Modell) deren Eigenschaften zu untersuchen.Methoden: Formales Modell zur Analyse von MTF-Aufgaben ist das Finite-State-Modell, das für Typ A-Fragen von Garcia-Perez u. a. entwickelt wurde. In diesem Modell wird angenommen, dass jeder Testteilnehmer einen individuellen Fähigkeitsparameter p besitzt, welcher die Wahrscheinlichkeit dafür angibt, bei einer Teilfrage zu wissen, ob sie korrekt oder falsch ist.Hiermit lassen sich Kenngrößen wie die Ratewahrscheinlichkeit (Erwartungswert bei p=0), der erwartete Score bei Kenntnis von 50% der Aussagen (p=0,5) und die Übereinstimmung des Verlaufs der erwarteten Scores in Abhängigkeit von p mit dem bei Typ A-Fragen behandeln.Weiteres Beurteilungskriterium ist die Itemreliabilität. Hierzu wird die Verteilung der Fähigkeitsparameter p durch eine Betaverteilung approximiert. In Abhängigkeit von den Parametern der Verteilung lassen sich Reliabilität sowie relative Reliabilität im Vergleich zu einem für die spezielle Verteilungsgestalt optimalen Scoring bestimmen.Ergebnisse: Für MTF-Aufgaben mit vier oder fünf Teilfragen führt die Vergabe von Teilpunkten bei einem bzw. zwei Fehlern über einen weiten Bereich von Verteilungsannahmen für p zu optimaler oder nahezu optimaler Itemreliabilität. Die Scores können so gewählt werden, dass ähnliche Ratewahrscheinlichkeiten wie bei Typ A-Fragen erzielt werden.Diskussion: Die theoretische Analyse stimmt mit den in der Literatur mehrfach berichteten empirischen Ergebnissen zum Scoring von MTF-Aufgaben überein. Durch eine adäquate Wahl der Scores können ähnliche Schwierigkeitscharakteristika wie die bei Typ A-Aufgaben erzielt werden, weshalb sich auch die oft verwendete 60 %-Standardbestehensgrenze bei Prüfungen mit MTF-Aufgaben rechtfertigen lässt.Das Modell kann dahingehend verallgemeinert werden, dass für die Teilfragen unterschiedliche Schwierigkeiten angenommen werden, wodurch die eine deutlich bessere Realitätsnähe des Modells erzielt wird.Take Home Message: Das Finite-State-Modell erweist sich insbesondere bei MTF-Aufgaben als voraussetzungsarmes Modell, mit dem die Bewertungskriterien von Scoring-Methoden systematisch analysiert werden können. García-Pérez MA A finite state theory of performance in multiple-choice tests 1987 Progress in mathematical psychology 455-464 García-Pérez MA. A finite state theory of performance in multiple-choice tests. In: Roskam EE, editor. Progress in mathematical psychology. Amsterdam: Elsevier; 1987. p.455-464. Schmidt D Raupach T Wiegand A Herrmann M Kanzow P Relation between examinees‘ true knowledge and examination scores: systematic review and exemplary calculations on Multiple-True-False items 2021 Educ Res Rev 1004509 Schmidt D, Raupach T, Wiegand A, Herrmann M, Kanzow P. Relation between examinees‘ true knowledge and examination scores: systematic review and exemplary calculations on Multiple-True-False items. Educ Res Rev. 2021;34:1004509. DOI: 10.1016/j.edurev.2021.100409 http://dx.doi.org/10.1016/j.edurev.2021.100409 0 0 0 0