Large Language Modelle zur automatisierten qualitativen Inhaltsanalyse von Freitextantworten aus der Lehrevaluation: Genauigkeit und qualitative Unterschiede im Vergleich zur manuellen Analyse

25gma150 10.3205/25gma150 urn:nbn:de:0183-25gma1505 Meeting Abstract Large Language Modelle zur automatisierten qualitativen Inhaltsanalyse von Freitextantworten aus der Lehrevaluation: Genauigkeit und qualitative Unterschiede im Vergleich zur manuellen Analyse Schmidt Schmidt Alexander Ernesto AE

LMU Klinikum, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin (DAM), München, Deutschland

author Huber Huber Johanna J

LMU Klinikum, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin (DAM), München, Deutschland

author Müssigmann Müssigmann Mara M

LMU Klinikum, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin (DAM), München, Deutschland

author Fischer Fischer Martin R. MR

LMU Klinikum, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin (DAM), München, Deutschland

author Stadler Stadler Matthias M

LMU Klinikum, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin (DAM), München, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20250908 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0626 150 Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) V-20 Prüfungen 2 Düsseldorf 20250908 20250910 V-20-05 TextFragestellung/Zielsetzung: Studentische Evaluationen sind in der medizinischen Ausbildung weit verbreitet . Die Auswertung von Freitextantworten erfordert große personelle und zeitliche Ressourcen , sodass deren Analyse mit Large Language Modellen (LLMs) wie GPT-4 erprobt wurde , . Ziel dieser Arbeit ist die Entwicklung eines allgemeinen Workflows zur automatisierten inhaltlich strukturierenden qualitativen Inhaltsanalyse (QIA) von Freitextantworten mittels LLM. Dabei sollen die Genauigkeit vergleichend zu einer manuellen Inhaltsanalyse mittels Inter-Rater Reliabilität (IRR) bestimmt, qualitative Unterschiede beider Analysemethoden ermittelt, sowie Methoden zur Verbesserung der Genauigkeit erarbeitet werden.Methoden: Aus der Evaluation des Praktischen Jahres (PJ) am LMU Klinikum wurden Freitextantworten auf drei offene Fragen mittels QIA ausgewertet (n=272, 02.2023-03.2024). Die Kodierschemata wurden induktiv-deduktiv entwickelt und durch zwei Kodierpersonen (KP) an 20% des Materials hinsichtlich der IRR überprüft. Die automatisierte QIA wurde in R mittels gpt-4o-2024-08-06 realisiert. Dazu wurde ein Chain-of-Thought Prompt mit den Kodierschemata aus der manuellen QIA iterativ entwickelt. In der LLM-Analyse wurde zunächst jede Antwort einzeln analysiert. Dies wurde im finalen Workflow um eine automatische Selbstkorrektur (SK) Schleife erweitert, die zu einer automatischen Wiederholung der Analyse mit Feedback bei Fehlern führt (siehe Abbildung 1 ). Die Ergebnisse wurden in MAXQDA übertragen und mit der manuellen QIA verglichen.Ergebnisse: Die IRR zwischen beiden KP lag bei 0.9-0.95, zwischen den KP und dem LLM bei 0.57-0.75. Die Anwendung von SK führte bei allen Fragen zu einer Erhöhung der IRR um etwa 0.1 (0.72-0.91). Bei Abweichungen der LLM-Kodierung von den KP waren Widersprüche in der Begründung des LLMs auffällig. Bei Unstimmigkeiten zwischen den Kodierenden waren in der LLM-Kodierung teils mehrere SK-Schleifen erforderlich. Zudem wurden vier Fehler der KP durch das LLM aufgedeckt. Trotz wiederholter Optimierung der Prompts und Abläufe, wurden durch das LLM nichtzutreffende Kodierungen vorgenommen und relevante Kodierungen ausgelassen.Diskussion: LLMs können in der QIA angewendet werden. Die Genauigkeit der LLM-Kodierungen wurde durch SK-Schleifen deutlich verbessert und eine menschenähnliche Präzision erreicht. Manuelle QIA könnten außerdem durch die Identifikation von Fehlern und herausfordernden Rückmeldungen erleichtert werden. Die Implementierung dieses Workflows zur standardisierten automatisierten QIA der Freitextantworten der PJ-Evaluation könnte Wegbereiter für eine generelle automatisierte Auswertung von Freitextantworten aus Lehrevaluationen sein.Take Home Message: Zusammenfassend zeigte sich, dass LLMs zur Automatisierung von QIA anhand von vordefinierten Kodierschemata mit menschenähnlicher Genauigkeit einsetzen lassen und SK-Schleifen die Genauigkeit deutlich verbessern. Richardson JT Instruments for obtaining student feedback: a review of the literature 2005 Assess Eval High Educ 387-415 Richardson JT. Instruments for obtaining student feedback: a review of the literature. Assess Eval High Educ. 2005;30(4):387-415. DOI: 10.1080/02602930500099193 http://dx.doi.org/10.1080/02602930500099193 Parker MJ Anderson C Stone C Oh Y A Large Language Model Approach to Educational Survey Feedback Analysis 2025 Int J Artif Intell Educ 444-481 Parker MJ, Anderson C, Stone C, Oh Y. A Large Language Model Approach to Educational Survey Feedback Analysis. Int J Artif Intell Educ. 2025;35:444-481. DOI: 10.1007/s40593-024-00414-0 http://dx.doi.org/10.1007/s40593-024-00414-0 Fuller KA Morbitzer KA Zeeman JM Persky AM Savage AC McLaughlin JE Exploring the use of ChatGPT to analyze student course evaluation comments 2024 BMC Med Educ 423 Fuller KA, Morbitzer KA, Zeeman JM, Persky AM, Savage AC, McLaughlin JE. Exploring the use of ChatGPT to analyze student course evaluation comments. BMC Med Educ. 2024;24(1):423. DOI: 10.1186/s12909-024-05316-2 https://doi.org/10.1186/s12909-024-05316-2 0

1 1 Abbildung 1: Qualitative Inhaltsanalyse (QIA): Workflow mit Selbstkorrekturschleife (SK) 1 0 0