<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>25gma150</Identifier>
    <IdentifierDoi>10.3205/25gma150</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-25gma1505</IdentifierUrn>
    <ArticleType>Meeting Abstract</ArticleType>
    <TitleGroup>
      <Title language="de">Large Language Modelle zur automatisierten qualitativen Inhaltsanalyse von Freitextantworten aus der Lehrevaluation: Genauigkeit und qualitative Unterschiede im Vergleich zur manuellen Analyse</Title>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Schmidt</Lastname>
          <LastnameHeading>Schmidt</LastnameHeading>
          <Firstname>Alexander Ernesto</Firstname>
          <Initials>AE</Initials>
        </PersonNames>
        <Address>
          <Affiliation>LMU Klinikum, LMU M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin (DAM), M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="yes">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Huber</Lastname>
          <LastnameHeading>Huber</LastnameHeading>
          <Firstname>Johanna</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address>
          <Affiliation>LMU Klinikum, LMU M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin (DAM), M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>M&#252;ssigmann</Lastname>
          <LastnameHeading>M&#252;ssigmann</LastnameHeading>
          <Firstname>Mara</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>LMU Klinikum, LMU M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin (DAM), M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Fischer</Lastname>
          <LastnameHeading>Fischer</LastnameHeading>
          <Firstname>Martin R.</Firstname>
          <Initials>MR</Initials>
        </PersonNames>
        <Address>
          <Affiliation>LMU Klinikum, LMU M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin (DAM), M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Stadler</Lastname>
          <LastnameHeading>Stadler</LastnameHeading>
          <Firstname>Matthias</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>LMU Klinikum, LMU M&#252;nchen, Institut f&#252;r Didaktik und Ausbildungsforschung in der Medizin (DAM), M&#252;nchen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20250908</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Meeting>
        <MeetingId>M0626</MeetingId>
        <MeetingSequence>150</MeetingSequence>
        <MeetingName>Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA)</MeetingName>
        <MeetingTitle></MeetingTitle>
        <MeetingSession>V-20 Pr&#252;fungen 2</MeetingSession>
        <MeetingCity>D&#252;sseldorf</MeetingCity>
        <MeetingDate>
          <DateFrom>20250908</DateFrom>
          <DateTo>20250910</DateTo>
        </MeetingDate>
      </Meeting>
    </SourceGroup>
    <ArticleNo>V-20-05</ArticleNo>
  </MetaData>
  <OrigData>
    <TextBlock name="Text" linked="yes">
      <MainHeadline>Text</MainHeadline><Pgraph><Mark1>Fragestellung&#47;Zielsetzung: </Mark1>Studentische Evaluationen sind in der medizinischen Ausbildung weit verbreitet <TextLink reference="1"></TextLink>. Die Auswertung von Freitextantworten erfordert gro&#223;e personelle und zeitliche Ressourcen <TextLink reference="1"></TextLink>, sodass deren Analyse mit Large Language Modellen (LLMs) wie GPT-4 erprobt wurde <TextLink reference="2"></TextLink>, <TextLink reference="3"></TextLink>. Ziel dieser Arbeit ist die Entwicklung eines allgemeinen Workflows zur automatisierten inhaltlich strukturierenden qualitativen Inhaltsanalyse (QIA) von Freitextantworten mittels LLM. Dabei sollen die Genauigkeit vergleichend zu einer manuellen Inhaltsanalyse mittels Inter-Rater Reliabilit&#228;t (IRR) bestimmt, qualitative Unterschiede beider Analysemethoden ermittelt, sowie Methoden zur Verbesserung der Genauigkeit erarbeitet werden.</Pgraph><Pgraph><Mark1>Methoden: </Mark1>Aus der Evaluation des Praktischen Jahres (PJ) am LMU Klinikum wurden Freitextantworten auf drei offene Fragen mittels QIA ausgewertet (n&#61;272, 02.2023-03.2024). Die Kodierschemata wurden induktiv-deduktiv entwickelt und durch zwei Kodierpersonen (KP) an 20&#37; des Materials hinsichtlich der IRR &#252;berpr&#252;ft. Die automatisierte QIA wurde in R mittels gpt-4o-2024-08-06 realisiert. Dazu wurde ein Chain-of-Thought Prompt mit den Kodierschemata aus der manuellen QIA iterativ entwickelt. In der LLM-Analyse wurde zun&#228;chst jede Antwort einzeln analysiert. Dies wurde im finalen Workflow um eine automatische Selbstkorrektur (SK) Schleife erweitert, die zu einer automatischen Wiederholung der Analyse mit Feedback bei Fehlern f&#252;hrt (siehe Abbildung 1 <ImgLink imgNo="1" imgType="figure" />). Die Ergebnisse wurden in MAXQDA &#252;bertragen und mit der manuellen QIA verglichen.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die IRR zwischen beiden KP lag bei 0.9-0.95, zwischen den KP und dem LLM bei 0.57-0.75. Die Anwendung von SK f&#252;hrte bei allen Fragen zu einer Erh&#246;hung der IRR um etwa 0.1 (0.72-0.91). Bei Abweichungen der LLM-Kodierung von den KP waren Widerspr&#252;che in der Begr&#252;ndung des LLMs auff&#228;llig. Bei Unstimmigkeiten zwischen den Kodierenden waren in der LLM-Kodierung teils mehrere SK-Schleifen erforderlich. Zudem wurden vier Fehler der KP durch das LLM aufgedeckt. Trotz wiederholter Optimierung der Prompts und Abl&#228;ufe, wurden durch das LLM nichtzutreffende Kodierungen vorgenommen und relevante Kodierungen ausgelassen.</Pgraph><Pgraph><Mark1>Diskussion: </Mark1>LLMs k&#246;nnen in der QIA angewendet werden. Die Genauigkeit der LLM-Kodierungen wurde durch SK-Schleifen deutlich verbessert und eine menschen&#228;hnliche Pr&#228;zision erreicht. Manuelle QIA k&#246;nnten au&#223;erdem durch die Identifikation von Fehlern und herausfordernden R&#252;ckmeldungen erleichtert werden. Die Implementierung dieses Workflows zur standardisierten automatisierten QIA der Freitextantworten der PJ-Evaluation k&#246;nnte Wegbereiter f&#252;r eine generelle automatisierte Auswertung von Freitextantworten aus Lehrevaluationen sein.</Pgraph><Pgraph><Mark1>Take Home Message: </Mark1>Zusammenfassend zeigte sich, dass LLMs zur Automatisierung von QIA anhand von vordefinierten Kodierschemata mit menschen&#228;hnlicher Genauigkeit einsetzen lassen und SK-Schleifen die Genauigkeit deutlich verbessern.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Richardson JT</RefAuthor>
        <RefTitle>Instruments for obtaining student feedback: a review of the literature</RefTitle>
        <RefYear>2005</RefYear>
        <RefJournal>Assess Eval High Educ</RefJournal>
        <RefPage>387-415</RefPage>
        <RefTotal>Richardson JT. Instruments for obtaining student feedback: a review of the literature. Assess Eval High Educ.  2005;30(4):387-415. DOI: 10.1080&#47;02602930500099193</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1080&#47;02602930500099193</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Parker MJ</RefAuthor>
        <RefAuthor>Anderson C</RefAuthor>
        <RefAuthor>Stone C</RefAuthor>
        <RefAuthor>Oh Y</RefAuthor>
        <RefTitle>A Large Language Model Approach to Educational Survey Feedback Analysis</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>Int J Artif Intell Educ</RefJournal>
        <RefPage>444-481</RefPage>
        <RefTotal>Parker MJ, Anderson C, Stone C, Oh Y. A Large Language Model Approach to Educational Survey Feedback Analysis. Int J Artif Intell Educ. 2025;35:444-481. DOI: 10.1007&#47;s40593-024-00414-0</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s40593-024-00414-0</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Fuller KA</RefAuthor>
        <RefAuthor>Morbitzer KA</RefAuthor>
        <RefAuthor>Zeeman JM</RefAuthor>
        <RefAuthor>Persky AM</RefAuthor>
        <RefAuthor>Savage AC</RefAuthor>
        <RefAuthor>McLaughlin JE</RefAuthor>
        <RefTitle>Exploring the use of ChatGPT to analyze student course evaluation comments</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>BMC Med Educ</RefJournal>
        <RefPage>423</RefPage>
        <RefTotal>Fuller KA, Morbitzer KA, Zeeman JM, Persky AM, Savage AC, McLaughlin JE. Exploring the use of ChatGPT to analyze student course evaluation comments. BMC Med Educ. 2024;24(1):423. DOI: 10.1186&#47;s12909-024-05316-2</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.1186&#47;s12909-024-05316-2</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <Figure width="997" height="230" format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1: Qualitative Inhaltsanalyse (QIA): Workflow mit Selbstkorrekturschleife (SK)</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>