<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>25gma261</Identifier>
    <IdentifierDoi>10.3205/25gma261</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-25gma2614</IdentifierUrn>
    <ArticleType>Meeting Abstract</ArticleType>
    <TitleGroup>
      <Title language="de">Analyse der Limitationen bei der Erstellung von Pr&#252;fungsfragen mit K&#252;nstlicher Intelligenz (KI)</Title>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Nett</Lastname>
          <LastnameHeading>Nett</LastnameHeading>
          <Firstname>Nadine</Firstname>
          <Initials>N</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Bonn, Institut f&#252;r Medizindidaktik, Bonn, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="yes">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Schneider</Lastname>
          <LastnameHeading>Schneider</LastnameHeading>
          <Firstname>Anke</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r medizinische und pharmazeutische Pr&#252;fungsfragen, Mainz, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Lindner</Lastname>
          <LastnameHeading>Lindner</LastnameHeading>
          <Firstname>Marcus</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r medizinische und pharmazeutische Pr&#252;fungsfragen, Mainz, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Oksche</Lastname>
          <LastnameHeading>Oksche</LastnameHeading>
          <Firstname>Alexander</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r medizinische und pharmazeutische Pr&#252;fungsfragen, Mainz, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Shahla</Lastname>
          <LastnameHeading>Shahla</LastnameHeading>
          <Firstname>Hossein</Firstname>
          <Initials>H</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r medizinische und pharmazeutische Pr&#252;fungsfragen, Mainz, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Raupach</Lastname>
          <LastnameHeading>Raupach</LastnameHeading>
          <Firstname>Tobias</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Universit&#228;tsklinikum Bonn, Institut f&#252;r Medizindidaktik, Bonn, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Becker</Lastname>
          <LastnameHeading>Becker</LastnameHeading>
          <Firstname>Jan Carl</Firstname>
          <Initials>JC</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r medizinische und pharmazeutische Pr&#252;fungsfragen, Mainz, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20250908</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Meeting>
        <MeetingId>M0626</MeetingId>
        <MeetingSequence>261</MeetingSequence>
        <MeetingName>Jahrestagung der Gesellschaft f&#252;r Medizinische Ausbildung (GMA)</MeetingName>
        <MeetingTitle></MeetingTitle>
        <MeetingSession>P-08 Assessment &#47;  Evaluation der Lehre</MeetingSession>
        <MeetingCity>D&#252;sseldorf</MeetingCity>
        <MeetingDate>
          <DateFrom>20250908</DateFrom>
          <DateTo>20250910</DateTo>
        </MeetingDate>
      </Meeting>
    </SourceGroup>
    <ArticleNo>P-08-11</ArticleNo>
  </MetaData>
  <OrigData>
    <TextBlock name="Text" linked="yes">
      <MainHeadline>Text</MainHeadline><Pgraph><Mark1>Fragestellung&#47;Zielsetzung: </Mark1>Die Erstellung von Pr&#252;fungsfragen stellt eine der zeitintensivsten Aufgaben in der medizinischen Lehre dar. Large Language Modelle (LLM) bieten das Potenzial, diesen Prozess zu unterst&#252;tzen, da sie in der Lage sind, Multiple-Choice-Fragen sowohl zu l&#246;sen als auch zu formulieren (z.B: <TextLink reference="1"></TextLink>). Dennoch gibt es Einschr&#228;nkungen in ihrer Verwendbarkeit, die in der vorliegenden Studie systematisch analysiert wurden <TextLink reference="2"></TextLink>.</Pgraph><Pgraph><Mark1>Methoden: </Mark1>Im Rahmen eines iterativen Prompting-Prozesses wurden insgesamt 188 Single-Choice (SC) Aufgaben aus verschiedenen Bereichen der Inneren Medizin mit einem LLM generiert. 127 Aufgaben wurden durch Expert&#42;innen der jeweiligen Fachbereiche des Universit&#228;tsklinikums Bonn (UKB) anhand von acht inhaltlichen Kriterien evaluiert. Zus&#228;tzlich wurden 10 zuf&#228;llig ausgew&#228;hlte Aufgaben vom Institut f&#252;r medizinische und pharmazeutische Pr&#252;fungsfragen (IMPP) gem&#228;&#223; dem IMPP-Standard beurteilt.</Pgraph><Pgraph><Mark1>Ergebnisse: </Mark1>Die Evaluation der generierten Aufgaben durch die Fachpersonen (UKB) deckte verschiedene Schwachstellen auf. Es erf&#252;llten 45 von 127 Aufgaben alle acht Kriterien positiv und k&#246;nnten somit uneingeschr&#228;nkt als Pr&#252;fungsaufgaben verwendet werden.</Pgraph><Pgraph>In Bezug auf die inhaltliche Korrektheit der Fallvignette erwiesen sich 13 SC-Aufgaben als fehlerhaft und in zehn F&#228;llen als unrealistisch. Bei 13 Aufgaben waren die angegebenen Vitalparameter nicht plausibel. Beim Fragensatz enthielten sechs Aufgaben inhaltliche Fehler. Bei acht Aufgaben wurde eine mangelnde inhaltliche Homogenit&#228;t festgestellt. Ein zentrales Problem zeigte sich bei der Target-Bewertung. Insgesamt erf&#252;llten 27 Aufgaben nicht das Kriterium der Eindeutigkeit. Besonders problematisch erwiesen sich die Distraktoren: Bei 66 Aufgaben konnten mindestens ein Distraktor nicht als eindeutig falsch angesehen werden. Bei der allgemeinen Einsch&#228;tzung, ob die Aufgabe in dieser Form in einer Pr&#252;fung verwendet werden k&#246;nnte, bewerteten die Fachpersonen 59 Aufgaben negativ.</Pgraph><Pgraph>Die stichprobenartige Begutachtung durch das IMPP best&#228;tigte diese Ergebnisse weitgehend. Besonders hervorzuheben ist, dass 21 von 40 Distraktoren eine zu geringe inhaltliche Trennsch&#228;rfe zur L&#246;sung aufwiesen. Zudem war der Antwortraum in allen Aufgaben inhaltlich und&#47;oder formal inhomogen und enthielt einige Cuings. Nur 1 von 10 Aufgaben w&#228;re f&#252;r den weiteren IMPP-Prozess geeignet.</Pgraph><Pgraph><Mark1>Diskussion: </Mark1>Die gr&#246;&#223;te Herausforderung bei der automatisierten Generierung von SC-Aufgaben ist die Erstellung eindeutig falscher Distraktoren. Dies kann darauf zur&#252;ckgef&#252;hrt werden, dass LLMs in der Regel darauf trainiert werden, faktenbasiert zu antworten, wodurch die Generierung von falschen, aber plausiblen Distraktoren erschwert wird. Zuk&#252;nftig stellt sich die Frage, durch welche Trainingsans&#228;tze diese Herausforderung besser bew&#228;ltigt werden kann.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="2">
        <RefAuthor>K&#305;yak YS</RefAuthor>
        <RefAuthor>Emekli E</RefAuthor>
        <RefTitle>ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Postgrad Med J</RefJournal>
        <RefPage>858-865</RefPage>
        <RefTotal>K&#305;yak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024;100(1189):858-865. DOI: 10.1093&#47;postmj&#47;qgae065</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1093&#47;postmj&#47;qgae065</RefLink>
      </Reference>
      <Reference refNo="1">
        <RefAuthor>Persike M</RefAuthor>
        <RefTitle>Pr&#252;fungen generieren mit KI&#63; Neue Erkenntnisse aus der RWTH Aachen University</RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>e-teaching.org Podcast</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Persike M. Pr&#252;fungen generieren mit KI&#63; Neue Erkenntnisse aus der RWTH Aachen University. In: e-teaching.org Podcast. 01.02.2024. Zug&#228;nglich unter&#47;available from: https:&#47;&#47;www.e-teaching.org&#47;materialien&#47;podcasts&#47;podcast-2024&#47;pruefungen-generieren-mit-ki-neue-erkenntnisse-aus-der-rwth-aachen-university</RefTotal>
        <RefLink>https:&#47;&#47;www.e-teaching.org&#47;materialien&#47;podcasts&#47;podcast-2024&#47;pruefungen-generieren-mit-ki-neue-erkenntnisse-aus-der-rwth-aachen-university</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <NoOfPictures>0</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>