<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>25dgpp33</Identifier>
    <IdentifierDoi>10.3205/25dgpp33</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-25dgpp333</IdentifierUrn>
    <ArticleType>Vortrag</ArticleType>
    <TitleGroup>
      <Title language="de">Hohe Akzeptanz KI-gest&#252;tzter SprecherInnen in der Sprachtherapie: Entlastungs- und Unterst&#252;tzungspotenzial</Title>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Goes</Lastname>
          <LastnameHeading>Goes</LastnameHeading>
          <Firstname>N.</Firstname>
          <Initials>N</Initials>
        </PersonNames>
        <Address>Department for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universit&#228;t Erlangen-N&#252;rnberg, Erlangen, Deutschland<Affiliation>Department for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universit&#228;t Erlangen-N&#252;rnberg, Erlangen, Deutschland</Affiliation></Address>
        <Email>nina.goes&#64;fau.de</Email>
        <Creatorrole corresponding="yes" presenting="yes">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kratzer</Lastname>
          <LastnameHeading>Kratzer</LastnameHeading>
          <Firstname>E.</Firstname>
          <Initials>E</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Abteilung Phoniatrie und P&#228;daudiologie, Hals-Nasen-Ohren-Klinik &#8211; Kopf- und Halschirurgie, Universit&#228;tsklinikum Erlangen, Erlangen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Asenbauer</Lastname>
          <LastnameHeading>Asenbauer</LastnameHeading>
          <Firstname>J.</Firstname>
          <Initials>J</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Abteilung Phoniatrie und P&#228;daudiologie, Hals-Nasen-Ohren-Klinik &#8211; Kopf- und Halschirurgie, Universit&#228;tsklinikum Erlangen, Erlangen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Siemons-L&#252;hring</Lastname>
          <LastnameHeading>Siemons-L&#252;hring</LastnameHeading>
          <Firstname>D.</Firstname>
          <Initials>D</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Klinik f&#252;r Phoniatrie und P&#228;daudiologie, Universit&#228;tsklinikum M&#252;nster, M&#252;nster, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Meyer</Lastname>
          <LastnameHeading>Meyer</LastnameHeading>
          <Firstname>L.</Firstname>
          <Initials>L</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Klinik f&#252;r Phoniatrie und P&#228;daudiologie, Universit&#228;tsklinikum M&#252;nster, M&#252;nster, Deutschland</Affiliation>
          <Affiliation>Max-Planck-Institut f&#252;r Kognitions- und Neurowissenschaften, Leipzig, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Neumann</Lastname>
          <LastnameHeading>Neumann</LastnameHeading>
          <Firstname>K.</Firstname>
          <Initials>K</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Klinik f&#252;r Phoniatrie und P&#228;daudiologie, Universit&#228;tsklinikum M&#252;nster, M&#252;nster, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kist</Lastname>
          <LastnameHeading>Kist</LastnameHeading>
          <Firstname>A.</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Department for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universit&#228;t Erlangen-N&#252;rnberg, Erlangen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20250925</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Meeting>
        <MeetingId>M0623</MeetingId>
        <MeetingSequence>33</MeetingSequence>
        <MeetingCorporation>Deutsche Gesellschaft f&#252;r Phoniatrie und P&#228;daudiologie</MeetingCorporation>
        <MeetingName></MeetingName>
        <MeetingTitle>41. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft f&#252;r Phoniatrie und P&#228;daudiologie (DGPP)</MeetingTitle>
        <MeetingSession>Sprechen und Sprache</MeetingSession>
        <MeetingCity>M&#252;nster</MeetingCity>
        <MeetingDate>
          <DateFrom>20250925</DateFrom>
          <DateTo>20250928</DateTo>
        </MeetingDate>
      </Meeting>
    </SourceGroup>
    <ArticleNo>V30</ArticleNo>
  </MetaData>
  <OrigData>
    <Abstract language="de" linked="yes"><Pgraph><Mark1>Hintergrund:</Mark1> Angesichts des akuten Mangels an Logop&#228;dinnen und Logop&#228;den und der daraus entstehenden Versorgungsl&#252;cke ist die Erforschung wirksamer technologischer Alternativen dringend geboten. Moderne Text-to-Speech (TTS) Systeme erzeugen maschinelle Sprache mit nahezu nat&#252;rlicher Intonation. Solche KI-gest&#252;tzten SprecherInnen bieten ein vielversprechendes Entlastungs- und Unterst&#252;tzungspotenzial in der PatientInnenversorgung. Bislang mangelt es aber an Evidenzen bez&#252;glich der therapeutischen Wirksamkeit und Akzeptanz dieser KI-basierten Sprache. In dieser Studie wurde die Akzeptanz KI-basierter SprecherInnen durch Vorschulkinder sowie durch Erwachsene mit und ohne logop&#228;dische Fachkompetenz untersucht.</Pgraph><Pgraph><Mark1>Material und Methoden:</Mark1> Es wurden erhoben, eine Kindergruppe im Alter von 3 bis 6 Jahren (N&#61;43, K) sowie zwei Erwachsenengruppen: ohne (N&#61;45, oL) und mit (N&#61;27, mL) logop&#228;discher Ausbildung. Die Teilnehmenden sollten KI-gest&#252;tzte SprecherInnen bewerten, unter anderem im Bezug auf die wahrgenommene Nat&#252;rlichkeit, die Artikulationsqualit&#228;t, das Sprechtempo und die motivationale Wirkung. Hierzu wurden Aufnahmen von neun TTS-Stimmen der Plattform ElevenLabs &#8211; f&#252;nf weiblich, vier m&#228;nnlich &#8211; vorgespielt (Passagen einer mit ChatGPT-4 generierten Erz&#228;hlung). Die zugrunde gelegten Bewertungskriterien f&#252;r die Erwachsenen orientierten sich teilweise am Mean Opinion Score (MOS). Aus den resultierenden Einzelwerten wurde ein modifizierter Gesamtwert (MOS&#42;) berechnet. Die Bewertung der Kinder erfolgte mit drei Antwortm&#246;glichkeiten: zustimmen, neutral oder nicht zustimmen, mithilfe einer altersad&#228;quaten Bewertungsskala.</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Im Mittel &#252;ber KI-SprecherInnen hinweg waren die Bewertungen hoch (Kindergruppe: 79&#37; Zustimmung, Erwachsenengruppe: Mittelwert MOS&#42;&#61; 3,76 oL, 3,60 mL). Die Einzelbewertungen der KI-generierten SprecherInnen streuten stark (Standardabweichung MOS&#42;&#61; 1,57 oL, 1,51 mL). Dies deutet auf individuelle Pr&#228;ferenzen hin. In der Studie mit erwachsenen ProbandInnen erhielt der KI-Sprecher Bill die h&#246;chste Bewertung (MOS&#42;&#61; 4,36 oL, 4,15 mL) und lag damit knapp vor Mathilda (MOS&#42;&#61; 4,34 oL, 4,10 mL) und Lily (MOS&#42;&#61; 4,25 oL, 4,02 mL). Die Sprecherin Alice wies hierbei die den h&#246;chsten Wert in Bezug auf Beliebtheit (86&#37;) und Verst&#228;ndlichkeit (88&#37;) auf.</Pgraph><Pgraph><Mark1>Schlussfolgerungen:</Mark1> Unsere Befragung zeigte breite Zustimmung der Logop&#228;dInnen zu KI-Stimmen. Der hohe MOS&#42; deutet darauf hin, dass synthetische Stimmen ein bedeutendes Anwendungspotenzial in der logop&#228;dischen Praxis besitzen.</Pgraph></Abstract>
    <TextBlock name="Text" linked="yes">
      <MainHeadline>Text</MainHeadline><SubHeadline>Hintergrund</SubHeadline><Pgraph>Angesichts des akuten Mangels an Logop&#228;dinnen und Logop&#228;den und der daraus entstehenden Versorgungsl&#252;cke ist die Erforschung wirksamer technologischer Alternativen dringend geboten. Neuartige Text-to-Speech (TTS) Systeme basierend auf k&#252;nstlicher Intelligenz (KI) erzeugen maschinelle Sprache mit nahezu nat&#252;rlicher Intonation. KI-SprecherInnen bieten somit ein vielversprechendes Entlastungs- und Unterst&#252;tzungspotenzial in der PatientInnenversorgung. Bislang mangelt es aber an Evidenzen bez&#252;glich der Akzeptanz und therapeutischen Wirksamkeit dieser KI-basierten Sprache. In dieser Studie wurde die Akzeptanz KI-basierter SprecherInnen durch Kindergartenkinder sowie durch Erwachsene mit und ohne logop&#228;dische Fachkompetenz untersucht.</Pgraph><SubHeadline>Material und Methoden</SubHeadline><Pgraph>Es wurden erhoben Daten einer Kindergruppe im Alter von 3 bis 6 Jahren (N&#61;43, K) sowie zweier Erwachsenengruppen: ohne (N&#61;45, oL) und mit (N&#61;27, mL) logop&#228;discher Ausbildung. Die Teilnehmenden sollten KI-SprecherInnen bewerten im Bezug auf die wahrgenommene Nat&#252;rlichkeit, Artikulationsqualit&#228;t, das Sprechtempo und die motivationale Wirkung. Hierzu wurden Aufnahmen von neun TTS-Stimmen der Plattform ElevenLabs &#8211; f&#252;nf weiblich, vier m&#228;nnlich &#8211; vorgespielt (Passagen einer mit ChatGPT-4 generierten Erz&#228;hlung). Die zugrunde gelegten Bewertungskriterien f&#252;r die Erwachsenen orientierten sich teilweise am Mean Opinion Score (MOS) mit einer Skala von 1 (schlecht) bis 5 (ausgezeichnet). Aus den resultierenden Einzelwerten wurde ein modifizierter Gesamtwert (MOS&#42;) berechnet. Die Bewertung der Kinder erfolgte mit drei Antwortm&#246;glichkeiten: zustimmen, neutral oder nicht zustimmen, mithilfe einer altersad&#228;quaten Bewertungsskala.</Pgraph><SubHeadline>Ergebnisse</SubHeadline><Pgraph>Im Mittel &#252;ber KI-SprecherInnen hinweg waren die Bewertungen hoch (Kindergruppe: 79&#37; Zustimmung, Erwachsenengruppe: Mittelwert MOS&#42;&#61; 3,76 oL, 3,60 mL). Die Einzelbewertungen der KI-generierten SprecherInnen streuten stark (Standardabweichung MOS&#42;&#61; 1,57 oL, 1,51 mL). Dies deutet auf individuelle Pr&#228;ferenzen hin. In der Studie mit erwachsenen ProbandInnen erhielt der KI-Sprecher Bill die h&#246;chste Bewertung (MOS&#42;&#61; 4,36 oL, 4,15 mL) und lag damit knapp vor Mathilda (MOS&#42; &#61; 4,34 oL, 4,10 mL) und Lily (MOS&#42;&#61; 4,25 oL, 4,02 mL). Die Sprecherin Alice wies bei der Kindergruppe den h&#246;chsten Wert in Bezug auf Beliebtheit (86&#37;) und Verst&#228;ndlichkeit (88&#37;) auf. Die Ergebnisse der Bewertung der restlichen KI-SprecherInnen durch erwachsene Logop&#228;dInnen und Nicht-Logop&#228;dInnen ist in Abbildung 1 <ImgLink imgNo="1" imgType="figure" /> erl&#228;utert.</Pgraph><Pgraph>Eine weitere Frage unter den Logop&#228;dInnen war die Eignung von KI-SprecherInnen in der logop&#228;dischen Praxis. Dabei gab eine Mehrheit der Logo&#228;dInnen von 66&#37; an, einen KI-Sprecher oder eine KI-Sprecherin f&#252;r einen kostenlosen Service zur Erstellung therapeutisch nutzbarer Geschichten potenziell zu nutzen wollen. Im Bezug auf den logop&#228;dischen Therapiebereich nannten 73&#37; der Logop&#228;dInnen als prim&#228;re Einsatzbereiche die Therapie von Sprachentwicklungsst&#246;rungen und Aphasien (siehe Abbildung 2 <ImgLink imgNo="2" imgType="figure" />).</Pgraph><SubHeadline>Fazit</SubHeadline><Pgraph>Unsere Befragung zeigte breite Zustimmung der Logop&#228;dInnen zu KI-Stimmen. Der hohe MOS&#42; deutet darauf hin, dass KI-SprecherInnen ein bedeutendes Anwendungspotenzial in der logop&#228;dischen Praxis besitzen.</Pgraph></TextBlock>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <Figure width="746" height="462" format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1: MOS&#42; im Gruppenvergleich der Logop&#228;dInnen und Nicht-Logop&#228;dInnen </Mark1></Pgraph></Caption>
        </Figure>
        <Figure width="529" height="350" format="png">
          <MediaNo>2</MediaNo>
          <MediaID>2</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 2: Linkes Diagramm: &#8222;W&#252;rden Sie den kostenlosen Service nutzen, die von Ihnen erstellte Inputgeschichte von einer KI-SprecherIn lesen zu lassen&#63;&#8220;, rechtes Diagramm: &#8222;In welchen logop&#228;dischen Therapiebereichen w&#252;rden Sie KI-SprecherInnen nutzen&#63;&#8220;</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>2</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>