Hohe Akzeptanz KI-gestützter SprecherInnen in der Sprachtherapie: Entlastungs- und Unterstützungspotenzial

25dgpp33 10.3205/25dgpp33 urn:nbn:de:0183-25dgpp333 Vortrag Hohe Akzeptanz KI-gestützter SprecherInnen in der Sprachtherapie: Entlastungs- und Unterstützungspotenzial Goes Goes N. N

Department for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, DeutschlandDepartment for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland

nina.goes@fau.de author Kratzer Kratzer E. E

Abteilung Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik – Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland

author Asenbauer Asenbauer J. J

Abteilung Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik – Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland

author Siemons-Lühring Siemons-Lühring D. D

Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Münster, Deutschland

author Meyer Meyer L. L

Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Münster, Deutschland Max-Planck-Institut für Kognitions- und Neurowissenschaften, Leipzig, Deutschland

author Neumann Neumann K. K

Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Münster, Deutschland

author Kist Kist A. A

Department for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20250925 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0623 33 Deutsche Gesellschaft für Phoniatrie und Pädaudiologie 41. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP) Sprechen und Sprache Münster 20250925 20250928 V30 Hintergrund: Angesichts des akuten Mangels an Logopädinnen und Logopäden und der daraus entstehenden Versorgungslücke ist die Erforschung wirksamer technologischer Alternativen dringend geboten. Moderne Text-to-Speech (TTS) Systeme erzeugen maschinelle Sprache mit nahezu natürlicher Intonation. Solche KI-gestützten SprecherInnen bieten ein vielversprechendes Entlastungs- und Unterstützungspotenzial in der PatientInnenversorgung. Bislang mangelt es aber an Evidenzen bezüglich der therapeutischen Wirksamkeit und Akzeptanz dieser KI-basierten Sprache. In dieser Studie wurde die Akzeptanz KI-basierter SprecherInnen durch Vorschulkinder sowie durch Erwachsene mit und ohne logopädische Fachkompetenz untersucht.Material und Methoden: Es wurden erhoben, eine Kindergruppe im Alter von 3 bis 6 Jahren (N=43, K) sowie zwei Erwachsenengruppen: ohne (N=45, oL) und mit (N=27, mL) logopädischer Ausbildung. Die Teilnehmenden sollten KI-gestützte SprecherInnen bewerten, unter anderem im Bezug auf die wahrgenommene Natürlichkeit, die Artikulationsqualität, das Sprechtempo und die motivationale Wirkung. Hierzu wurden Aufnahmen von neun TTS-Stimmen der Plattform ElevenLabs – fünf weiblich, vier männlich – vorgespielt (Passagen einer mit ChatGPT-4 generierten Erzählung). Die zugrunde gelegten Bewertungskriterien für die Erwachsenen orientierten sich teilweise am Mean Opinion Score (MOS). Aus den resultierenden Einzelwerten wurde ein modifizierter Gesamtwert (MOS*) berechnet. Die Bewertung der Kinder erfolgte mit drei Antwortmöglichkeiten: zustimmen, neutral oder nicht zustimmen, mithilfe einer altersadäquaten Bewertungsskala.Ergebnisse: Im Mittel über KI-SprecherInnen hinweg waren die Bewertungen hoch (Kindergruppe: 79% Zustimmung, Erwachsenengruppe: Mittelwert MOS*= 3,76 oL, 3,60 mL). Die Einzelbewertungen der KI-generierten SprecherInnen streuten stark (Standardabweichung MOS*= 1,57 oL, 1,51 mL). Dies deutet auf individuelle Präferenzen hin. In der Studie mit erwachsenen ProbandInnen erhielt der KI-Sprecher Bill die höchste Bewertung (MOS*= 4,36 oL, 4,15 mL) und lag damit knapp vor Mathilda (MOS*= 4,34 oL, 4,10 mL) und Lily (MOS*= 4,25 oL, 4,02 mL). Die Sprecherin Alice wies hierbei die den höchsten Wert in Bezug auf Beliebtheit (86%) und Verständlichkeit (88%) auf.Schlussfolgerungen: Unsere Befragung zeigte breite Zustimmung der LogopädInnen zu KI-Stimmen. Der hohe MOS* deutet darauf hin, dass synthetische Stimmen ein bedeutendes Anwendungspotenzial in der logopädischen Praxis besitzen. TextHintergrundAngesichts des akuten Mangels an Logopädinnen und Logopäden und der daraus entstehenden Versorgungslücke ist die Erforschung wirksamer technologischer Alternativen dringend geboten. Neuartige Text-to-Speech (TTS) Systeme basierend auf künstlicher Intelligenz (KI) erzeugen maschinelle Sprache mit nahezu natürlicher Intonation. KI-SprecherInnen bieten somit ein vielversprechendes Entlastungs- und Unterstützungspotenzial in der PatientInnenversorgung. Bislang mangelt es aber an Evidenzen bezüglich der Akzeptanz und therapeutischen Wirksamkeit dieser KI-basierten Sprache. In dieser Studie wurde die Akzeptanz KI-basierter SprecherInnen durch Kindergartenkinder sowie durch Erwachsene mit und ohne logopädische Fachkompetenz untersucht.Material und MethodenEs wurden erhoben Daten einer Kindergruppe im Alter von 3 bis 6 Jahren (N=43, K) sowie zweier Erwachsenengruppen: ohne (N=45, oL) und mit (N=27, mL) logopädischer Ausbildung. Die Teilnehmenden sollten KI-SprecherInnen bewerten im Bezug auf die wahrgenommene Natürlichkeit, Artikulationsqualität, das Sprechtempo und die motivationale Wirkung. Hierzu wurden Aufnahmen von neun TTS-Stimmen der Plattform ElevenLabs – fünf weiblich, vier männlich – vorgespielt (Passagen einer mit ChatGPT-4 generierten Erzählung). Die zugrunde gelegten Bewertungskriterien für die Erwachsenen orientierten sich teilweise am Mean Opinion Score (MOS) mit einer Skala von 1 (schlecht) bis 5 (ausgezeichnet). Aus den resultierenden Einzelwerten wurde ein modifizierter Gesamtwert (MOS*) berechnet. Die Bewertung der Kinder erfolgte mit drei Antwortmöglichkeiten: zustimmen, neutral oder nicht zustimmen, mithilfe einer altersadäquaten Bewertungsskala.ErgebnisseIm Mittel über KI-SprecherInnen hinweg waren die Bewertungen hoch (Kindergruppe: 79% Zustimmung, Erwachsenengruppe: Mittelwert MOS*= 3,76 oL, 3,60 mL). Die Einzelbewertungen der KI-generierten SprecherInnen streuten stark (Standardabweichung MOS*= 1,57 oL, 1,51 mL). Dies deutet auf individuelle Präferenzen hin. In der Studie mit erwachsenen ProbandInnen erhielt der KI-Sprecher Bill die höchste Bewertung (MOS*= 4,36 oL, 4,15 mL) und lag damit knapp vor Mathilda (MOS* = 4,34 oL, 4,10 mL) und Lily (MOS*= 4,25 oL, 4,02 mL). Die Sprecherin Alice wies bei der Kindergruppe den höchsten Wert in Bezug auf Beliebtheit (86%) und Verständlichkeit (88%) auf. Die Ergebnisse der Bewertung der restlichen KI-SprecherInnen durch erwachsene LogopädInnen und Nicht-LogopädInnen ist in Abbildung 1 erläutert.Eine weitere Frage unter den LogopädInnen war die Eignung von KI-SprecherInnen in der logopädischen Praxis. Dabei gab eine Mehrheit der LogoädInnen von 66% an, einen KI-Sprecher oder eine KI-Sprecherin für einen kostenlosen Service zur Erstellung therapeutisch nutzbarer Geschichten potenziell zu nutzen wollen. Im Bezug auf den logopädischen Therapiebereich nannten 73% der LogopädInnen als primäre Einsatzbereiche die Therapie von Sprachentwicklungsstörungen und Aphasien (siehe Abbildung 2 ).FazitUnsere Befragung zeigte breite Zustimmung der LogopädInnen zu KI-Stimmen. Der hohe MOS* deutet darauf hin, dass KI-SprecherInnen ein bedeutendes Anwendungspotenzial in der logopädischen Praxis besitzen. 0

1 1 Abbildung 1: MOS* im Gruppenvergleich der LogopädInnen und Nicht-LogopädInnen

2 2 Abbildung 2: Linkes Diagramm: „Würden Sie den kostenlosen Service nutzen, die von Ihnen erstellte Inputgeschichte von einer KI-SprecherIn lesen zu lassen?“, rechtes Diagramm: „In welchen logopädischen Therapiebereichen würden Sie KI-SprecherInnen nutzen?“ 2 0 0