Logo

41. Wissenschaftliche Jahrestagung der Deutschen Gesellschaft für Phoniatrie und Pädaudiologie (DGPP)

Deutsche Gesellschaft für Phoniatrie und Pädaudiologie e. V.
25.-28.09.2025
Münster


Vortrag

Hohe Akzeptanz KI-gestützter SprecherInnen in der Sprachtherapie: Entlastungs- und Unterstützungspotenzial

E. Kratzer 2
J. Asenbauer 2
D. Siemons-Lühring 3
L. Meyer 3,4
K. Neumann 3
A. Kist 1
1Department for Artificial Intelligence in Biomedical Engineering, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
2Abteilung Phoniatrie und Pädaudiologie, Hals-Nasen-Ohren-Klinik – Kopf- und Halschirurgie, Universitätsklinikum Erlangen, Erlangen, Deutschland
3Klinik für Phoniatrie und Pädaudiologie, Universitätsklinikum Münster, Münster, Deutschland
4Max-Planck-Institut für Kognitions- und Neurowissenschaften, Leipzig, Deutschland

Abstract

Hintergrund: Angesichts des akuten Mangels an Logopädinnen und Logopäden und der daraus entstehenden Versorgungslücke ist die Erforschung wirksamer technologischer Alternativen dringend geboten. Moderne Text-to-Speech (TTS) Systeme erzeugen maschinelle Sprache mit nahezu natürlicher Intonation. Solche KI-gestützten SprecherInnen bieten ein vielversprechendes Entlastungs- und Unterstützungspotenzial in der PatientInnenversorgung. Bislang mangelt es aber an Evidenzen bezüglich der therapeutischen Wirksamkeit und Akzeptanz dieser KI-basierten Sprache. In dieser Studie wurde die Akzeptanz KI-basierter SprecherInnen durch Vorschulkinder sowie durch Erwachsene mit und ohne logopädische Fachkompetenz untersucht.

Material und Methoden: Es wurden erhoben, eine Kindergruppe im Alter von 3 bis 6 Jahren (N=43, K) sowie zwei Erwachsenengruppen: ohne (N=45, oL) und mit (N=27, mL) logopädischer Ausbildung. Die Teilnehmenden sollten KI-gestützte SprecherInnen bewerten, unter anderem im Bezug auf die wahrgenommene Natürlichkeit, die Artikulationsqualität, das Sprechtempo und die motivationale Wirkung. Hierzu wurden Aufnahmen von neun TTS-Stimmen der Plattform ElevenLabs – fünf weiblich, vier männlich – vorgespielt (Passagen einer mit ChatGPT-4 generierten Erzählung). Die zugrunde gelegten Bewertungskriterien für die Erwachsenen orientierten sich teilweise am Mean Opinion Score (MOS). Aus den resultierenden Einzelwerten wurde ein modifizierter Gesamtwert (MOS*) berechnet. Die Bewertung der Kinder erfolgte mit drei Antwortmöglichkeiten: zustimmen, neutral oder nicht zustimmen, mithilfe einer altersadäquaten Bewertungsskala.

Ergebnisse: Im Mittel über KI-SprecherInnen hinweg waren die Bewertungen hoch (Kindergruppe: 79% Zustimmung, Erwachsenengruppe: Mittelwert MOS*= 3,76 oL, 3,60 mL). Die Einzelbewertungen der KI-generierten SprecherInnen streuten stark (Standardabweichung MOS*= 1,57 oL, 1,51 mL). Dies deutet auf individuelle Präferenzen hin. In der Studie mit erwachsenen ProbandInnen erhielt der KI-Sprecher Bill die höchste Bewertung (MOS*= 4,36 oL, 4,15 mL) und lag damit knapp vor Mathilda (MOS*= 4,34 oL, 4,10 mL) und Lily (MOS*= 4,25 oL, 4,02 mL). Die Sprecherin Alice wies hierbei die den höchsten Wert in Bezug auf Beliebtheit (86%) und Verständlichkeit (88%) auf.

Schlussfolgerungen: Unsere Befragung zeigte breite Zustimmung der LogopädInnen zu KI-Stimmen. Der hohe MOS* deutet darauf hin, dass synthetische Stimmen ein bedeutendes Anwendungspotenzial in der logopädischen Praxis besitzen.

Text

Hintergrund

Angesichts des akuten Mangels an Logopädinnen und Logopäden und der daraus entstehenden Versorgungslücke ist die Erforschung wirksamer technologischer Alternativen dringend geboten. Neuartige Text-to-Speech (TTS) Systeme basierend auf künstlicher Intelligenz (KI) erzeugen maschinelle Sprache mit nahezu natürlicher Intonation. KI-SprecherInnen bieten somit ein vielversprechendes Entlastungs- und Unterstützungspotenzial in der PatientInnenversorgung. Bislang mangelt es aber an Evidenzen bezüglich der Akzeptanz und therapeutischen Wirksamkeit dieser KI-basierten Sprache. In dieser Studie wurde die Akzeptanz KI-basierter SprecherInnen durch Kindergartenkinder sowie durch Erwachsene mit und ohne logopädische Fachkompetenz untersucht.

Material und Methoden

Es wurden erhoben Daten einer Kindergruppe im Alter von 3 bis 6 Jahren (N=43, K) sowie zweier Erwachsenengruppen: ohne (N=45, oL) und mit (N=27, mL) logopädischer Ausbildung. Die Teilnehmenden sollten KI-SprecherInnen bewerten im Bezug auf die wahrgenommene Natürlichkeit, Artikulationsqualität, das Sprechtempo und die motivationale Wirkung. Hierzu wurden Aufnahmen von neun TTS-Stimmen der Plattform ElevenLabs – fünf weiblich, vier männlich – vorgespielt (Passagen einer mit ChatGPT-4 generierten Erzählung). Die zugrunde gelegten Bewertungskriterien für die Erwachsenen orientierten sich teilweise am Mean Opinion Score (MOS) mit einer Skala von 1 (schlecht) bis 5 (ausgezeichnet). Aus den resultierenden Einzelwerten wurde ein modifizierter Gesamtwert (MOS*) berechnet. Die Bewertung der Kinder erfolgte mit drei Antwortmöglichkeiten: zustimmen, neutral oder nicht zustimmen, mithilfe einer altersadäquaten Bewertungsskala.

Ergebnisse

Im Mittel über KI-SprecherInnen hinweg waren die Bewertungen hoch (Kindergruppe: 79% Zustimmung, Erwachsenengruppe: Mittelwert MOS*= 3,76 oL, 3,60 mL). Die Einzelbewertungen der KI-generierten SprecherInnen streuten stark (Standardabweichung MOS*= 1,57 oL, 1,51 mL). Dies deutet auf individuelle Präferenzen hin. In der Studie mit erwachsenen ProbandInnen erhielt der KI-Sprecher Bill die höchste Bewertung (MOS*= 4,36 oL, 4,15 mL) und lag damit knapp vor Mathilda (MOS* = 4,34 oL, 4,10 mL) und Lily (MOS*= 4,25 oL, 4,02 mL). Die Sprecherin Alice wies bei der Kindergruppe den höchsten Wert in Bezug auf Beliebtheit (86%) und Verständlichkeit (88%) auf. Die Ergebnisse der Bewertung der restlichen KI-SprecherInnen durch erwachsene LogopädInnen und Nicht-LogopädInnen ist in Abbildung 1 [Abb. 1] erläutert.

Abbildung 1: MOS* im Gruppenvergleich der LogopädInnen und Nicht-LogopädInnen

Eine weitere Frage unter den LogopädInnen war die Eignung von KI-SprecherInnen in der logopädischen Praxis. Dabei gab eine Mehrheit der LogoädInnen von 66% an, einen KI-Sprecher oder eine KI-Sprecherin für einen kostenlosen Service zur Erstellung therapeutisch nutzbarer Geschichten potenziell zu nutzen wollen. Im Bezug auf den logopädischen Therapiebereich nannten 73% der LogopädInnen als primäre Einsatzbereiche die Therapie von Sprachentwicklungsstörungen und Aphasien (siehe Abbildung 2 [Abb. 2]).

Abbildung 2: Linkes Diagramm: „Würden Sie den kostenlosen Service nutzen, die von Ihnen erstellte Inputgeschichte von einer KI-SprecherIn lesen zu lassen?“, rechtes Diagramm: „In welchen logopädischen Therapiebereichen würden Sie KI-SprecherInnen nutzen?“

Fazit

Unsere Befragung zeigte breite Zustimmung der LogopädInnen zu KI-Stimmen. Der hohe MOS* deutet darauf hin, dass KI-SprecherInnen ein bedeutendes Anwendungspotenzial in der logopädischen Praxis besitzen.