28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.
28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.
Sprach(erkennungs)modelle als Tool der präzisen Audiologie
Text
Motivation: Das Sprachverstehen ist ein zentrales Ziel der Hörgeräteversorgung und hängt von einer Vielzahl von Faktoren ab – darunter Hörverlust, akustische Umgebung, Raumakustik, Störgeräusche und individuelle kognitive Ressourcen. Die derzeitige diagnostische Beurteilung basiert oft auf subjektiven Erfahrungen; es fehlt an standardisierten, empirisch fundierten Vorhersagemodellen. Ziel dieses Beitrags ist es, verschiedene Modellansätze zur Vorhersage des Sprachverstehens systematisch zu evaluieren und deren Anwendbarkeit in der klinischen Audiologie zu diskutieren.
Fragestellung: Welche Modelltypen – klassische psychoakustische Modelle oder moderne Ansätze aus der automatischen Spracherkennung – eignen sich am besten für die präzise Vorhersage des Sprachverstehens in komplexen Hörsituationen?
Methoden: Es wurden sowohl klassische, psychoakustische Modelle des Sprachverstehens als auch Methoden der automatischen Spracherkennung angewendet. Dabei können zwei Kategorien unterschieden werden: 1.) blinde Modelle, die ausschließlich auf den gemischten Signalen basieren, die auch die Versuchsperson hört und 2.) nicht-blinde Modelle, die zusätzliche Informationen benötigen, wie z.B. getrennte Sprach- und Störsignale, Transkripte der Sprache, Angaben zur Raumakustik oder binaurale Raumimpulsantworten. Ein gemeinsamer methodischer Aspekt aller vorgestellten Modelle ist die Berücksichtigung der Verbesserung des Sprachverstehens bei räumlicher Trennung von Sprache und Störgeräusch.
Ergebnisse: Ein hörschwellensimulierendes Rauschen ermöglicht eine zuverlässige Modellierung des Hörverlusts. Die Berücksichtigung von Nachverdeckung verbessert die Vorhersagegenauigkeit bei modulierten Störgeräuschen. Besonders hohe Präzision zeigten entweder nicht-blinde Modelle, die umfangreiche Zusatzinformationen (z.B. getrennte Sprach- und Störsignale und binaurale Raumimpulsantworten) nutzen oder blinde Modelle, die rein auf gemischten Signalen basieren. Hybridmodelle aus blinden und nicht-blinde Anteilen erwiesen sich als weniger vorteilhaft. Eine Individualisierung der Vorhersagen durch Referenzmessungen verbessert die Konsistenz.
Schlussfolgerung und Diskussion: Die Kombination von blinden psychoakustischen Modellen mit Methoden der automatischen Spracherkennung (z.B. Phonemerkennern) erweist sich als äußerst leistungsfähig – insbesondere in komplexen akustischen Szenarien. Da einige dieser Modelle bereits mit geringem Rechenaufwand in Echtzeit laufen, rückt ihre Integration in Hörhilfen zur Echtzeit-Überprüfung der Signalverarbeitung in greifbare Nähe.



