Logo

28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.

Deutsche Gesellschaft für Audiologie e. V.
04.-06.03.2026
Oldenburg

Meeting Abstract

Verwendung von interauraler Verstimmung zur Modellierung von Ungenauigkeiten in der binauralen Verarbeitung bei der menschlichen Spracherkennung

Simon Weihe - Carl von Ossietzky Universität Oldenburg, Medizinische Physik und Akustik – Perzeption und Modellierung von Sprache, Oldenburg, Deutschland
Jan Rennies-Hochmuth - Carl von Ossietzky Universität Oldenburg, Medizinische Physik und Akustik – Perzeption und Modellierung von Sprache, Oldenburg, Deutschland; Fraunhofer IDMT, HSA, Oldenburg, Deutschland
Thomas Brand - Carl von Ossietzky Universität Oldenburg, Medizinische Physik und Akustik – Perzeption und Modellierung von Sprache, Oldenburg, Deutschland

Text

Wie kann die Modellierung von Ungenauigkeiten in der menschlichen binauralen Verarbeitung in der Equalisation-Cancellation (EC)-Stufe eines Modells zur Vorhersage binauraler Sprachverständlichkeit prinzipiell echtzeitfähig gemacht werden? Wie verträglich ist diese Art der Modellierung mit verschiedenen Back-Ends zur Vorhersage der Sprachverständlichkeit? Ein blindes Modell zur Echtzeit-Vorhersage der binauralen Sprachverständlichkeit wäre ein nützliches Werkzeug für die Forschung und zur Anwendung in Hörgeräten. Blind bedeutet in diesem Zusammenhang, dass weder Nutz- und Störsignale getrennt vorliegen, noch sonstige Informationen über die akustische Situation dem Modell bekannt sein müssen. Ein Front-End, das die Equalisation-Cancellation (EC)-Verarbeitung verwendet, ist eine Möglichkeit, den binauralen Gewinn zu modellieren. Blindheit und Echtzeitfähigkeit erfordern die Berechnung eines binaural vorverarbeiteten Signals, das dann von einem Back-End für die Vorhersage der Sprachverständlichkeit analysiert werden kann. Unseres Wissens nach erfüllt bisher keines der bisher veröffentlichten EC-Front-Ends alle diese Anforderungen.

Menschliche Ungenauigkeiten wurden zuvor mit Monte-Carlo-Simulationen modelliert, die jedoch kein definiertes Signal erzeugen und für die Echtzeitverarbeitung nicht geeignet sind. Daher schlagen wir vor, diese durch eine deterministische Verstimmung der interauralen Equalisation-Parameter zu ersetzen. Dieser Ansatz wurde mit dem Sprachverständlichkeitsindex (SII), zwei modifizierten Versionen davon, sowie mit dem auf Spracherkennungstechnologie basierenden Mean Temporal Distance (MTD) Back-Ends evaluiert. Davon erfüllt nur letzteres die Anforderung der Blindheit und ist in der Lage, die Verschlechterung der Sprachverständlichkeit durch Nachhall zu quantifizieren. Vorhergesagte Sprachverständlichkeitsschwellen (SRTs) wurden mit Messungen und Vorhersagen aus der Literatur sowie mit eigenen Messungen verglichen.

Im Vergleich mit den früheren Modellvorhersagen der jeweiligen Studien, zeigen die mit der neu entwickelten Verstimmung (blind) vorhergesagten SRTs überwiegend ähnlich große, teils geringere Abweichungen vom mit Versuchspersonen gemessenen Gruppenmittel. Dies gilt über alle Experimente hinweg, im Störgeräusch und in Ruhe, gemäß verschiedener Fehlermaße. Auch für den Extremfall mit phasengedrehter Sprache im diotischen Störgeräusch wird der binaurale Gewinn gut vorhergesagt.

Die Verstimmung der Equalisation-Parameter erweist sich als effektive Methode zur Modellierung von Ungenauigkeiten der menschlichen interauralen Verarbeitung. Zusammen mit dem MTD Back-End, erfüllt die vorgeschlagene Methode die Anforderungen der Blindheit und Echtzeitfähigkeit und liefert zuverlässige Vorhersagen der Sprachverständlichkeit.