Verwendung von interauraler Verstimmung zur Modellierung von Ungenauigkeiten in der binauralen Verarbeitung bei der menschlichen Spracherkennung

26dga110 10.3205/26dga110 urn:nbn:de:0183-26dga1108 Meeting Abstract Verwendung von interauraler Verstimmung zur Modellierung von Ungenauigkeiten in der binauralen Verarbeitung bei der menschlichen Spracherkennung Weihe Weihe Simon S

Carl von Ossietzky Universität Oldenburg, Medizinische Physik und Akustik – Perzeption und Modellierung von Sprache, Oldenburg, Deutschland

author Rennies-Hochmuth Rennies-Hochmuth Jan J

Carl von Ossietzky Universität Oldenburg, Medizinische Physik und Akustik – Perzeption und Modellierung von Sprache, Oldenburg, Deutschland Fraunhofer IDMT, HSA, Oldenburg, Deutschland

author Brand Brand Thomas T

Carl von Ossietzky Universität Oldenburg, Medizinische Physik und Akustik – Perzeption und Modellierung von Sprache, Oldenburg, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20260302 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0642 110 Deutsche Gesellschaft für Audiologie e. V. 28. Jahrestagung der Deutschen Gesellschaft für Audiologie Freie Vorträge 9: Psychoakustik Oldenburg 20260304 20260306 110 TextWie kann die Modellierung von Ungenauigkeiten in der menschlichen binauralen Verarbeitung in der Equalisation-Cancellation (EC)-Stufe eines Modells zur Vorhersage binauraler Sprachverständlichkeit prinzipiell echtzeitfähig gemacht werden? Wie verträglich ist diese Art der Modellierung mit verschiedenen Back-Ends zur Vorhersage der Sprachverständlichkeit? Ein blindes Modell zur Echtzeit-Vorhersage der binauralen Sprachverständlichkeit wäre ein nützliches Werkzeug für die Forschung und zur Anwendung in Hörgeräten. Blind bedeutet in diesem Zusammenhang, dass weder Nutz- und Störsignale getrennt vorliegen, noch sonstige Informationen über die akustische Situation dem Modell bekannt sein müssen. Ein Front-End, das die Equalisation-Cancellation (EC)-Verarbeitung verwendet, ist eine Möglichkeit, den binauralen Gewinn zu modellieren. Blindheit und Echtzeitfähigkeit erfordern die Berechnung eines binaural vorverarbeiteten Signals, das dann von einem Back-End für die Vorhersage der Sprachverständlichkeit analysiert werden kann. Unseres Wissens nach erfüllt bisher keines der bisher veröffentlichten EC-Front-Ends alle diese Anforderungen.Menschliche Ungenauigkeiten wurden zuvor mit Monte-Carlo-Simulationen modelliert, die jedoch kein definiertes Signal erzeugen und für die Echtzeitverarbeitung nicht geeignet sind. Daher schlagen wir vor, diese durch eine deterministische Verstimmung der interauralen Equalisation-Parameter zu ersetzen. Dieser Ansatz wurde mit dem Sprachverständlichkeitsindex (SII), zwei modifizierten Versionen davon, sowie mit dem auf Spracherkennungstechnologie basierenden Mean Temporal Distance (MTD) Back-Ends evaluiert. Davon erfüllt nur letzteres die Anforderung der Blindheit und ist in der Lage, die Verschlechterung der Sprachverständlichkeit durch Nachhall zu quantifizieren. Vorhergesagte Sprachverständlichkeitsschwellen (SRTs) wurden mit Messungen und Vorhersagen aus der Literatur sowie mit eigenen Messungen verglichen.Im Vergleich mit den früheren Modellvorhersagen der jeweiligen Studien, zeigen die mit der neu entwickelten Verstimmung (blind) vorhergesagten SRTs überwiegend ähnlich große, teils geringere Abweichungen vom mit Versuchspersonen gemessenen Gruppenmittel. Dies gilt über alle Experimente hinweg, im Störgeräusch und in Ruhe, gemäß verschiedener Fehlermaße. Auch für den Extremfall mit phasengedrehter Sprache im diotischen Störgeräusch wird der binaurale Gewinn gut vorhergesagt.Die Verstimmung der Equalisation-Parameter erweist sich als effektive Methode zur Modellierung von Ungenauigkeiten der menschlichen interauralen Verarbeitung. Zusammen mit dem MTD Back-End, erfüllt die vorgeschlagene Methode die Anforderungen der Blindheit und Echtzeitfähigkeit und liefert zuverlässige Vorhersagen der Sprachverständlichkeit. 0 0 0 0