KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten

25dga195 10.3205/25dga195 urn:nbn:de:0183-25dga1952 Meeting Abstract KI-basierte „Single-Channel Blind Source Separation“: Neue Lösungsansätze für das Cocktail-Party-Problem zur Verbesserung des Sprachverständnisses bei Hörgeschädigten Berner Berner Tom T

Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

author Vavatzanidis Vavatzanidis Niki K. NK

Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

author Reichenbach Reichenbach Tobias T

Friedrich-Alexander-Universität Erlangen-Nürnberg, Professur für Sensorische Neurotechnologie, Erlangen, Deutschland

author Hahne Hahne Anja A

Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20250318 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0607 195 Deutsche Gesellschaft für Audiologie e. V. und ADANO 27. Jahrestagung der Deutschen Gesellschaft für Audiologie und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen Postersession Göttingen 20250319 20250321 195 TextFragestellung: Das Cocktail-Party-Problem beschreibt die Schwierigkeit, eine einzelne Sprachquelle in einer Umgebung mit mehreren Sprechern und Hintergrundgeräuschen zu isolieren. Für Menschen mit Hörbeeinträchtigungen ist dies eine besonders große Herausforderung, da traditionelle Hörgeräte Probleme mit diesem Szenario haben. Das Poster zeigt, wie „Single-Channel Blind Source Separation“ mit Hilfe von KI-Modellen (SepFormer und TDANet ) das Sprachverständnis verbessern kann.Methoden: Für die Separation von Sprachquellen wurden die neuronalen Netzwerkmodelle SepFormer und TDANet angewendet, die speziell für die Trennung von mehreren Sprecherstimmen aus einem einzigen Audiokanal entwickelt wurden. Die Algorithmen wurden mit englischsprachigen Datensätzen trainiert und auf deutschsprachige Testdaten angewandt, was sehr gute Ergebnisse lieferte. Die Leistung der Modelle wurde anhand von Metriken wie Short-Time Objective Intelligibility (STOI) und Perceptual Evaluation of Speech Quality (PESQ) evaluiert, um eine objektive Vergleichbarkeit zu gewährleisten.Ergebnisse: Die Ergebnisse zeigen, dass beide Modelle in der Lage sind, zwei Sprachquellen mit hoher Genauigkeit aus einem einkanaligen Eingangssignal zu trennen, auch unter schwierigen akustischen Bedingungen mit zusätzlichen Störgeräuschen. Obwohl das SepFormer-Modell mit 20 Millionen Parametern die zehnfache Größe hat, werden mit dem TDANet (2 Millionen Parameter) bessere STOI- und PESQ-Werte erzielt. Die Separierung zweier deutschsprachiger Sprecher aus einem 16 kHz Monosignal gelingt mit einem PESQ von bis zu 2,7 und einem STOI von bis zu 0,96. In der subjektiven Wahrnehmung verbessern beide Modelle das Sprachverständnis deutlich. Aus technischer Sicht ist das TDANet wegen der geringeren Parameteranzahl zu bevorzugen.Schlussfolgerungen: Die Anwendung von KI-basierten Ansätzen wie SepFormer und TDANet bietet vielversprechende Lösungen für das Cocktail-Party-Problem, insbesondere für hörbeeinträchtigte Menschen. Diese Technologien könnten in zukünftigen Hörgeräten Anwendung finden, welche durch ein besseres Hörerlebnis die Lebensqualität der Betroffenen erheblich steigern könnten. Weitere Untersuchungen sind erforderlich, um die Echtzeitfähigkeit und Integration in tragbare Geräte zu realisieren.Abbildung 1 Subakan C Ravanelli M Cornell S Bronzi M Zhong J Attention is all you need in speech separation 2021 arxiv Subakan C, Ravanelli M, Cornell S, Bronzi M, Zhong J. Attention is all you need in speech separation. arxiv. 2021. Verfügbar unter: https://arxiv.org/abs/2010.13154 https://arxiv.org/abs/2010.13154 Li K Yang R Hu X An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv 2022 arxiv Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv. 2022. Verfügbar unter: https://arxiv.org/abs/2209.15200 https://arxiv.org/abs/2209.15200 0

1 1 Abbildung 1 1 0 0