Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen

26dga115 10.3205/26dga115 urn:nbn:de:0183-26dga1157 Meeting Abstract Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen Berner Berner Tom T

Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

author Hahne Hahne Anja A

Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

author Reichenbach Reichenbach Tobias T

Friedrich-Alexander-Universität Erlangen-Nürnberg, Chair of Sensory Neuroengineering, Erlangen, Deutschland

author Vavatzanidis Vavatzanidis Niki Katerina NK

Technische Universität Dresden, Ear Research Center Dresden, Dresden, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20260302 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0642 115 Deutsche Gesellschaft für Audiologie e. V. 28. Jahrestagung der Deutschen Gesellschaft für Audiologie Freie Vorträge 10: Statistische Audiologie und KI Oldenburg 20260304 20260306 115 TextFragestellung: Das sogenannte Cocktail-Party-Problem beschreibt die Herausforderung, in lauten Umgebungen mit mehreren Sprechern einem bestimmten Zielsprecher zu folgen. Für Träger von Hörgeräten und Cochlea-Implantaten ist dies oft sehr schwierig. Bisherige Verfahren zur Rauschunterdrückung im akustischen Signal wie „Beamforming“ können mittels mehrerer Mikrophone die Sprachverständlichkeit verbessern. Tiefe neuronale Netzwerke erreichen sogar mit Einkanalmessungen erhebliche Rauschunterdrückung. Wir entwickeln hier ein KI-basiertes-Echtzeit-Verfahren zur Sprechertrennung, welches mit nur einem Mikrofon funktioniert.Methoden: Implementiert wurde ein System zur Blind Source Separation (BSS), das kontinuierliche Audiodaten in 0,5s-Fenstern verarbeitet. Es wurden drei verschiedene Instanzen von KI-Modellen getestet, die über ein FastAPI/ONNX/OpenVINO-Framework implementiert wurden: TDANet , TIGER-tiny und TIGER-full . Die auf englischen Daten vortrainierten KI-Modelle wurden für die Echtzeitanwendung optimiert und auf deutsche Audiodaten angewandt. Diese enthielten zwei simultane Sprecher mit jeweils einer männlichen und einer weiblichen Stimme . Die Qualität der Sprechertrennung wurde mittels SI-SDR, STOI und PESQ in jeweils 5s-Fenstern gemessen. Ein WebAudio-Frontend mit AudioWorklets übernahm Streaming, Wiedergabe und Visualisierung in Echtzeit, vollständig im Browser und ohne spezielle Hardware.Ergebnisse: Die Echtzeitverarbeitung kontinuierlicher Audiodaten wurde auf handelsüblichen Laptops (ohne GPU) erfolgreich implementiert. In allen Metriken zur Sprachverständlichkeit- und -qualität stach TIGER-full mit den besten Ergebnissen hervor (Abbildung 1 ). Im Mittel erreicht TDANet eine SI-SDR von 4,86 ± 4,39 dB, TIGER-tiny 10,01 ± 1,66 dB und TIGER-full 14,25 ± 1,30 dB. Gepaarte t-Tests zeigen, dass für SI-SDR beide TIGER-Modelle das TDANet-Modell hochsignifikant übertreffen (p < 0,001; große Effektstärken nach Cohen’s d). Darüber hinaus ist auch der Unterschied zwischen TIGER-tiny und TIGER-full hochsignifikant (p < 0,001). Ein analoges Bild zeigt sich für STOI und PESQ, wobei TIGER-full durchgängig die höchsten Werte erzielt. Aufgrund der erhöhten Komplexität der Tiger-Modelle, hat das TDANet allerdings den Vorteil, dass es sich besser für die Anwendung auf CPUs optimieren lässt und deshalb aktuell die niedrigsten Latenzen von unter 300ms erreicht.Schlussfolgerungen: Die Kombination aus effizienter Modelloptimierung und webbasierter Architektur ermöglicht eine Echtzeit-Sprechertrennung mit nur einem Mikrofon. Das Konzept bietet das Potenzial, in zukünftigen intelligenten Hörgeräten und CIs eine KI-gestützte Trennung verschiedener Sprecher direkt im Nutzergerät zu realisieren. Aktuell wird an der weiteren Optimierung der Modell-Latenzen gearbeitet, um sie auch auf Endgeräten mit geringer CPU-Leistung realisieren zu können und somit alltagsrelevant werden zu lassen. Li K Yang R Hu X An efficient encoder-decoder architecture with top-down attention for speech separation 2023 The 11. Int. Conf. on Learning Representations Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. In: The 11. Int. Conf. on Learning Representations. 2023. Xu M Li K Chen G Hu X TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation 2025 International Conference on Learning Representations (ICLR) Xu M, Li K, Chen G, Hu X. TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation. In: International Conference on Learning Representations (ICLR). 2025. Jehn C Kossmann A Katerina Vavatzanidis N Hahne A Reichenbach T CNNs improve decoding of selective attention to speech in cochlear implant users 2025 J Neural Eng Jehn C, Kossmann A, Katerina Vavatzanidis N, Hahne A, Reichenbach T. CNNs improve decoding of selective attention to speech in cochlear implant users. J Neural Eng. 2025 Jun 10;22(3). DOI: 10.1088/1741-2552/addb7b http://dx.doi.org/10.1088/1741-2552/addb7b 0

1 1 Abbildung 1: KI-Modellvergleich (Param, SI-SDR, STOI, PESQ) 1 0 0