28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.
28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.
DeepFS4: End-to-End Deep Learning basierte Soundcodierungsstrategie für Cochlea-Implantate
Text
Hintergrund: Cochlea-implantat (CI)-Träger erzielen ein gutes Sprachverständnis in ruhigen Umgebungen. Mit Hintergrundrauschen nimmt dieses jedoch deutlich ab. Konventionelle Front-End-Verfahren zur Sprachverbesserung können diesen Effekt verringern, sind jedoch überwiegend auf stationäre Störgeräusche beschränkt, nutzen die CI-Signalverarbeitungskette nicht vollständig aus und erzeugen häufig zusätzliche Latenz. Aktuelle Arbeiten zeigen, dass Deep-Learning basierte End-to-End-Ansätze zur CI-Soundkodierung die klassische Signalverarbeitung vollständig ersetzen können, dabei das Sprachverstehen mit minimaler Latenz verbessern und klassische Front-Ends übertreffen können. Für CI-Soundkodierungen, die die zeitliche Feinstruktur (FS) der Signale berücksichtigen, existiert bisher jedoch kein vergleichbarer Ansatz.
Methoden: DeepFS4 ist ein Temporal Convolutional Neural Network, das darauf ausgelegt ist, die FS-basierte CI-Soundkodierung FS4 zu replizieren und zugleich eine integrierte Sprachverbesserung zu erzielen. Die Architektur ist kompakt und weist weniger Parameter als vergleichbare Modelle auf, wodurch sie sich für den Einsatz in echtzeitfähigen, energieeffizienten CI-Systemen eignet. Zur Untersuchung des Einflusses der FS-Kodierung auf die Sprachverständlichkeit wurden zwei Varianten evaluiert: eine mit idealer FS-Extraktion und eine mit verrauschter FS-Extraktion. Die objektive Bewertung erfolgte anhand der Verbesserung des Signal-Rausch-Verhältnisses (SNRi). Das Sprachverstehen wurde mit 10 CI-Trägern in stationären und nichtstationären Störgeräuschen untersucht. Hierbei kamen der deutsche HSM-Satztest (Worterkennungsrate), eine MUSHRA-basierte Qualitätsbewertung sowie ein 3-AFC-Test zur Analyse der Auswirkungen der FS-Bestimmung zum Einsatz.
Ergebnisse: DeepFS4 erreichte für Input-SNRs von –5 bis 10 dB hinweg eine mittlere SNRi von 8 dB bei stationären Störgeräuschen sowie von 6 dB bei nichtstationären Störgeräuschen. In den Hörversuchen erzielte DeepFS4 signifikant höhere Worterkennungsraten und bessere subjektive Qualitätsbewertungen im Vergleich zur kommerziellen FS4-Strategie sowie zu getesteten Front-End-Sprachverbesserungen. Der Vergleich der DeepFS4-Varianten mit unterschiedlicher FS-Kodierung zeigte hingegen vernachlässigbare Unterschiede im Sprachverstehen sowie in der subjektiven Wahrnehmung durch die Probandinnen und Probanden.
Schlussfolgerung: DeepFS4 zeigt, dass eine Sprachverbesserung durch direkte Integration in die Signalverarbeitungsstrategie über eine Deep-Learning-Architektur die Sprachwahrnehmung von CI-Trägern in verrauschter Umgebung deutlich verbessern kann. Die Ergebnisse zeigen, dass Leistungssteigerungen auch ohne FS-Optimierung möglich sind, was zukünftige einfachere und effizientere Systemdesigns ermöglicht. Der Ansatz eröffnet zudem einen Weg hin zur ersten KI-gestützten, klinisch einsetzbaren Signalverarbeitungsstrategie für Cochlea-Implantate.



