28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.
28. Jahrestagung der Deutschen Gesellschaft für Audiologie e. V.
Automatisierte Auswertung der Sprachaudiometrie für Cochlea-Implantat-Träger mittels künstlicher Intelligenz und flexibler Korrekturmethoden
Text
Fragestellung: Innovationen in der webbasierten Sprachaudiometrie können die Teilnahme an Hörtests erleichtern, bringen jedoch Herausforderungen bei der Datenanalyse mit sich. Die manuelle Auswertung großer Datenmengen ist kostspielig, zeitaufwendig und kann für adaptive Sprachtests bisher nicht in Echtzeit erfolgen. Hier versuchen wir diesen Prozess zu automatisieren und zu beschleunigen, indem wir automatische Spracherkennung (ASR) zur Transkription der Sprachaufnahmen von Cochlea-Implantat (CI)-Trägern anwenden. Automatische Spracherkennung wird in vielen Anwendungen bereits erfolgreich genutzt, aber noch nicht für CI-Sprachaudiometrie. Transkriptionen wurden verglichen zwischen ASR-Modellen und manuellen Bewertern mit und ohne Vorlagen des Testmaterials, sowie nach der Anwendung flexibler Methoden zur Fehlerkorrektion.
Methoden: Eine Gruppe von CI-Trägern (n=15) hörte Sätze aus dem BKB-Sprachkorpus, und ihre Antworten wurden aufgenommen. Dies wurde sowohl in einer kontrollierten Laborumgebung als auch remote mit einem Online-Testsystem durchgeführt. Die Daten wurden unter drei Hörbedingungen erfasst: Sätze im Störgeräusch, nach der Verarbeitung mit einem Rauschunterdrückungsalgorithmus und ohne Störgeräusch. Die Aufnahmen dieser Sitzungen wurden von menschlichen Bewertern, die eine Vorlage des BKB-Korpus nutzten (n=4) oder keine Vorlage hatten (n=4), und von modernen Open-Source-ASR-Modellen (n=6) transkribiert. Die Transkriptionen wurden direkt und nach der Korrektur von Homophonen, Rechtschreibfehlern und anderen Fehlerquellen verglichen und hinsichtlich Effektgrössen und Korrelationen analysiert.
Ergebnisse: Die von den ASR-Modellen generierten Bewertungen zeigten ähnliche Muster wie die der menschlichen Bewerter über alle Hörbedingungen und CI-Teilnehmer hinweg. Unterschiede in der Aufnahmequalität und Sprachverständlichkeit beeinflussten sowohl menschliche Bewerter als auch ASR-Modelle in ähnlicher Weise. Die berechneten Effektgrößen (Cohen’s d) waren vergleichbar zwischen den Bewertern. Im Vergleich zur traditionellen Bewertung mit Vorlage ergaben sich mit dem besten ASR-Modell durchschnittlich weniger als 10 Prozentpunkte Abweichung und eine Intraklassenkorrelation von 0,96, was ähnlich zu den Durchschnittswerten der menschlichen Bewerter ohne Vorlage war.
Schlussfolgerungen: ASR-Modelle, insbesondere größere Varianten, erzielten vielversprechende Ergebnisse, die denen der menschlichen Bewerter ohne Vorlage in Bezug auf absolute Genauigkeit, relative Rangordnung und statistische Messgrößen ähnelten. Sie erzielten konsistente Ergebnisse für relative Messgrößen und wichen in absoluten Messgrößen weniger von der Referenz ab als menschliche Bewerter die keine Vorlage nutzten. Die flexiblen Korrekturmethoden reduzierten einige Fehler und Abweichungen, führten aber auch zu Falsch-Positiv Fehlern. ASR-Modelle besitzen grosses Potential zur Resourceneinsparungen in klinischen Anwendungen und der Standardisierung von CI-Sprachaudiometrie.



