<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>26dga115</Identifier>
    <IdentifierDoi>10.3205/26dga115</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-26dga1157</IdentifierUrn>
    <ArticleType>Meeting Abstract</ArticleType>
    <TitleGroup>
      <Title language="de">Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen</Title>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Berner</Lastname>
          <LastnameHeading>Berner</LastnameHeading>
          <Firstname>Tom</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Technische Universit&#228;t Dresden, Ear Research Center Dresden, Dresden, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="yes">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hahne</Lastname>
          <LastnameHeading>Hahne</LastnameHeading>
          <Firstname>Anja</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Technische Universit&#228;t Dresden, Ear Research Center Dresden, Dresden, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Reichenbach</Lastname>
          <LastnameHeading>Reichenbach</LastnameHeading>
          <Firstname>Tobias</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Friedrich-Alexander-Universit&#228;t Erlangen-N&#252;rnberg, Chair of Sensory Neuroengineering, Erlangen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Vavatzanidis</Lastname>
          <LastnameHeading>Vavatzanidis</LastnameHeading>
          <Firstname>Niki Katerina</Firstname>
          <Initials>NK</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Technische Universit&#228;t Dresden, Ear Research Center Dresden, Dresden, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished >20260302</DatePublished >
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Meeting>
        <MeetingId>M0642</MeetingId>
        <MeetingSequence>115</MeetingSequence>
        <MeetingCorporation>Deutsche Gesellschaft f&#252;r Audiologie e. V.</MeetingCorporation>
        <MeetingName>28. Jahrestagung der Deutschen Gesellschaft f&#252;r Audiologie</MeetingName>
        <MeetingTitle></MeetingTitle>
        <MeetingSession>Freie Vortr&#228;ge 10: Statistische Audiologie und KI</MeetingSession>
        <MeetingCity>Oldenburg</MeetingCity>
        <MeetingDate>
          <DateFrom>20260304</DateFrom>
          <DateTo>20260306</DateTo>
        </MeetingDate>
      </Meeting>
    </SourceGroup>
    <ArticleNo>115</ArticleNo>
  </MetaData>
  <OrigData>
    <TextBlock name="Text" linked="yes">
      <MainHeadline>Text</MainHeadline><Pgraph><Mark1>Fragestellung: </Mark1>Das sogenannte Cocktail-Party-Problem beschreibt die Herausforderung, in lauten Umgebungen mit mehreren Sprechern einem bestimmten Zielsprecher zu folgen. F&#252;r Tr&#228;ger von H&#246;rger&#228;ten und Cochlea-Implantaten ist dies oft sehr schwierig. Bisherige Verfahren zur Rauschunterdr&#252;ckung im akustischen Signal wie &#8222;Beamforming&#8220; k&#246;nnen mittels mehrerer Mikrophone die Sprachverst&#228;ndlichkeit verbessern. Tiefe neuronale Netzwerke erreichen sogar mit Einkanalmessungen erhebliche Rauschunterdr&#252;ckung. Wir entwickeln hier ein KI-basiertes-Echtzeit-Verfahren zur Sprechertrennung, welches mit nur einem Mikrofon funktioniert.</Pgraph><Pgraph><Mark1>Methoden: </Mark1>Implementiert wurde ein System zur Blind Source Separation (BSS), das kontinuierliche Audiodaten in 0,5s-Fenstern verarbeitet. Es wurden drei verschiedene Instanzen von KI-Modellen getestet, die &#252;ber ein FastAPI&#47;ONNX&#47;OpenVINO-Framework implementiert wurden: TDANet <TextLink reference="1"></TextLink>, TIGER-tiny <TextLink reference="2"></TextLink> und TIGER-full <TextLink reference="2"></TextLink>. Die auf englischen Daten vortrainierten KI-Modelle wurden f&#252;r die Echtzeitanwendung optimiert und auf deutsche Audiodaten angewandt. Diese enthielten zwei simultane Sprecher mit jeweils einer m&#228;nnlichen und einer weiblichen Stimme <TextLink reference="3"></TextLink>. Die Qualit&#228;t der Sprechertrennung wurde mittels SI-SDR, STOI und PESQ in jeweils 5s-Fenstern gemessen. Ein WebAudio-Frontend mit AudioWorklets &#252;bernahm Streaming, Wiedergabe und Visualisierung in Echtzeit, vollst&#228;ndig im Browser und ohne spezielle Hardware.</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Die Echtzeitverarbeitung kontinuierlicher Audiodaten wurde auf handels&#252;blichen Laptops (ohne GPU) erfolgreich implementiert. In allen Metriken zur Sprachverst&#228;ndlichkeit- und -qualit&#228;t stach TIGER-full mit den besten Ergebnissen hervor (Abbildung 1 <ImgLink imgNo="1" imgType="figure" />). Im Mittel erreicht TDANet eine SI-SDR von 4,86 &#177; 4,39 dB, TIGER-tiny 10,01 &#177; 1,66 dB und TIGER-full 14,25 &#177; 1,30 dB. Gepaarte t-Tests zeigen, dass f&#252;r SI-SDR beide TIGER-Modelle das TDANet-Modell hochsignifikant &#252;bertreffen (p &#60; 0,001; gro&#223;e Effektst&#228;rken nach Cohen&#8217;s d). Dar&#252;ber hinaus ist auch der Unterschied zwischen TIGER-tiny und TIGER-full hochsignifikant (p &#60; 0,001). Ein analoges Bild zeigt sich f&#252;r STOI und PESQ, wobei TIGER-full durchg&#228;ngig die h&#246;chsten Werte erzielt. Aufgrund der erh&#246;hten Komplexit&#228;t der Tiger-Modelle, hat das TDANet allerdings den Vorteil, dass es sich besser f&#252;r die Anwendung auf CPUs optimieren l&#228;sst und deshalb aktuell die niedrigsten Latenzen von unter 300ms erreicht.</Pgraph><Pgraph><Mark1>Schlussfolgerungen: </Mark1>Die Kombination aus effizienter Modelloptimierung und webbasierter Architektur erm&#246;glicht eine Echtzeit-Sprechertrennung mit nur einem Mikrofon. Das Konzept bietet das Potenzial, in zuk&#252;nftigen intelligenten H&#246;rger&#228;ten und CIs eine KI-gest&#252;tzte Trennung verschiedener Sprecher direkt im Nutzerger&#228;t zu realisieren. Aktuell wird an der weiteren Optimierung der Modell-Latenzen gearbeitet, um sie auch auf Endger&#228;ten mit geringer CPU-Leistung realisieren zu k&#246;nnen und somit alltagsrelevant werden zu lassen.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Li K</RefAuthor>
        <RefAuthor>Yang R</RefAuthor>
        <RefAuthor>Hu X</RefAuthor>
        <RefTitle>An efficient encoder-decoder architecture with top-down attention for speech separation</RefTitle>
        <RefYear>2023</RefYear>
        <RefBookTitle>The 11. Int. Conf. on Learning Representations</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. In: The 11. Int. Conf. on Learning Representations. 2023.</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Xu M</RefAuthor>
        <RefAuthor>Li K</RefAuthor>
        <RefAuthor>Chen G</RefAuthor>
        <RefAuthor>Hu X</RefAuthor>
        <RefTitle>TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation</RefTitle>
        <RefYear>2025</RefYear>
        <RefBookTitle>International Conference on Learning Representations (ICLR)</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Xu M, Li K, Chen G, Hu X. TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation. In: International Conference on Learning Representations (ICLR). 2025.</RefTotal>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Jehn C</RefAuthor>
        <RefAuthor>Kossmann A</RefAuthor>
        <RefAuthor>Katerina Vavatzanidis N</RefAuthor>
        <RefAuthor>Hahne A</RefAuthor>
        <RefAuthor>Reichenbach T</RefAuthor>
        <RefTitle>CNNs improve decoding of selective attention to speech in cochlear implant users</RefTitle>
        <RefYear>2025</RefYear>
        <RefJournal>J Neural Eng</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Jehn C, Kossmann A, Katerina Vavatzanidis N, Hahne A, Reichenbach T. CNNs improve decoding of selective attention to speech in cochlear implant users. J Neural Eng. 2025 Jun 10;22(3). DOI: 10.1088&#47;1741-2552&#47;addb7b</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1088&#47;1741-2552&#47;addb7b</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <Figure width="900" height="720" format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1: KI-Modellvergleich (Param, SI-SDR, STOI, PESQ)</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>