<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>25dga195</Identifier>
    <IdentifierDoi>10.3205/25dga195</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-25dga1952</IdentifierUrn>
    <ArticleType>Meeting Abstract</ArticleType>
    <TitleGroup>
      <Title language="de">KI-basierte &#8222;Single-Channel Blind Source Separation&#8220;: Neue L&#246;sungsans&#228;tze f&#252;r das Cocktail-Party-Problem zur Verbesserung des Sprachverst&#228;ndnisses bei H&#246;rgesch&#228;digten</Title>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Berner</Lastname>
          <LastnameHeading>Berner</LastnameHeading>
          <Firstname>Tom</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Technische Universit&#228;t Dresden, Ear Research Center Dresden, Dresden, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="yes">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Vavatzanidis</Lastname>
          <LastnameHeading>Vavatzanidis</LastnameHeading>
          <Firstname>Niki K.</Firstname>
          <Initials>NK</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Technische Universit&#228;t Dresden, Ear Research Center Dresden, Dresden, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Reichenbach</Lastname>
          <LastnameHeading>Reichenbach</LastnameHeading>
          <Firstname>Tobias</Firstname>
          <Initials>T</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Friedrich-Alexander-Universit&#228;t Erlangen-N&#252;rnberg, Professur f&#252;r Sensorische Neurotechnologie, Erlangen, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hahne</Lastname>
          <LastnameHeading>Hahne</LastnameHeading>
          <Firstname>Anja</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Technische Universit&#228;t Dresden, Ear Research Center Dresden, Dresden, Deutschland</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20250318</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Meeting>
        <MeetingId>M0607</MeetingId>
        <MeetingSequence>195</MeetingSequence>
        <MeetingCorporation>Deutsche Gesellschaft f&#252;r Audiologie e. V. und ADANO</MeetingCorporation>
        <MeetingName>27. Jahrestagung der Deutschen Gesellschaft f&#252;r Audiologie und Arbeitstagung der Arbeitsgemeinschaft Deutschsprachiger Audiologen, Neurootologen und Otologen</MeetingName>
        <MeetingTitle></MeetingTitle>
        <MeetingSession>Postersession</MeetingSession>
        <MeetingCity>G&#246;ttingen</MeetingCity>
        <MeetingDate>
          <DateFrom>20250319</DateFrom>
          <DateTo>20250321</DateTo>
        </MeetingDate>
      </Meeting>
    </SourceGroup>
    <ArticleNo>195</ArticleNo>
  </MetaData>
  <OrigData>
    <TextBlock name="Text" linked="yes">
      <MainHeadline>Text</MainHeadline><Pgraph><Mark1>Fragestellung:</Mark1> Das Cocktail-Party-Problem beschreibt die Schwierigkeit, eine einzelne Sprachquelle in einer Umgebung mit mehreren Sprechern und Hintergrundger&#228;uschen zu isolieren. F&#252;r Menschen mit H&#246;rbeeintr&#228;chtigungen ist dies eine besonders gro&#223;e Herausforderung, da traditionelle H&#246;rger&#228;te Probleme mit diesem Szenario haben. Das Poster zeigt, wie &#8222;Single-Channel Blind Source Separation&#8220; mit Hilfe von KI-Modellen (SepFormer <TextLink reference="1"></TextLink> und TDANet <TextLink reference="2"></TextLink>) das Sprachverst&#228;ndnis verbessern kann.</Pgraph><Pgraph><Mark1>Methoden:</Mark1> F&#252;r die Separation von Sprachquellen wurden die neuronalen Netzwerkmodelle SepFormer und TDANet angewendet, die speziell f&#252;r die Trennung von mehreren Sprecherstimmen aus einem einzigen Audiokanal entwickelt wurden. Die Algorithmen wurden mit englischsprachigen Datens&#228;tzen trainiert und auf deutschsprachige Testdaten angewandt, was sehr gute Ergebnisse lieferte. Die Leistung der Modelle wurde anhand von Metriken wie Short-Time Objective Intelligibility (STOI) und Perceptual Evaluation of Speech Quality (PESQ) evaluiert, um eine objektive Vergleichbarkeit zu gew&#228;hrleisten.</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Die Ergebnisse zeigen, dass beide Modelle in der Lage sind, zwei Sprachquellen mit hoher Genauigkeit aus einem einkanaligen Eingangssignal zu trennen, auch unter schwierigen akustischen Bedingungen mit zus&#228;tzlichen St&#246;rger&#228;uschen. Obwohl das SepFormer-Modell mit 20 Millionen Parametern die zehnfache Gr&#246;&#223;e hat, werden mit dem TDANet (2 Millionen Parameter) bessere STOI- und PESQ-Werte erzielt. Die Separierung zweier deutschsprachiger Sprecher aus einem 16 kHz Monosignal gelingt mit einem PESQ von bis zu 2,7 und einem STOI von bis zu 0,96. In der subjektiven Wahrnehmung verbessern beide Modelle das Sprachverst&#228;ndnis deutlich. Aus technischer Sicht ist das TDANet wegen der geringeren Parameteranzahl zu bevorzugen.</Pgraph><Pgraph><Mark1>Schlussfolgerungen:</Mark1> Die Anwendung von KI-basierten Ans&#228;tzen wie SepFormer und TDANet bietet vielversprechende L&#246;sungen f&#252;r das Cocktail-Party-Problem, insbesondere f&#252;r h&#246;rbeeintr&#228;chtigte Menschen. Diese Technologien k&#246;nnten in zuk&#252;nftigen H&#246;rger&#228;ten Anwendung finden, welche durch ein besseres H&#246;rerlebnis die Lebensqualit&#228;t der Betroffenen erheblich steigern k&#246;nnten. Weitere Untersuchungen sind erforderlich, um die Echtzeitf&#228;higkeit und Integration in tragbare Ger&#228;te zu realisieren.</Pgraph><Pgraph>Abbildung 1 <ImgLink imgNo="1" imgType="figure" /></Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Subakan C</RefAuthor>
        <RefAuthor>Ravanelli M</RefAuthor>
        <RefAuthor>Cornell S</RefAuthor>
        <RefAuthor>Bronzi M</RefAuthor>
        <RefAuthor>Zhong J</RefAuthor>
        <RefTitle>Attention is all you need in speech separation</RefTitle>
        <RefYear>2021</RefYear>
        <RefJournal>arxiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Subakan C, Ravanelli M, Cornell S, Bronzi M, Zhong J. Attention is all you need in speech separation. arxiv. 2021. Verf&#252;gbar unter: https:&#47;&#47;arxiv.org&#47;abs&#47;2010.13154</RefTotal>
        <RefLink>https:&#47;&#47;arxiv.org&#47;abs&#47;2010.13154</RefLink>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Li K</RefAuthor>
        <RefAuthor>Yang R</RefAuthor>
        <RefAuthor>Hu X</RefAuthor>
        <RefTitle>An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv</RefTitle>
        <RefYear>2022</RefYear>
        <RefJournal>arxiv</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Li K, Yang R, Hu X. An efficient encoder-decoder architecture with top-down attention for speech separation. arxiv. 2022. Verf&#252;gbar unter: https:&#47;&#47;arxiv.org&#47;abs&#47;2209.15200</RefTotal>
        <RefLink>https:&#47;&#47;arxiv.org&#47;abs&#47;2209.15200</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <Figure width="717" height="717" format="png">
          <MediaNo>1</MediaNo>
          <MediaID>1</MediaID>
          <Caption><Pgraph><Mark1>Abbildung 1</Mark1></Pgraph></Caption>
        </Figure>
        <NoOfPictures>1</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>