<?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
<!DOCTYPE GmsArticle SYSTEM "http://www.egms.de/dtd/2.0.34/GmsArticle.dtd">
<GmsArticle xmlns:xlink="http://www.w3.org/1999/xlink">
  <MetaData>
    <Identifier>25gmds144</Identifier>
    <IdentifierDoi>10.3205/25gmds144</IdentifierDoi>
    <IdentifierUrn>urn:nbn:de:0183-25gmds1443</IdentifierUrn>
    <ArticleType>Meeting Abstract</ArticleType>
    <TitleGroup>
      <Title language="de">Fehleranalyse als Mittel der Datenkuration &#8211; Erfahrungen aus dem Datenintegrationszentrum</Title>
    </TitleGroup>
    <CreatorList>
      <Creator>
        <PersonNames>
          <Lastname>Saleh</Lastname>
          <LastnameHeading>Saleh</LastnameHeading>
          <Firstname>Kutaiba</Firstname>
          <Initials>K</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Heidel</Lastname>
          <LastnameHeading>Heidel</LastnameHeading>
          <Firstname>Andrew</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Hoffmann</Lastname>
          <LastnameHeading>Hoffmann</LastnameHeading>
          <Firstname>Martin</Firstname>
          <Initials>M</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Kruse</Lastname>
          <LastnameHeading>Kruse</LastnameHeading>
          <Firstname>Henner M.</Firstname>
          <Initials>HM</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Schubert</Lastname>
          <LastnameHeading>Schubert</LastnameHeading>
          <Firstname>Christian</Firstname>
          <Initials>C</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Thomas</Lastname>
          <LastnameHeading>Thomas</LastnameHeading>
          <Firstname>Eric</Firstname>
          <Initials>E</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Ammon</Lastname>
          <LastnameHeading>Ammon</LastnameHeading>
          <Firstname>Danny</Firstname>
          <Initials>D</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Datenintegrationszentrum, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
      <Creator>
        <PersonNames>
          <Lastname>Scherag</Lastname>
          <LastnameHeading>Scherag</LastnameHeading>
          <Firstname>Andr&#233;</Firstname>
          <Initials>A</Initials>
        </PersonNames>
        <Address>
          <Affiliation>Institut f&#252;r Medizinische Statistik, Informatik und Datenwissenschaften, Universit&#228;tsklinikum Jena, Jena, Germany</Affiliation>
        </Address>
        <Creatorrole corresponding="no" presenting="no">author</Creatorrole>
      </Creator>
    </CreatorList>
    <PublisherList>
      <Publisher>
        <Corporation>
          <Corporatename>German Medical Science GMS Publishing House</Corporatename>
        </Corporation>
        <Address>D&#252;sseldorf</Address>
      </Publisher>
    </PublisherList>
    <SubjectGroup>
      <SubjectheadingDDB>610</SubjectheadingDDB>
      <Keyword language="de">Datenqualit&#228;t</Keyword>
      <Keyword language="de">Datenkuration</Keyword>
      <Keyword language="de">ETL</Keyword>
      <Keyword language="de">MII-Kerndatensatz</Keyword>
    </SubjectGroup>
    <DatePublishedList>
      <DatePublished>20251103</DatePublished>
    </DatePublishedList>
    <Language>germ</Language>
    <License license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
      <AltText language="en">This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License.</AltText>
      <AltText language="de">Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung).</AltText>
    </License>
    <SourceGroup>
      <Meeting>
        <MeetingId>M0631</MeetingId>
        <MeetingSequence>144</MeetingSequence>
        <MeetingCorporation>Deutsche Gesellschaft f&#252;r Medizinische Informatik, Biometrie und Epidemiologie</MeetingCorporation>
        <MeetingName>70. Jahrestagung der Deutschen Gesellschaft f&#252;r Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)</MeetingName>
        <MeetingTitle></MeetingTitle>
        <MeetingSession>PS 7: IT-Infrastruktur 2</MeetingSession>
        <MeetingCity>Jena</MeetingCity>
        <MeetingDate>
          <DateFrom>20250907</DateFrom>
          <DateTo>20250911</DateTo>
        </MeetingDate>
      </Meeting>
    </SourceGroup>
    <ArticleNo>Abstr. 222</ArticleNo>
  </MetaData>
  <OrigData>
    <TextBlock name="Text" linked="yes">
      <MainHeadline>Text</MainHeadline><Pgraph><Mark1>Einleitung:</Mark1> Datenqualit&#228;t im Gesundheitswesen ist von entscheidender Bedeutung f&#252;r Forschung, Versorgung und Verbesserung von Entscheidungsprozessen <TextLink reference="1"></TextLink>, <TextLink reference="2"></TextLink>. Im Datenintegrationszentrum (DIZ) werden Daten aus unterschiedlichen klinischen IT-Systemen konform zum Kerndatensatz der Medizininformatik-Initiative zusammengef&#252;hrt und f&#252;r die Forschung standardisiert bereitgestellt <TextLink reference="3"></TextLink>. Um Datenqualit&#228;t hinsichtlich der Vollst&#228;ndigkeit und Konformit&#228;t sicherzustellen, wurde ein Logdatei-Monitoring etabliert. Dieses &#252;berwacht ETL-Prozesse auf Fehler, um Datenkuration zu unterst&#252;tzen und fr&#252;hzeitige Korrekturen anzusto&#223;en.</Pgraph><Pgraph><Mark1>Methoden:</Mark1> Eine zentrale Komponente der ETL-Strukturen am DIZ ist ein FHIR-Server, der &#252;ber eine HL7v2-Nachrichtenschnittstelle verf&#252;gt. Auf Basis dieser Schnittstelle wurden im DIZ mehrere ETL-Strecken etabliert. Dadurch werden HL7v2-Nachrichteninhalte in KDS-konforme FHIR-Ressourcen transformiert und direkt persistiert.</Pgraph><Pgraph>Fehler, die bei der Transformation oder Speicherung auftreten, werden in Logdateien protokolliert. Um aufgetretene Fehler im Rahmen der Datenintegration in den Logdateien zu identifizieren und zu klassifizieren, wurden eigene Analyseskripte entwickelt. Die Identifikation und Klassifikation erfolgte anhand vordefinierter Muster, die aus vorhergehenden Analysen der ETL-Logdateien abgeleitet wurden. Die identifizierten Fehler und m&#246;gliche Ursachen wurden direkt an das Entwicklungsteam der ETL-Strecke gemeldet um entsprechende Ma&#223;nahmen zu ergreifen.</Pgraph><Pgraph>Als weiteres Werkzeug zur Fehleranalyse wurden Dashboards entwickelt, in denen der Datenfluss visualisiert wird, so dass Fehlerquellen in Echtzeit nachvollzogen und zeitnah behoben werden k&#246;nnen. Diese Dashboards dienen auch als direkte R&#252;ckkopplung der Ergebnisse aus den Fehlerkorrekturen an das Entwicklungsteam.</Pgraph><Pgraph><Mark1>Ergebnisse:</Mark1> Die Analyse der Logdateien &#252;ber einen Zeitraum von 15 Monaten mit insgesamt 2,44 Millionen Fehlermeldungen zeigte, dass zu Beginn der Datenerhebung mit 98,62&#37; der Hauptanteil der Fehler durch fehlende Referenzen entstand. Diese wurden vor allem hevorgerufen durch Bez&#252;ge auf historische Daten oder nicht eingehaltene Nachrichtenreihenfolgen. Unvorhergesehene Ver&#228;nderungen an Entities (z.B. Locations oder Organizations) zur Laufzeit der Importe verursachten initial 1,26&#37; der Fehler. Einen verschwindend geringen Anteil von 0,01&#37; machten hingegen Fehler, hervorgerufen durch semantische Inkonsistenzen, beispielsweise durch nicht aktuelle ConceptMaps, aus. Hinzu kam noch ein Anteil von 0,11&#37; nicht n&#228;her klassifizierter Fehler.</Pgraph><Pgraph>Aus der n&#228;heren Analyse der Fehler wurden Verbesserungen an den ETL-Strecken vorgenommen, die zu einer Reduktion der Gesamtfehler um 89,67&#37; im Vergleich zum Beginn, gemessen &#252;ber jeweils einen Monat, f&#252;hrten.</Pgraph><Pgraph>Des weiteren konnten die angewendeten Korrekturen genutzt werden um Daten, welche durch die Fehler initial nicht verarbeitet werden konnten, nachzuliefern oder aus alternativen Quellen zu erg&#228;nzen und so zu einer Korrektur fehlerhafter oder fehlender Daten beitragen. Au&#223;erdem konnten im Rahmen der Ursachenanalysen notwendige Anpassungen an internen Prozessen identifiziert werden, welche direkte Auswirkungen auf die Datenintegration hatten.</Pgraph><Pgraph><Mark1>Schlussfolgerung:</Mark1> Die ermittelten Fehlerquellen entsprechen weitestgehend denen aus vorherigen Arbeiten <TextLink reference="4"></TextLink>. Aus den ermittelten Fehlerraten &#252;ber die unterschiedlichen Zeitr&#228;ume l&#228;sst sich eine eindeutige Verbesserung der ETL-Strecken nachweisen. Die systematische Analyse der Logs und R&#252;ckkopplung der Ergebnisse an das Entwicklungsteam hat nicht nur zu einer optimierten Verarbeitung, sondern in direkter Folge auch zu einer besseren Datenqualit&#228;t gef&#252;hrt. Des weiteren lie&#223;en sich fehlerhafte Daten fr&#252;hzeitig identifizieren und durch zeitnahes Eingreifen korrigieren.</Pgraph><Pgraph>Eine Fortf&#252;hrung und Erweiterung des kontinuierlichen Monitorings soll zuk&#252;nftig daf&#252;r sorgen, die Datenqualit&#228;t zu erhalten und noch weiter zu verbessern. Auch eine Ausweitung auf weitere ETL-Komponenten wie z.B. die Data Integration Pipeline <TextLink reference="5"></TextLink> wurde begonnen.</Pgraph><Pgraph>Langfristig ist es wichtig, in den Quellsystemen strukturelle Ma&#223;nahmen zur Datenqualit&#228;tsverbesserung zu f&#246;rdern.</Pgraph><Pgraph>Die Autoren geben an, dass kein Interessenkonflikt besteht.</Pgraph><Pgraph>Die Autoren geben an, dass kein Ethikvotum erforderlich ist.</Pgraph></TextBlock>
    <References linked="yes">
      <Reference refNo="1">
        <RefAuthor>Declerck J</RefAuthor>
        <RefAuthor>Kalra D</RefAuthor>
        <RefAuthor>Thienpont G</RefAuthor>
        <RefTitle>Health Data Quality: A Dynamic Complexity</RefTitle>
        <RefYear>2023</RefYear>
        <RefJournal>HealthManagemen</RefJournal>
        <RefPage></RefPage>
        <RefTotal>Declerck J, Kalra D, Thienpont G. Health Data Quality: A Dynamic Complexity. HealthManagement. 2023;23(1).</RefTotal>
      </Reference>
      <Reference refNo="2">
        <RefAuthor>Weber S</RefAuthor>
        <RefTitle>Die Auswirkungen von Prim&#228;rdatenqualit&#228;t und -interoperabilit&#228;t auf Analysen von Real-World-Daten</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Bundesgesundheitsblatt</RefJournal>
        <RefPage>195&#8211;202</RefPage>
        <RefTotal>Weber S. Die Auswirkungen von Prim&#228;rdatenqualit&#228;t und -interoperabilit&#228;t auf Analysen von Real-World-Daten. Bundesgesundheitsblatt. 2024;67:195&#8211;202. DOI: 10.1007&#47;s00103-023-03824-y</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s00103-023-03824-y</RefLink>
      </Reference>
      <Reference refNo="3">
        <RefAuthor>Albashiti F</RefAuthor>
        <RefAuthor>Thasler R</RefAuthor>
        <RefAuthor>Wendt T</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Die Datenintegrationszentren &#8211; Von der Konzeption in der Medizininformatik-Initiative zur lokalen Umsetzung in einem Netzwerk Universit&#228;tsmedizin</RefTitle>
        <RefYear>2024</RefYear>
        <RefJournal>Bundesgesundheitsbl</RefJournal>
        <RefPage>629&#8211;636</RefPage>
        <RefTotal>Albashiti F, Thasler R, Wendt T, et al. Die Datenintegrationszentren &#8211; Von der Konzeption in der Medizininformatik-Initiative zur lokalen Umsetzung in einem Netzwerk Universit&#228;tsmedizin. Bundesgesundheitsbl. 2024;67:629&#8211;636. DOI: 10.1007&#47;s00103-024-03879-5</RefTotal>
        <RefLink>http:&#47;&#47;dx.doi.org&#47;10.1007&#47;s00103-024-03879-5</RefLink>
      </Reference>
      <Reference refNo="4">
        <RefAuthor>Kamal MM</RefAuthor>
        <RefAuthor>Kutafina E</RefAuthor>
        <RefAuthor>Beyan O</RefAuthor>
        <RefTitle>Real-Time Process Monitoring Hospital Data</RefTitle>
        <RefYear>2024</RefYear>
        <RefBookTitle>Gesundheit &#8211; gemeinsam. Kooperationstagung der Deutschen Gesellschaft f&#252;r Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft f&#252;r Sozialmedizin und Pr&#228;vention (DGSMP), Deutschen Gesellschaft f&#252;r Epidemiologie (DGEpi), Deutschen Gesellschaft f&#252;r Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft f&#252;r Public Health (DGPH). Dresden, 08.-13.09.2024</RefBookTitle>
        <RefPage></RefPage>
        <RefTotal>Kamal MM, Kutafina E, Beyan O. Real-Time Process Monitoring Hospital Data. In: Gesundheit &#8211; gemeinsam. Kooperationstagung der Deutschen Gesellschaft f&#252;r Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft f&#252;r Sozialmedizin und Pr&#228;vention (DGSMP), Deutschen Gesellschaft f&#252;r Epidemiologie (DGEpi), Deutschen Gesellschaft f&#252;r Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft f&#252;r Public Health (DGPH). Dresden, 08.-13.09.2024. D&#252;sseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 945. DOI: 10.3205&#47;24gmds046</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3205&#47;24gmds046</RefLink>
      </Reference>
      <Reference refNo="5">
        <RefAuthor>Phan-Vogtmann LA</RefAuthor>
        <RefAuthor>Helhorn A</RefAuthor>
        <RefAuthor>Kruse HM</RefAuthor>
        <RefAuthor></RefAuthor>
        <RefTitle>Approaching Clinical Data Transformation from Disparate Healthcare IT Systems Through a Modular Framework</RefTitle>
        <RefYear>2019</RefYear>
        <RefBookTitle>ICT for Health Science Research: Proceedings of the EFMI 2019 Special Topic Conference, Hannover, 7.&#8211;10. April 2019</RefBookTitle>
        <RefPage>85&#8211;89</RefPage>
        <RefTotal>Phan-Vogtmann LA, Helhorn A, Kruse HM, et al. Approaching Clinical Data Transformation from Disparate Healthcare IT Systems Through a Modular Framework. In: Shabo (Shvo) A, Madsen I, Prokosch HU, H&#228;yrinen K, Wolf KH, Martin-Sanchez F, L&#246;be M, Deserno TM, Hrsg. ICT for Health Science Research: Proceedings of the EFMI 2019 Special Topic Conference, Hannover, 7.&#8211;10. April 2019. Amsterdam: IOS Press; 2019. S. 85&#8211;89. (Studies in Health Technology and Informatics; 258). DOI: 10.3233&#47;978-1-61499-959-1-85</RefTotal>
        <RefLink>https:&#47;&#47;doi.org&#47;10.3233&#47;978-1-61499-959-1-85</RefLink>
      </Reference>
    </References>
    <Media>
      <Tables>
        <NoOfTables>0</NoOfTables>
      </Tables>
      <Figures>
        <NoOfPictures>0</NoOfPictures>
      </Figures>
      <InlineFigures>
        <NoOfPictures>0</NoOfPictures>
      </InlineFigures>
      <Attachments>
        <NoOfAttachments>0</NoOfAttachments>
      </Attachments>
    </Media>
  </OrigData>
</GmsArticle>