70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
70. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V.
Sprachverarbeitung von Pathologie-Berichten in einem Krebsregister: Implementierung und Qualitätskontrolle
Text
Das Krebsregister Nordrhein-Westfalen adoptiert Techniken, die automatische Sprachverarbeitung (natural language processing) nutzt, um strukturierte Daten aus Fließtexten, hier pathologischen Berichten, zu extrahieren. Wir setzen Fremdanbieter-Software ein, die auf medizinische Terminologie zugeschnitten ist. Bevor wir den Arbeitsablauf ändern, muss er geprüft werden.
Alle Pathologie-Berichte über im Jahr 2019 neu diagnostizierte Tumoren wurden herangezogen. Als Goldstandard behandeln wir die manuellen Kodierungen aller Pathologie-Berichte zu TNM-Klassifikation, Residualgewebe, Grading, Morphologie inklusive Dignität, Topographie und Lateralität. Wir gruppierten die automatisch erzeugten Befunde nach dreistelligem ICD-10-Code und entwickelten Regelsätze für die Übernahme von NLP-Daten für jede dieser Tumorentitäten. Als graphische Veranschaulichung dienen Fluctuation Plots, Häufigkeiten über Automatisierte Befunde wurden übernommen, wenn der positive Vorhersagewert bei mindestens 95% liegt. Da den NLP-Resultaten ein „Konfidenzscore“ für die ICD-O3-Variablen beigefügt wird, können Untermengen gebildet werden, für die der Konfidenzscore eine Schwelle überschreitet und innerhalb derer der Übereinstimmungsgrad auf über 95 gehoben werden kann.
Insgesamt 172352 Pathologie-Berichte wurden an das Krebsregister gesandt. Für die folgenden Tumorentitäten wurden Regelsätze vereinbart und als Beschlussvorlagen verabschiedet: C44 (nichtmelanotische Hautkrebs), C50 (Brustkrebs), C61 (Prostatakrebs), C34 (Bronchialkarzinom), C18-20 (Kolorektalkarzinome), C43 (Hautmelanome), D05 (Mammakarzinom in situ), C25 (Magenkrebs), C67 (Harnblasenkrebs) and D06 (Gebärmutterkrebs in situ) mit einer Gesamtzahl von 113632 Reports. Hiervon konnten 57118 NLP-generierte Einträge übernommen werden. Der Umfang der automatisch übernommenen Einträge hängt stark von der Tumorentität und dem kodierten Merkmal ab. Insbesondere beim Grading wird ein positiver Vorhersagewert von 95% selten erreicht.
Transparenz über die Datenquelle und die Treffsicherheit der Methode ist grundlegend, da abhängig von der Forschungsfragestellung verschiedene Genauigkeit vonnöten ist. Beim Abarbeiten der Regelsätze nach Häufigkeit der Tumorentitäten macht sich ein abnehmender Grenznutzen bemerkbar, sodass seltene Tumoren nach wie vor händisch kodiert werden müssen.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
Der Beitrag wurde bereits publiziert: [1]
References
[1] Hüsing J, Oesterling F, Patenge C, Stang A, Kajüter H, Mattauch V. Evaluation of Parsed Pathological Reports in the Data Collection Process of a Cancer Registry. In: JRC135581 ENCR IACR Scientific Conference; 2023 Nov 14-16; Granada, Spain.[2] Lee DH, Kim B, Lee ES, Kim HJ, Min JH, Lee JM, et al. Radiologic Evaluation and Structured Reporting Form for Extrahepatic Bile Duct Cancer: 2019 Consensus Recommendations from the Korean Society of Abdominal Radiology. Korean J Radiol. 2021;22(1):41.
[3] Alawad M, Yoon HJ, Tourassi GD. Coarse-to-Fine Multi-Task Training of Convolutional Neural Networks for Automated Information Extraction from Cancer Pathology Reports. In: 2018 IEEE EMBS International Conference on Biomedical & Health Informatics (BHI); 2018 Mar 4-7; Las Vegas, Nevada, USA. p. 218–21. Available from: https://www.osti.gov/servlets/purl/1435267
[4] Moons KGM, Harrell FE. Sensitivity and Specificity should be De-emphasized in Diagnostic Accuracy Studies. Acad Radiol. 2003 Jun;10(6):670–2.
[5] Wickham H, Hofmann H. Product plots. IEEE Trans Vis Comput Graph. 2011 Dec;17(12):2223–30.
[6] Goulart BHL, Silgard ET, Baik CS, Bansal A, Sun Q, Durbin EB, et al. Validity of Natural Language Processing for Ascertainment of EGFR and ALK Test Results in SEER Cases of Stage IV Non–Small-Cell Lung Cancer. JCO Clin Cancer Inform. 2019 Dec;(3):1–15.



