KI-gestützte Arthrosediagnostik: Prospektive Analyse der diagnostischen Präzision von Large Language Models

25dkou445 10.3205/25dkou445 urn:nbn:de:0183-25dkou4454 Meeting Abstract KI-gestützte Arthrosediagnostik: Prospektive Analyse der diagnostischen Präzision von Large Language Models Pagano Pagano Stefano S

Klinik für Orthopädie – Universität Regensburg, Bad Abbach, Deutschland

author Michalk Michalk Katrin K

Klinik für Orthopädie – Universität Regensburg, Bad Abbach, Deutschland

author Maderbacher Maderbacher Günther G

Klinik für Orthopädie – Universität Regensburg, Bad Abbach, Deutschland

author Renkawitz Renkawitz Tobias T

Klinik für Orthopädie – Universität Regensburg, Bad Abbach, Deutschland

author Schuster Schuster Marie Farina MF

Klinik für Orthopädie – Universität Regensburg, Bad Abbach, Deutschland

author German Medical Science GMS Publishing House

Düsseldorf

610 20251031 germ This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). M0634 445 Deutsche Gesellschaft für Orthopädie und Unfallchirurgie Deutsche Gesellschaft für Orthopädie und Orthopädische Chirurgie Deutsche Gesellschaft für Unfallchirurgie Berufsverband für Orthopädie und Unfallchirurgie Deutscher Kongress für Orthopädie und Unfallchirurgie (DKOU 2025) Abstracts | Digitalisierung 1 Berlin 20251028 20251031 AB70-2194 TextZielsetzung und Fragestellung: Im Zuge der digitalen Transformation im Gesundheitswesen steigt das Interesse an Large Language Models (LLMs) auch in der Orthopädie. Die vorliegende prospektive Validierungsstudie untersuchte die diagnostische Leistungsfähigkeit verschiedener LLMs (GPT-4o, GPT-4 Turbo, GPT-4 mini, GPT-3.5, Llama-3.1, Gemma 2, Mistral Nemo, Gemini 1.5, Gemini 1.0) hinsichtlich derprimären Diagnose der Hüft- und Kniegelenksarthrose (OA)auf Basis von Patientenfragebögenim Kontext orthopädischer Erstvorstellungen. Als sekundäres Studienziel wurde die Fähigkeit zur differenzialdiagnostischen Abgrenzung gegenüber anderen muskuloskelettalen Erkrankungen evaluiert.Material und Methoden: Eine prospektive, klinisch-observationelle Studie schloss 104 Patienten ein, die sich in der Sprechstunde einer orthopädischen Fachklinik vorgestellt hatten. Vor der ärztlichen Untersuchung erfolgte die detaillierte Erhebung der Anamnese und Symptomatikmittels eines strukturierten Papierfragebogens. Neun LLMs generierten, basierend auf den digitalisierten Fragebögen und einem spezifischen Prompt, automatisierte Diagnosevorschläge. Die finale klinische Diagnose durch erfahrene Orthopäden diente alsunabhängiger Referenzstandard, um die diagnostische Übereinstimmung zu evaluieren. Deskriptiv erfolgte die Berechnung und vergleichende Analyse von Sensitivität (OA-Detektion), Spezifität (Nicht-OA-Detektion) und Genauigkeit (Gesamtübereinstimmung) der LLMs. Der Einfluss der Antwortqualität auf die diagnostische Genauigkeit wurde inferenzstatistisch mittels logistischer Regression untersucht.Ergebnisse: Das Studienkollektiv umfasste 94 OA- und 10 Nicht-OA-Patienten. GPT-4o erreichte die höchste Sensitivität (91,5%) und Gesamtgenauigkeit (87,5%) (Tabelle 1 ). Die höchste Spezifität für Nicht-OA-Fälle betrug 50%. GPT-4 Turbo (Genauigkeit 81,7%) und Gemma 2 (Genauigkeit 80,8%) zeigten ebenfalls hohe Genauigkeitswerte. Für GPT-4o wurde eine signifikante positive Korrelation zwischen Antwortvollständigkeit und diagnostischer Genauigkeit nachgewiesen (p<0.001).Diskussion und Schlussfolgerung: In der prospektiven Validierung erwies sich GPT-4o als leistungsfähigstes LLM für die Primärdiagnostik von Hüft- und Knie-OA auf Basis reiner Patientenangaben und erreichte die beste Gesamtgenauigkeit.Diese Resultate belegen das Potential von GPT-4o als valides, KI-basiertes Assistenzsystem zur Arthrodiagnostik in frühen klinischen Entscheidungen. Die limitierte Spezifität (50%) indiziert jedoch Optimierungsbedarf und unterstreicht die Notwendigkeit weiterer Forschung zur Steigerung der differenzialdiagnostischen Präzision von LLMs in der Orthopädie, insbesondere zur Entwicklung von Strategien zur Erhöhung der Spezifität und umfassenden Evaluation des klinischen Mehrwertsim realen orthopädischen Versorgungsalltag. 11

1 0 0 0