Logo

German Congress of Orthopaedics and Traumatology (DKOU 2025)

Deutsche Gesellschaft für Orthopädie und Unfallchirurgie (DGOU), Deutsche Gesellschaft für Orthopädie und Orthopädische Chirurgie (DGOOC), Deutsche Gesellschaft für Unfallchirurgie (DGU), Berufsverband für Orthopädie und Unfallchirurgie (BVOU)
28.-31.10.2025
Berlin


Meeting Abstract

KI-gestützte Arthrosediagnostik: Prospektive Analyse der diagnostischen Präzision von Large Language Models

Stefano Pagano 1
Katrin Michalk 1
Günther Maderbacher 1
Tobias Renkawitz 1
Marie Farina Schuster 1
1Klinik für Orthopädie – Universität Regensburg, Bad Abbach, Deutschland

Text

Zielsetzung und Fragestellung: Im Zuge der digitalen Transformation im Gesundheitswesen steigt das Interesse an Large Language Models (LLMs) auch in der Orthopädie. Die vorliegende prospektive Validierungsstudie untersuchte die diagnostische Leistungsfähigkeit verschiedener LLMs (GPT-4o, GPT-4 Turbo, GPT-4 mini, GPT-3.5, Llama-3.1, Gemma 2, Mistral Nemo, Gemini 1.5, Gemini 1.0) hinsichtlich derprimären Diagnose der Hüft- und Kniegelenksarthrose (OA)auf Basis von Patientenfragebögenim Kontext orthopädischer Erstvorstellungen. Als sekundäres Studienziel wurde die Fähigkeit zur differenzialdiagnostischen Abgrenzung gegenüber anderen muskuloskelettalen Erkrankungen evaluiert.

Material und Methoden: Eine prospektive, klinisch-observationelle Studie schloss 104 Patienten ein, die sich in der Sprechstunde einer orthopädischen Fachklinik vorgestellt hatten. Vor der ärztlichen Untersuchung erfolgte die detaillierte Erhebung der Anamnese und Symptomatikmittels eines strukturierten Papierfragebogens. Neun LLMs generierten, basierend auf den digitalisierten Fragebögen und einem spezifischen Prompt, automatisierte Diagnosevorschläge. Die finale klinische Diagnose durch erfahrene Orthopäden diente alsunabhängiger Referenzstandard, um die diagnostische Übereinstimmung zu evaluieren. Deskriptiv erfolgte die Berechnung und vergleichende Analyse von Sensitivität (OA-Detektion), Spezifität (Nicht-OA-Detektion) und Genauigkeit (Gesamtübereinstimmung) der LLMs. Der Einfluss der Antwortqualität auf die diagnostische Genauigkeit wurde inferenzstatistisch mittels logistischer Regression untersucht.

Ergebnisse: Das Studienkollektiv umfasste 94 OA- und 10 Nicht-OA-Patienten. GPT-4o erreichte die höchste Sensitivität (91,5%) und Gesamtgenauigkeit (87,5%) (Tabelle 1 [Tab. 1]). Die höchste Spezifität für Nicht-OA-Fälle betrug 50%. GPT-4 Turbo (Genauigkeit 81,7%) und Gemma 2 (Genauigkeit 80,8%) zeigten ebenfalls hohe Genauigkeitswerte. Für GPT-4o wurde eine signifikante positive Korrelation zwischen Antwortvollständigkeit und diagnostischer Genauigkeit nachgewiesen (p<0.001).

Tabelle 1: Diagnostische Leistung verschiedener Large Language Models (LLMs)

Diskussion und Schlussfolgerung: In der prospektiven Validierung erwies sich GPT-4o als leistungsfähigstes LLM für die Primärdiagnostik von Hüft- und Knie-OA auf Basis reiner Patientenangaben und erreichte die beste Gesamtgenauigkeit.Diese Resultate belegen das Potential von GPT-4o als valides, KI-basiertes Assistenzsystem zur Arthrodiagnostik in frühen klinischen Entscheidungen. Die limitierte Spezifität (50%) indiziert jedoch Optimierungsbedarf und unterstreicht die Notwendigkeit weiterer Forschung zur Steigerung der differenzialdiagnostischen Präzision von LLMs in der Orthopädie, insbesondere zur Entwicklung von Strategien zur Erhöhung der Spezifität und umfassenden Evaluation des klinischen Mehrwertsim realen orthopädischen Versorgungsalltag.