Logo

65. Kongress der Deutschen Gesellschaft für Handchirurgie

Deutsche Gesellschaft für Handchirurgie
16.-18.10.2025
Würzburg


Meeting Abstract

Von der Erkennung zur Entscheidung: Weiterentwicklung der Fähigkeiten multimodaler LLMs bei der Frakturanalyse von Hand und Handgelenk

Ron Martin 1
Jonas Roos 2
Stefan Weber 1
Robert Kaczmarczyk 3
1BG Klinikum Bergmannstrost Halle, Klinik für Plastische und Handchirurgie, Brandverletztenzentrum, Halle, Deutschland
2Universitätsklinikum Bonn, Klinik und Poliklinik für Orthopädie und Unfallchirurgie, Bonn, Deutschland
3Klinik und Poliklinik für Dermatologie und Allergologie, Technische Universität München, München, Deutschland

Text

Fragestellung: Multimodale, visuell fähige Large Language Models (LLMs) gewinnen zunehmend an Bedeutung in der medizinischen Bildanalyse. Ziel dieser Studie war es, ihre diagnostische Leistungsfähigkeit bei der Detektion von Frakturen und knöchernen Pathologien auf Röntgenaufnahmen der Hand und des Handgelenks zu evaluieren und miteinander zu vergleichen.

Methodik: Retrospektiv wurden Röntgenaufnahmen von 144 Patienten (92m, 52w; Alter: 15–91 J., MW: 43,3) mit klinischem Frakturverdacht ausgewertet. Die Aufnahmen wurden in acht anatomische Regionen eingeteilt. Vier multimodale LLMs kamen zum Einsatz: gemini-2.0-flash-lite-001 (G2), gemini-2.5-pro-exp-03-25 (G2.5), mistralai-mistral-small-3.1-24b-instruct (Mistral) und qwen-72b (Qwen). Mittels eines standardisierten Prompting-Protokolls wurden die Modelle zur Beurteilung folgender Parameter angewiesen: Vorliegen knöcherner Pathologien, Frakturerkennung, Lokalisation, Morphologie, Klassifikation (AO/OTA oder Winter) und ICD-10-Kodierung. Als Referenz diente die Befundung durch Fachärzte der Radiologie. Die Studie wurde durch die Ethikkommission Sachsen-Anhalt (06/25) genehmigt.

Ergebnisse: In 38,9% der Fälle (56/144) lagen knöcherne Pathologien, in 22,2% (32/144) gesicherte Frakturen vor. Für die Pathologieerkennung erzielte G2.5 die höchste Genauigkeit (67,4%) und war signifikant besser als G2 (54,9%; p=0,042). Für die Frakturerkennung lagen die Genauigkeiten bei Mistral (74,3%), G2.5 (73,6%) und Qwen (70,8%) deutlich über G2 (57,6%; alle p<0,05). Mistral zeigte jedoch eine sehr niedrige Sensitivität (15,6%), während G2.5 mit 65,6% ein günstigeres Verhältnis von Sensitivität und Genauigkeit bot. Die Präzision blieb bei allen Modellen moderat (23,6%–43,8%).

Schlussfolgerung: Multimodale LLMs zeigen vielversprechende Leistungen bei der Analyse von Hand- und Handgelenksröntgen. Besonders G2.5 überzeugte durch ausgewogene Genauigkeit und Sensitivität. Die teils begrenzte Präzision und Modellvariabilität unterstreichen jedoch die Notwendigkeit weiterer Validierung. Ein klinischer Einsatz etwa zur Triage oder Entscheidungsunterstützung erscheint möglich – insbesondere in ressourcenlimitierten Settings.