Jahrestagung der Vereinigung Westdeutscher Hals-Nasen-Ohren-Ärzte 2026
Jahrestagung der Vereinigung Westdeutscher Hals-Nasen-Ohren-Ärzte 2026
Vergleich von Tumorboard-Empfehlungen mit einem lokal betriebenen KI-Sprachmodell (Llama 3.3) im Management von Kopf-Hals-Karzinomen
Text
Einleitung: Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als Werkzeuge in der medizinischen Entscheidungsfindung eingesetzt. Diese Studie bewertet die Genauigkeit eines lokal betriebenen LLM (Llama 3.3) bei der Erstellung von Therapieempfehlungen für das Plattenepithelkarzinom im Kopf-Hals-Bereich (HNSCC) im Vergleich zu den Entscheidungen eines multidisziplinären Tumorboards (MDT), unter Einhaltung der europäischen Datenschutzbestimmungen.
Methoden: Es handelt sich um eine retrospektive, monozentrische Studie mit 676 Patientinnen und Patienten mit HNSCC, was zu insgesamt 1.352 klinischen Szenarien führte. Llama 3.3 wurde lokal durch systematisches Prompt Engineering auf Basis zusammengefasster deutscher, europäischer und National Comprehensive Cancer Network (NCCN) Leitlinien optimiert. Die prä- und posttherapeutischen MDT-Empfehlungen wurden mit den vom LLM generierten Ergebnissen verglichen. Die Übereinstimmung wurde in vollständige Übereinstimmung, leitlinienkonforme Abweichung oder nicht leitlinienkonforme Abweichung kategorisiert. Die Modellgenauigkeit wurde mittels F1-Score und Matthews-Korrelationskoeffizient (MCC) bewertet, die komplementäre Maße der Klassifikationsleistung darstellen.
Ergebnisse: Der Vergleich zwischen MDT- und LLM-Empfehlungen zeigte eine vollständige Übereinstimmung in 74 % der prätherapeutischen und 83 % der posttherapeutischen Fälle. Unter Einbeziehung teilweiser Übereinstimmungen betrug die Leitlinienkonformität 95 % bzw. 91 %. Für die Unterscheidung zwischen kurativen und palliativen Konzepten erreichte das LLM eine Genauigkeit von 97 %. Abweichungen waren hauptsächlich auf fehlende Angaben zu ECOG, Inoperabilität sowie gelegentliche Überschätzungen des kurativen Ansatzes bei Stadium IVc-Fällen mit solitären Metastasen zurückzuführen. Subgruppenanalysen bestätigten eine hohe Zuverlässigkeit über alle Tumorlokalisationen und Stadien hinweg. Dennoch können Abweichungen je nach Unterkategorie des HNSCC auftreten.
Diskussion: Lokal betriebene LLMs wie Llama 3.3 können Therapieempfehlungen mit hoher Übereinstimmung zu MDT-Entscheidungen generieren und gleichzeitig die Einhaltung der EU-Datenschutzbestimmungen gewährleisten. Obwohl MDTs weiterhin für eine individualisierte Behandlung unerlässlich bleiben, kann die KI-gestützte Integration von Leitlinien die Datensynthese erleichtern, die Standardisierung fördern und die Gesamteffizienz verbessern.



