Deutscher Rheumatologiekongress 2025
Deutscher Rheumatologiekongress 2025
Automatisierte Arztbriefe für Rheumatolog:innen: Wie Prompting die Dokumentationsqualität verbessert
2FOM Hochschule für Oekonomie & Management, Ifid Institut für IT Management und Digitalisierung, Düsseldorf
3FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Kompetenzcentrum für Medizinökonomie, Essen
Text
Einleitung: Die Dokumentation medizinischer Befunde und die Erstellung von Arztbriefen sind essenzielle, aber zeitaufwändige Aufgaben in der rheumatologischen Praxis. Der Einsatz von Large Language Models (LLMs) wie GPT-4o und Mixtral-8x7b-32768 könnte diesen Prozess optimieren. Insbesondere durch Techniken wie gezieltes Prompt Engineering und den Einsatz von Retrieval-Augmented Generation (RAG) könnte sich die Qualität und Effizienz der generierten Texte verbessern. Diese Studie untersucht die Qualität verschiedener Prompting-Strategien zur automatisierten Erstellung rheumatologischer Arztbriefe.
Methoden: Fünf LLMs (GPT-4o, Mixtral-8x7b-32768, Nemotron, Qwen-Turbo, Claude-3.5 Sonnet) wurden anhand zehn rheumatologischer Fallbeispiele getestet. Die Modelle erhielten standardisierte sowie speziell für die Fragestellung entwickelte Prompts. Zusätzlich wurden etablierte medizinische evidenzbasierte Empfehlungen (z.B. DGRh, EULAR, ACR) per RAG eingebunden. Die einmalige Bewertung erfolgte unabhängig durch zwei rheumatologische Fachärzt:innen durch quantitative Metriken wie den F1-Score (Maß für Präzision und Vollständigkeit der Modellantworten) und RAGAS (Bewertung der Antwortqualität bei Wissenseinbindung).
Ergebnisse: Der gezielte Einsatz von Prompting-Techniken in Kombination mit RAG verbesserte die Qualität der generierten Arztbriefe im Vergleich zu Prompting Techniken ohne RAG signifikant. Besonders ein kleines, lokal installierbares Open-Access-Modell Mixtral-8x7b mit RAG erzielte die höchste Genauigkeit. Chain-of-Thought-Prompting, eine sequenzielle Eingabe-Vorgehensweise, führte zu präziseren und strukturierteren Formulierungen der komplexen medizinischen Inhalte. Dem hingegen bewirkte das Few-Shot-Learning (Prompting mit Beispielen) eine bessere Anpassung an die spezifischen Anforderungen rheumatologischer Arztbriefe, da die Modelle durch Beispiele im Prompt eine bessere Konsistenz und Formatierung erzielten.
Schlussfolgerung: Die Kombination aus LLMs und der gezielten Anwendung von Prompting-Techniken in Kombination mit Retrieval-Augmented Generation (RAG) kann die Arztbriefgenerierung in der Rheumatologie erheblich verbessern. Im direkten Vergleich zeigten Modelle mit RAG durchweg eine höhere Qualität in der Textgenerierung, insbesondere bei der Darstellung von Therapieempfehlungen und differenzialdiagnostischen Einschätzungen.