Deutscher Rheumatologiekongress 2025
Deutscher Rheumatologiekongress 2025
Künstliche Intelligenz in der Rheumatologie: Kleinere, lokal installierbare LLMs (Large Language Models) schneiden besser ab
2FOM Hochschule für Oekonomie & Management, Institut für IT Management und Digitalisierung, Düsseldorf
3FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Essen
Text
Einleitung: Besonders bei komplexen Krankheitsbildern wie der rheumatoiden Arthritis (RA), die eine differenzierte Analyse klinischer Symptome, Laborwerte und bildgebender Verfahren erfordert, könnten LLMs als intelligente Entscheidungshilfen dienen.
Da leistungsstarke LLMs oft nur von proprietären Anbietern bereitgestellt werden, könnte die Nutzung kleinerer, lokal installierbarer Modelle eine datenschutzfreundliche und kosteneffiziente Alternative darstellen. Diese Studie untersucht die Effizienz und klinische Anwendbarkeit großer und kleiner LLMs anhand realer Testfälle zur RA-Diagnostik und Therapieplanung.
Methoden: Fünf LLMs – zwei große (GPT-4o, Claude Sonnet 3.5) und drei kleinere Modelle (Nemotron-70B, Qwen-Turbo, Mixtral-8x7B) – wurden unter standardisierten Bedingungen getestet. Bewertet wurden: Diagnostische Genauigkeit, Rechenaufwand und Effizienz, Richtigkeit und klinische Relevanz der Therapieempfehlungen, Einfluss externer Wissensquellen durch Tests mit und ohne Retrieval-Augmented Generation (RAG).
Ein besonderer Fokus lag darauf, ob kleinere lokal installierbare Modelle mit 70B und 7B Parametern mit großen Cloud-Modellen konkurrieren können. Getestet wurden hierbei die Vollständigkeit und Genauigkeit der Diagnosen und Therapieempfehlungen im Vergleich zu ärztlichen Empfehlungen (F1 Score). Sämtliche Empfehlungen der KI wurden zudem verglichen mit standardisierten Richtlinien (über ein RAG). Als Untersuchungsgegenstand dienten zehn anonymisierte Patient:innenakten mit der Diagnose „Rheumatoide Arthritis“. Die F1-Scores wurden mit vorhanden/nicht vorhanden bewertet (ohne Schwerpunktsetzung).
Ergebnisse: Die höchste diagnostische Präzision erzielte Mixtral-8x7B mit RAG (F1-Score: 71,8%), gefolgt von Nemotron-70B ohne RAG (70,9%). Claude 3.5 Sonnet ohne RAG erreichte eine vergleichbare Leistung (67,9%), während GPT-4o mit RAG mit 71,3% ebenfalls gut abschnitt.
Auch bei Laborwert-Interpretationen, Differenzialdiagnostik und Therapieempfehlungen lieferten die 70B-Modelle in 83% der Testfälle vergleichbare Ergebnisse wie die großen Modelle. Selbst die 7B-Modelle erreichten in 76% der Fälle ähnliche Resultate.
RAG verbesserte die Qualität der Therapieempfehlungen (vorhandene/nicht vorhandene Empfehlungen). Mixtral-8x7B mit RAG schnitt mit 73% (vs. 61,1% ohne RAG) am besten ab, dicht gefolgt von Qwen-Turbo mit RAG mit 72,3% (vs. 68% ohne RAG).
Schlussfolgerung: Kleinere LLMs erzielen in vielen Bereichen vergleichbare oder sogar bessere Leistungen als große Modelle, insbesondere wenn sie mit externer medizinischer Evidenz (RAG) ergänzt werden. Ihre Vorteile – Nachhaltigkeit (Energieverbrauch), Anbieter-Unabhängigkeit, lokale Installation, Datenschutzkonformität und reduzierte Betriebskosten – machen sie für den klinischen Einsatz besonders attraktiv. Allerdings erreichen die Modelle aktuell noch nicht das erforderliche fachärztliche Niveau, um eine routinemäßige Nutzung in der Praxis uneingeschränkt zu empfehlen.