38. Internationaler Kongress der Deutschen Ophthalmochirurgie (DOC)
38. Internationaler Kongress der Deutschen Ophthalmochirurgie (DOC)
Eine lokal eingesetzte, datenschutzzentrierte KI-Bibliothek für die ophthalmologische Ausbildung: Eine vergleichende Studie eines RAG-gestützten Systems
Text
Zielsetzung: Ziel dieser Arbeit war es, ein vollständig offline betriebenes RAG (Retrieval-Augmented Generation)-System für die ophthalmologische Ausbildung aufzubauen und dessen Leistungsfähigkeit im Vergleich zu einem herkömmlichen, nicht-augmentierten Basismodell zu untersuchen.
Methoden: Auf Basis der Open-Source-Plattform RAGflow wurde in Kombination mit dem lokal vorgehaltenen Sprachmodell Microsoft Phi-4 eine fachspezifische ophthalmologische Wissensdatenbank aufgebaut. Als Quellengrundlage wurden etablierte Standardwerke ausgewählt. Für die Prüfung des RAG-Systems wurden 90 Fragen aus dem Lehrbuch „Ophthalmology Secrets“ (LOS) entnommen und drei Kategorien zugeordnet: Grundlagenwissen (n = 34), klinisches Reasoning (n = 34) und diagnostische Entscheidungsfindung (n = 22). Jede Frage wurde sowohl vom RAG-gestützten System als auch vom Phi-4-Basismodell ohne RAG-System beantwortet. Die insgesamt 180 anonymisierten Antworten wurden von zwei FEBO-qualifizierten Fachärzt:innen zusammen bewertet. Als Referenzstandard dienten die entsprechenden Musterantworten aus LOS. Die Bewertung erfolgte anhand einer 5-Punkte-Skala. Bewertet wurden Korrektheit, Vollständigkeit und klinische Relevanz im Abgleich mit der Referenzquelle, und die Bewertungsergebnisse wurden statistisch analysiert.
Ergebnisse: Über alle Kategorien hinweg schnitt das RAG-System signifikant besser ab als das Basismodell (Mittelwert 2,59±1,15 vs. 2,08±1,13; p < 0,001). Am deutlichsten zeigte sich der Unterschied bei der diagnostischen Entscheidungsfindung (2,73±0,98 vs. 1,77±1,07; p = 0,002), gefolgt vom klinischen Reasoning (2,50±1,26 vs. 2,09±1,08; p = 0,015). Beim Grundlagenwissen war ein Trend zugunsten des RAG-Systems erkennbar (2,59±1,16 vs. 2,26±1,21), der allerdings nicht signifikant ausfiel (p = 0,274).
Schlussfolgerung: Die Ergebnisse zeigen, dass ein lokal betriebenes RAG-System die Antwortqualität – insbesondere bei klinisch komplexen Fragestellungen – im Vergleich zum nicht-augmentierten Basismodell erheblich steigert. Anders als das zugrunde liegende Basismodell, dessen Wissensstand auf den Trainingszeitpunkt fixiert ist, erlaubt die angebundene Wissensbibliothek eine kontinuierliche Aktualisierung durch Einspeisung neuer Leitlinien, Fachbücher oder Studienpublikationen. Nach weiterer Validierung kann dieser Ansatz als KI-System in der medizinischen Aus- und Weiterbildung eingesetzt werden.



