188th Meeting of the Ophthalmologists of the Rhineland and Westfalia
188. Versammlung des Vereins Rheinisch-Westfälischer Augenärzte
Praxistest einer Künstlichen Intelligenz zur Planung der Injektionstherapie bei neovaskulärer AMD
Text
Ziel: Der Einsatz von Künstlicher Intelligenz (KI) verspricht eine Verbesserung der Effizient und Genauigkeit bei der Behandlung der neovaskulären altersbedingten Makuladegeneration (nAMD). In dieser Studie wird die Leistungsfähigkeit des KI-basierten deepeye-Algorithmus bei der Unterstützung von Behandlungsentscheidungen in einer realen telemedizinischen Umgebung anhand eines Referenzdatensatzes getestet.
Methode: In dieser retrospektiven, monozentrischen klinischen Studie wurde ein Referenzdatensatz mit 429 OCT-Scans (247 Patienten, 306 behandelte Augen) von Kontrolluntersuchungen im Rahmen der Therapie nach dem Prorenata-Schema (PRN) mit intravitrealen Injektionen (IVI) bei nAMD aus dem klinischen Alltag zusammengestellt. Die Entscheidung des behandelnden Arztes war entweder der Start einer neuen IVI-Serie („Injektion“) oder die Vereinbarung eines neuen Kontrolltermin („Abwarten“). Im Nachgang wurden diese OCTs mithilfe eines KI-Algorithmus zur Therapieplanungsunterstützung (TPS von deepeye, Version 1.2) ausgewertet. Die KI gab unter anderen einen Aktivitätskennzahl (DAS = „Disease Activity Score“) zwischen 0 (sehr gering) und 100 (sehr hoch) aus. Durch statische Modellierung wurde ein optimaler DAS-Grenzwert ermittelt und die Diskrepanz zwischen KI und behandelnden Arzt beurteilt. Diskrepante Fälle, sowie ein Teil der übereinstimmenden Fälle, wurden von einem Gremium aus drei Senior-Gradern in einer Reading-Center-Umgebung erneut bewertet, um einen Referenzstandard festzulegen. Dabei wurden zusätzlich die Gründe der KI-Fehlklassifikationen erhoben und kategorisiert. Jeder Fall wurde unabhängig von zwei Senior-Gradern bewertet und bei Abweichungen ein Konsens in einer Konferenz mit allen Senior-Gradern hergestellt.
Ergebnisse: Die initiale Übereinstimmung der KI und des behandelnden Arztes war 83,2%, bei einem positiven prädikativen Wert (PPW) von 77,7% und negativen prädiktiven Wert (NPW) von 86,1%. Verglichen mit dem doppelten Senior-Grading (DSG) des Reading-Centers erreicht die KI eine Übereinstimmung von 85,8% (PPW=82,1%, NPW=87,8%). 17 der 429 Fälle wurden beim DSG als OCTs abweichend des Behandlungsplans bewertet und ausgeschlossen, dabei:
- 9 x Termin außerhalb des Protokolls
- 3 x Ablehnung der Behandlung durch Patienten
- 3 x keine neovaskuläre AMD
- 2 x Visus unter Therapieniveau
Nach Bereinigung sowie statistischer Optimierung des Schwellwertes hatte die KI auf den verbliebenen 412 Fällen eine Übereinstimmung von 88,6% (PPW=90,5%, NPW=87,6%) mit dem DSG. Die ursprüngliche Entscheidung des behandelnden Arztes mit dem Reading-Center ergab auf diesen Datensatz eine Übereinstimmung von 97,1% (PPW=97,4%, NPW=96,9%) mit der Referenz aus dem DSG. Von den verbliebenen 412 Fällen wurden bei 19 die Bedingungen als unfair für KI bewertet:
- 12 x schlechte Bildqualität des OCT
- 6 x nur unter Hinzunahme mit historischen OCTs entscheidbar
- 1 x nur unter Hinzunahme der klinischen Akte entscheidbar
Würden diese Fälle jedoch ausgeschlossen hätte die KI eine Übereinstimmung von 92.9% mit dem DSG. Die Gründe der verbleibenden 28 diskrepanten Fälle waren:
- 18 x Missinterpretation der intra-retinalen Flüssigkeit (IRF)
- 6 x Missinterpretation der sub-retinalen Flüssigkeit (SRF)
- 4 x sonstige
Durch die statistischen Modelle lässt sich ein Verfahren definieren, bei dem Arzt und KI zusammen die OCTs bewerten, indem eine Sicherheits-Zone für den DAS definiert wird. Dabei wurden die 89 Fälle, bei denen die KI einen DAS zwischen 20% und 80% Wahrscheinlichkeit für eine IVI ausgab, nicht durch die KI bewertet. Auf den verbliebenen 323 erreichte die KI eine Übereinstimmung von 92,3% (PPW=95,2%, NPW=90.9%).
Schlussfolgerungen: In dieser Studie wurde mit dem DSG eine Referenz erstellt, um die Praxistauglichkeit des TPS von deepeye zu untersuchen. 19 der 64 Diskrepanzen zwischen KI und DSG sind begründet durch eine Anwendung außerhalb des Behandlungsplans. Weitere 17 Diskrepanzen waren KI-unfairen Bedingungen geschuldet; davon wurden in 4 Fällen Daten benötigt, die der KI nicht zur Verfügung standen, da diese anhand eines einzelnen OCTs entschied. Diese Limitation bewerten wir als geringfügig, zumal der Anwender in den neuen Versionen des TPS die Biomarker des IRF, SRF und PED im zeitlichen Verlauf selbst beurteilen kann. In den verbleibenden Fällen war der DAS zumeist niedrig, aber das DSG hatte „Injektion“ entschieden. Hierbei wurde durch die KI der relevante Biomarker z.T. erkannt und im TPS-Report angezeigt. Die Einführung einer Sicherheitszone führt zu einem praxistauglichen Setting, in dem Arzt und KI zusammen effizient eine sichere Entscheidung treffen können. Wesentliche Aspekte dabei sind, die KI im Rahmen der Bestimmung anzuwenden und den TPS-Report im Ganzen zu interpretieren. Die Erkenntnisse dieser Studie wurden von deepeye für die Weiterentwicklung des TPS genutzt.



