Künstliche Intelligenz (KI) in der Neurologie

KI bietet Vorteile in Bezug auf Geschwindigkeit, Genauigkeit und Datenverarbeitung, von der sich einige unter anderem ein weiteres Streamlining der Betriebseffizienz erhoffen.<sup>1</sup> Welche Implikationen ergeben sich für den klinischen Alltag hier und heute?

KI-Forschung in der Medizin hat sich in den letzten Jahren deutlich beschleunigt

„Es ist ein schwerwiegender Fehler, das Thema Gesundheit so zu behandeln, als wäre es wie jedes andere Verbraucherbedürfnis“2

Dr. Josh Tamayo-Sarver, PhD, ein amerikanischer Arzt und Befürworter des Einsatzes künstlicher Intelligenz zur Verbesserung der Qualität und Effizienz im Gesundheitswesen testete, wie viele Diagnosen der von OpenAI entwickelte Bot im normalen Alltag einer Notaufnahme korrekt stellen würde. Das Ergebnis: Für die Patienten wird das relativ schnell kritisch.
Als Inhaber von fünf US-Patenten im Bereich Gesundheitstechnologie, darunter zwei im Zusammenhang mit maschinellen Lernmodellen, hat dieser Arzt ChatGPT deswegen nicht „aufgegeben“, hat es weiterverwendet und getestet. In einem späteren Beitrag resümierte er dennoch: „Während Programme wie ChatGPT für die Zukunft der Medizin sehr aufregend sind, bringen sie auch einige bedenkliche Nachteile mit sich [...].“2

Ein großes Problem ist, dass die KI-generierten Antworten extrem von der Genauigkeit der Fragestellung und der Qualität des Inputs und somit vom Anwender abhängig sind. Ein inhärenter Bias: Es können nur Punkte beantwortet werden, auf die der Anwender überhaupt kommt.
KI-Algorithmen sind außerdem immer nur so gut wie die Daten, mit denen sie trainiert werden. Verzerrungen sind in KI-Systemen ein bekanntes Problem, vor allem im Gesundheitswesen, wo die Trainingsdaten nicht notwendigerweise repräsentativ für vielfältige Patientenpopulationen sind.1

Ärzte übertreffen Chat-GPT, wenn die Fälle nicht im Multiple-Choice-Format vorliegen

Darüber hinaus kann trotz noch so viel Information eines nicht ersetzt werden: klinisches Urteilsvermögen. ChatGPT kann zwar Multiple-Choice-Fragen beantworten, Fakten wiedergeben und auf bereits bekannte Fragen reagieren, stößt jedoch bei Kasuistiken an seine Grenzen – insbesondere dann, wenn die klinische Präsentation nicht klassisch oder „lehrbuchmäßig“ verläuft.

 Dies demonstrierte auch eine schwedische Studie eindrücklich, in der die Leistung von ChatGPT (Version GPT-4) beim Verfassen von Freitextbeurteilungen komplexer Fälle in der Primärversorgung mit der von echten Ärzten verglichen wurde.4 Bei diesen Fallvignetten, die der Facharztprüfung für Allgemeinmedizin entlehnt waren, erzielten bereits durchschnittliche Ärzte signifikant bessere Ergebnisse als ChatGPT – die besten Ärzte lagen noch deutlicher vorn.
Auch für die britische Facharztprüfung der Neurologie liegen Daten vor, die die Leistung verschiedener ChatGPT-Versionen analysieren – allerdings ohne direkten Vergleich zu menschlichen Ärzten. ChatGPT 3.5 Legacy und ChatGPT 3.5 Default erreichten 42 % bzw. 57 % und verfehlten damit die Bestehensgrenze von 58 %. ChatGPT-4 hingegen erreichte die höchste Trefferquote mit 64 %. In der Praxis wären 6,4 von 10 richtigen Antworten wohl kaum akzeptabel.

Könnte die KI unseren Job machen? 

„In den Monaten, in denen ich während meiner Schichten in der Notaufnahme mit ChatGPT experimentiert habe, habe ich gelernt, dass ChatGPT als unabhängiges Diagnoseinstrument äußerst limitiert und riskant ist – aber als Hilfsmittel zur Erklärung komplexer medizinischer Prozesse für Patienten äußerst wertvoll“, so das Zwischenfazit von Dr. Tamayo-Sarver.2

Auch außerhalb von Patienten und Notfällen ist festzustellen, dass es ohne den Input von Experten der Fachrichtung derzeit nicht geht. Eine Arbeit im BMJ zur Erstellung medizinischer Literaturreviews durch ChatGPT kam ebenfalls zu dem Schluss, dass es derzeit nicht für professionelle oder fachrichtungsspezifische Informationen geeignet ist.6,7

Wussten Sie, dass KI Chatbots „dement“ sein können?

Der Mini-Mental-Status-Test (MMST) zählt zu den wichtigsten Demenz-Tests, doch für die Detektion einer leichten kognitiven Beeinträchtigung gilt der MoCA-Test („Montreal Cognitive Assessment“) als deutlich sensitiver. Die derzeit führenden großen Sprachmodelle (LLMs, large language models) wurden diesem unterzogen und die meisten zeigten Anzeichen einer leichten kognitiven Beeinträchtigung.8 Je älter der Chatbot, desto mehr sahen die Scores nach kognitivem Abbau aus. „Diese Ergebnisse stellen die Annahme in Frage, dass künstliche Intelligenz bald menschliche Ärzte ersetzen wird, da die kognitiven Beeinträchtigungen, die sich bei führenden Chatbots zeigen, ihre Zuverlässigkeit in der medizinischen Diagnostik beeinträchtigen und das Vertrauen der Patienten untergraben könnten.“

Die Studie erschien in der Weihnachtsausgabe des BMJ. Diese beinhaltet zwar immer echte, aber zugleich humorvolle Studien und Berichte. Der Vergleich mit dem menschlichen Gehirn ist naturgemäß unfair, räumen auch die Autoren ein. Dennoch betonen sie, dass das einheitliche Versagen aller großen Sprachmodelle bei Aufgaben, die visuelle Abstraktion und Exekutivfunktionen erfordern, eine erhebliche Schwäche darstellt und ihren Einsatz im klinischen Bereich einschränken könnte.9

Das Fazit der Autoren lautete hier: „Es ist nicht nur unwahrscheinlich, dass Neurologen in absehbarer Zeit durch große Sprachmodelle ersetzt werden, sondern unsere Daten deuten auch darauf hin, dass sie bald neue, virtuelle Patienten behandeln müssen – Modelle künstlicher Intelligenz, die kognitive Störungen aufweisen.“8 

Quellen:
  1. AbuAlrob, M. A. & Mesraoua, B. Harnessing artificial intelligence for the diagnosis and treatment of neurological emergencies: a comprehensive review of recent advances and future directions. Front. Neurol. 15, (2024).
  2. Tamayo-Sarver, J. I’m an ER doctor. I think LLMs may shape the future of medicine—for better or worse. Fast Company https://www.fastcompany.com/90922526/er-doctor-ai-medicine (2023).
  3. Senthil, R., Anand, T., Somala, C. S. & Saravanan, K. M. Bibliometric analysis of artificial intelligence in healthcare research: Trends and future directions. Future Healthcare Journal 11, 100182 (2024).
  4. Arvidsson, R., Gunnarsson, R., Entezarjou, A., Sundemo, D. & Wikberg, C. ChatGPT (GPT-4) versus doctors on complex cases of the Swedish family medicine specialist examination: an observational comparative study. BMJ Open 14, e086148 (2024).
  5. Giannos, P. Evaluating the limits of AI in medical specialisation: ChatGPT’s performance on the UK Neurology Specialty Certificate Examination. BMJ Neurol Open 5, e000451 (2023).
  6. Admir Hadzic auf LinkedIn: #aiinmedicine #chatgpt #subspecialtymedicine #medicalreview #expertise… | 15 Kommentare. https://www.linkedin.com/posts/hadzic-admir_aiinmedicine-chatgpt-subspecialtymedicine-activity-7084148289008230401-2nvS.
  7. Wu, C. L. et al. Addition of dexamethasone to prolong peripheral nerve blocks: a ChatGPT-created narrative review. Reg Anesth Pain Med 49, 777–781 (2024).
  8. Dayan, R., Uliel, B. & Koplewitz, G. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ 387, e081948 (2024).
  9. Barton, E. Almost all leading AI chatbots show signs of cognitive decline - BMJ Group. https://bmjgroup.com/almost-all-leading-ai-chatbots-show-signs-of-cognitive-decline/ (2024).