Large Language Models (LLMs) sind längst im Versorgungsalltag angekommen – allerdings ohne formelle Einführung. In den USA nutzt etwa jeder sechste Erwachsene monatlich einen KI-Chatbot für medizinische Fragen. Auch Ärzt:innen greifen informell auf Systeme wie GPT-4o oder Llama 3 zurück. Damit entsteht eine paradoxe Situation: Während Regulierung und Evidenz noch hinterherlaufen, sind die Systeme faktisch bereits Teil der Versorgungsrealität.
Eine aktuelle randomisierte, präregistrierte Studie aus dem Vereinigten Königreich beleuchtet erstmals systematisch, wie zuverlässig solche Modelle in der realen Interaktion mit medizinischen Laien funktionieren. 1.298 Erwachsene bearbeiteten eines von 10 ärztlich entwickelten Alltagsszenarien und mussten sowohl relevante Erkrankungen identifizieren als auch eine angemessene Versorgungsentscheidung treffen – von Selbstbehandlung bis Notruf. Drei Gruppen nutzten jeweils ein LLM (GPT-4o, Llama 3 oder Command R+), die Kontrollgruppe recherchierte eigenständig.
Ernüchternde Ergebnisse unter Realbedingungen
Teilnehmer mit KI-Unterstützung identifizierten signifikant seltener mindestens eine relevante medizinische Kondition als die Kontrollgruppe (Odds Ratio 1,76 zugunsten der Kontrolle). Bei der Wahl der richtigen Versorgungsstufe zeigte sich kein Vorteil durch die KI. Insgesamt lag die Trefferquote für die korrekte Disposition bei lediglich 43 Prozent – über Zufall, aber aus Versorgungssicht klar unzureichend.
Besonders aufschlussreich ist die Diskrepanz zwischen Modellleistung im Idealszenario und Realität: Werden die vollständigen Fallvignetten direkt und strukturiert in die Modelle eingegeben, nennen sie in über 90 % der Fälle mindestens eine relevante Kondition. In der realen Mensch-Maschine-Interaktion bricht diese Leistung jedoch deutlich ein. Das Problem liegt nicht primär im medizinischen Faktenwissen, sondern im Zusammenspiel zwischen Nutzer und System.
Typische Interaktionsrisiken
Die Transkriptanalyse zeigt wiederkehrende Muster: unvollständige Symptomschilderungen, Ablenkbarkeit der Modelle durch irrelevante Details und inkonsistente Empfehlungen bei minimal veränderter Formulierung. Rebecca Payne, Co-Autorin der Studie, schildert in einem begleitenden Interview einen Fall, in dem ein Modell zunächst korrekt eine tiefe Venenthrombose erwog, sich jedoch durch die beiläufige Erwähnung von Joggen auf eine harmlose Verstauchung festlegte. In anderen Szenarien führten semantisch ähnliche Kopfschmerzbeschreibungen zu diametral entgegengesetzten Handlungsempfehlungen – von Selbstmedikation bis Notruf.
Für die Gesundheitspolitik ist diese Inkonsistenz kein technisches Detail, sondern ein potentielles Sicherheitsrisiko.
Öffentliche Einsatzrisiken: Wenn KI zur digitalen Ersttriage wird
LLMs werden zunehmend als „digitale Eingangstür“ des Gesundheitssystems diskutiert – als niedrigschwellige Ersttriage, als Orientierungshilfe vor Arztbesuchen oder als Ergänzung telemedizinischer Angebote. Genau hier zeigt die Studie jedoch strukturelle Schwächen.
Ein System, das unter standardisierten Testbedingungen überzeugend wirkt, kann im realen Nutzungskontext inkonsistent und störanfällig reagieren. Das birgt Risiken:
- Verzögerung notwendiger Notfallversorgung
- Überinanspruchnahme von Notfallstrukturen
- Falsche Beruhigung oder unnötige Angst
- Erosion des Vertrauens in digitale Gesundheitsangebote
Benchmark-Erfolge reichen regulatorisch nicht aus
Die getesteten Modelle erzielten auf medizinischen Frage-Antwort-Benchmarks wie MedQA solide Werte über der Bestehensgrenze von 60 %. Doch diese Ergebnisse korrelierten nur schwach mit der realen Interaktionsleistung. Simulationen mit KI-generierten „Patienten“ überschätzten die praktische Zuverlässigkeit ebenfalls deutlich.
Damit stellt sich eine zentrale regulatorische Frage: Reichen klassische Leistungsbenchmarks aus, um Sicherheit im öffentlichen Einsatz zu attestieren?
Aus Sicht der Studie eindeutig nicht. Sicherheitsprüfungen müssen reale, heterogene Nutzer einbeziehen – mit variierenden Ausdrucksweisen, Informationslücken und emotionalen Faktoren. Ohne solche Tests droht eine systematische Überschätzung der Einsatzreife.
Vertrauensfrage im Gesundheitssystem
Gesundheitsversorgung beruht nicht nur auf korrekter Diagnostik, sondern auf Vertrauen – in die Kompetenz, in die Konsistenz und in die Verantwortlichkeit der handelnden Akteure. Ärztliche Fehlentscheidungen sind individuell zuordenbar, haftungsrechtlich geregelt und institutionell eingebettet.
Bei frei zugänglichen KI-Systemen verschwimmen diese Ebenen:
- Wer trägt Verantwortung bei Fehltriage?
- Wie transparent sind Entscheidungslogiken?
- Welche Qualitätsstandards gelten?
Wenn KI-Systeme gleichzeitig als niedrigschwellige Beratungstools genutzt werden und als „nicht für medizinische Entscheidungen bestimmt“ deklariert sind, entsteht ein regulatorisches Vakuum.
Zwischen Innovationsdruck und Vorsorgeprinzip
Die Autoren der Studie kommen zu einem klaren Schluss: Keines der getesteten Modelle ist derzeit bereit für den Einsatz in der direkten Patientenversorgung. Das bedeutet nicht, dass KI in der Medizin keine Rolle spielen sollte. Im Gegenteil: In strukturierten, professionell moderierten Settings können LLMs wertvolle Unterstützung bieten. Doch eine breite öffentliche Nutzung als digitale Erstberatung ohne robuste Interaktionssicherheit wirft gesundheitspolitische Grundsatzfragen auf.
Wer KI als „Front Door“ des Gesundheitssystems etablieren will, muss:
- Interaktionssicherheit systematisch testen
- Konsistenz unter variablen Eingaben gewährleisten
- Red-Flag-Erkennung priorisieren
- Haftungs- und Transparenzfragen klären
Bis dahin bleibt die nüchterne Erkenntnis: Die Systeme sind rhetorisch überzeugend – aber unter Realbedingungen nicht stabil genug für eine verlässliche Ersttriage. Die gesundheitspolitische Herausforderung besteht daher weniger darin, Innovation zu bremsen, sondern darin, ihren öffentlichen Einsatz verantwortungsvoll zu gestalten – bevor sich faktische Nutzung und regulative Kontrolle dauerhaft entkoppeln.
Quellen: * Bean AM et al.: Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med. 2026 Feb 9 (DOI).
* Rüschemeyer G: Medizinische Fehldiagnosen mit KI: ‚Es sind die Menschen, die den Prozess kaputtmachen‘. Neue Zürcher Zeitung (NZZ), 10.02.2026 (Online).
* Bildnachweis: Foto von Omar:. Lopez-Rincon auf Unsplash
* Autor: Rainer H. Bubenzer, Eichstädt bei Berlin, 13. Februar 2026.