Longevity & AgingPressemitteilung

KI mit Reasoning-Fähigkeiten übertrifft menschliche Ärzte bei der Diagnose in wegweisender Studie

OpenAIs o1-preview übertraf Ärzte bei komplexen klinischen Fällen und setzt damit neue Maßstäbe für die KI-gestützte Medizin.

Dienstag, 5. Mai 2026 0 Aufrufe
Veröffentlicht in Lifespan.io
Article visualization: Reasoning AI Beats Human Doctors at Diagnosis in Landmark Study

Zusammenfassung

Eine strenge Studie, veröffentlicht in Science, testete OpenAIs KI-Reasoning-Modell o1-preview gegen Hunderte menschliche Ärzte anhand komplexer realer klinischer Fälle. Die KI übertraf die Ärzte bei Diagnosegenauigkeit, Testanordnung und klinischem Denkvermögen über mehrere Aufgabentypen hinweg. In 78% der anspruchsvollen Fälle stellte sie die richtige Diagnose und erzielte nahezu perfekte Ergebnisse bei strukturierten Reasoning-Bewertungen. Obwohl das verwendete Modell bereits veraltet ist – neuere Modelle dürften noch besser abschneiden – markieren die Ergebnisse einen Wendepunkt für KI in der Medizin. Für gesundheitsbewusste Personen deutet dies darauf hin, dass KI-Tools bald eine bedeutsame zweite Meinung bieten oder dabei helfen könnten, Diagnosen zu erkennen, die menschlichen Ärzten entgehen – insbesondere bei komplexen oder seltenen Krankheitsbildern.

Detaillierte Zusammenfassung

Künstliche Intelligenz hat seit Langem versprochen, die Medizin zu transformieren, doch eine neue Studie, die in <em>Science</em> veröffentlicht wurde, markiert einen echten Meilenstein: Ein KI-Modell mit Reasoning-Fähigkeiten hat menschliche Ärzte bei mehreren komplexen klinischen Aufgaben mit realen Patientendaten übertroffen. Das getestete Modell, OpenAIs o1-preview, zeichnet sich dadurch aus, dass es eine interne Gedankenkette aufrechterhält – es kann also seine Überlegungen erklären und nicht nur eine Antwort liefern. Diese Transparenz ist entscheidend für klinisches Vertrauen und die Akzeptanz in der Praxis.

Die Forscher evaluierten o1-preview anhand von sechs ärztlichen Aufgabentypen und 143 anspruchsvollen klinischen Fällen aus dem <em>New England Journal of Medicine</em>. Das KI-System identifizierte die korrekte Diagnose irgendwo in seiner Differenzialdiagnose in 78,3% der Fälle und nannte sie als erste Wahl in 52% der Fälle. In einer Teilgruppe, bei der zuvor ärztliche Antworten erfasst worden waren, übertraf die KI die Ärzte sowohl bei der diagnostischen Genauigkeit auf dem ersten als auch auf dem zehnten Platz – ein bemerkenswertes Ergebnis.

Über die Diagnose hinaus bewies das Modell Stärke bei der Empfehlung nächster Schritte: Es wählte den korrekten diagnostischen Test in 87,5% der Fälle und erzielte nahezu perfekte 78 von 80 Punkten bei strukturierten klinischen Reasoning-Assessments – weit vor erfahrenen Ärzten und Assistenzärzten. Bei Behandlungsempfehlungs-Vignetten erreichte es einen Median von 89%, verglichen mit lediglich 34% bei Ärzten, die herkömmliche Ressourcen nutzten.

Ein Bereich, in dem Menschen bestehen konnten: die Identifizierung hochriskanter Diagnosen, die auf keinen Fall übersehen werden dürfen. Die KI zeigte hier keinen nennenswerten Vorteil, was darauf hindeutet, dass die klinische Intuition des Menschen in bestimmten Hochrisikoszenarien weiterhin einen Beitrag leistet. Bedenken hinsichtlich des Auswendiglernens wurden ausgeräumt, indem die Leistung bei Fällen verglichen wurde, die vor und nach dem Trainings-Cutoff des Modells veröffentlicht wurden – ohne signifikante Unterschiede.

Für gesundheitsbewusste Menschen ist die praktische Schlussfolgerung bedeutsam: KI-Diagnosetools nähern sich der Genauigkeit ausgebildeter Ärzte an – und übertreffen diese in einigen Bereichen bereits. Patienten mit komplexen, ungelösten oder seltenen Erkrankungen könnten schon bald von KI-gestützten Zweitmeinungen profitieren. Wichtig zu beachten: Das getestete Modell ist bereits veraltet; aktuelle und zukünftige Modelle werden wahrscheinlich noch besser abschneiden und den Zeitplan für die reale klinische Integration beschleunigen.

Wichtigste Erkenntnisse

  • o1-preview correctly diagnosed complex clinical cases in 78.3% of trials, outperforming human physicians on accuracy
  • AI scored 78/80 perfect responses on structured clinical reasoning, far exceeding attending physicians and residents
  • Model recommended the correct diagnostic test in 87.5% of real-world clinical cases
  • On treatment recommendations, AI scored 89% versus 34% for physicians using standard resources
  • Humans retained an edge only in identifying high-stakes cannot-miss diagnoses

Methodik

Dies ist eine Nachrichtenzusammenfassung einer in Science – einer erstrangigen Fachzeitschrift – veröffentlichten, von Experten begutachteten Studie, was ihr eine hohe Glaubwürdigkeit verleiht. Die Studie verwendete reale klinische Fälle aus dem NEJM und verglich KI mit dokumentierten Antworten menschlicher Ärzte, wobei Kontrollen gegen Auswendiglernen angewendet wurden. Die Evidenzbasis ist solide, obwohl der Artikelinhalt abgeschnitten wurde, bevor vollständige Angaben zur Methodik verfügbar waren.

Studienlimitierungen

Der Artikel wurde gekürzt, sodass eine vollständige Beurteilung der Methodik und statistischen Details nicht möglich war. Das getestete Modell, o1-preview, ist bereits veraltet, weshalb die Ergebnisse möglicherweise nicht die aktuellen KI-Fähigkeiten widerspiegeln. Der reale klinische Einsatz ist mit regulatorischen, haftungsrechtlichen und integrationsbezogenen Herausforderungen verbunden, die in dieser Zusammenfassung nicht behandelt werden.

Hat dir diese Zusammenfassung gefallen?

Erhalte die neueste Longevity-Forschung jede Woche in deinen Posteingang.

E-Mail-Adresse zum Abonnieren eingeben: