Longevity & AgingComunicado de prensa

La IA de razonamiento supera a los médicos humanos en diagnóstico en un estudio histórico

El modelo o1-preview de OpenAI superó a los médicos en casos clínicos complejos, elevando el listón de la medicina asistida por inteligencia artificial.

martes, 5 de mayo de 2026 0 visualizaciones
Publicado en Lifespan.io
Article visualization: Reasoning AI Beats Human Doctors at Diagnosis in Landmark Study

Resumen

Un riguroso estudio publicado en *Science* evaluó el modelo de IA de razonamiento o1-preview de OpenAI frente a cientos de médicos en casos clínicos reales de alta complejidad. La IA superó a los médicos en precisión diagnóstica, solicitud de pruebas y razonamiento clínico en múltiples tipos de tareas. Identificó correctamente el diagnóstico en el 78% de los casos más difíciles y obtuvo una puntuación casi perfecta en las evaluaciones de razonamiento estructurado. Si bien el modelo utilizado ya está desactualizado —las versiones más recientes deberían rendir aún mejor—, los hallazgos marcan un punto de inflexión para la IA en la medicina. Para las personas preocupadas por su salud, esto sugiere que las herramientas de IA podrían ofrecer pronto una segunda opinión de real valor o ayudar a detectar diagnósticos que los médicos pasan por alto, especialmente en casos de enfermedades complejas o poco frecuentes.

Resumen detallado

La inteligencia artificial ha prometido durante mucho tiempo transformar la medicina, pero un nuevo estudio publicado en Science marca un hito genuino: un modelo de IA de razonamiento ha superado a médicos humanos en múltiples tareas clínicas complejas utilizando datos reales de pacientes. El modelo evaluado, o1-preview de OpenAI, destaca por mantener una cadena de pensamiento interna, lo que significa que puede explicar su razonamiento en lugar de limitarse a producir una respuesta. Esta transparencia es fundamental para la confianza clínica y su adopción.

Los investigadores evaluaron o1-preview en seis tareas al estilo de un médico, utilizando 143 casos clínicos desafiantes del New England Journal of Medicine. La IA identificó correctamente el diagnóstico en su diagnóstico diferencial en el 78,3% de los casos y lo señaló como su primera opción en el 52% de los casos. En un subconjunto donde se habían registrado previamente las respuestas de médicos humanos, la IA superó a los médicos tanto en precisión diagnóstica de primera opción como de las diez primeras, un resultado notable.

Más allá del diagnóstico, el modelo destacó en la recomendación de los pasos a seguir. Seleccionó la prueba diagnóstica correcta en el 87,5% de los casos y obtuvo una puntuación casi perfecta de 78 sobre 80 en evaluaciones estructuradas de razonamiento clínico, muy por delante de médicos adjuntos y residentes. En viñetas de recomendación de tratamiento, obtuvo una mediana del 89%, frente a apenas el 34% de los médicos que utilizaban recursos convencionales.

Un área donde los humanos mantuvieron su posición fue la identificación de diagnósticos de alto riesgo que no se pueden pasar por alto. La IA no mostró ninguna ventaja significativa en este aspecto, lo que sugiere que la intuición clínica humana sigue siendo relevante en ciertos escenarios de alto riesgo. Las preocupaciones sobre memorización se abordaron comparando el rendimiento en casos publicados antes y después de la fecha de corte del entrenamiento del modelo, sin encontrar diferencias significativas.

Para las personas que buscan optimizar su salud, la implicación práctica es considerable. Las herramientas de diagnóstico con IA se están aproximando —y en algunos ámbitos superando— a la precisión de los médicos especializados. Los pacientes con enfermedades complejas, no resueltas o poco frecuentes podrían beneficiarse pronto de segundas opiniones asistidas por IA. Es importante señalar que el modelo evaluado ya está obsoleto; los modelos actuales y futuros probablemente tendrán un rendimiento aún mejor, lo que acelerará los plazos para su integración clínica en el mundo real.

Hallazgos clave

  • o1-preview correctly diagnosed complex clinical cases in 78.3% of trials, outperforming human physicians on accuracy
  • AI scored 78/80 perfect responses on structured clinical reasoning, far exceeding attending physicians and residents
  • Model recommended the correct diagnostic test in 87.5% of real-world clinical cases
  • On treatment recommendations, AI scored 89% versus 34% for physicians using standard resources
  • Humans retained an edge only in identifying high-stakes cannot-miss diagnoses

Metodología

Este es un resumen de un estudio revisado por pares publicado en *Science*, una revista de primer nivel, lo que le otorga una sólida credibilidad. El estudio utilizó casos clínicos reales del NEJM y comparó la IA con las respuestas documentadas de médicos humanos, con controles aplicados para descartar memorización. La base de evidencia es sólida, aunque el contenido del artículo fue truncado antes de que estuvieran disponibles los detalles completos de la metodología.

Limitaciones del estudio

El artículo fue truncado, por lo que no fue posible evaluar la metodología completa ni los detalles estadísticos. El modelo evaluado, o1-preview, ya está desactualizado, por lo que los resultados podrían no reflejar las capacidades actuales de la IA. La implementación clínica en entornos reales conlleva desafíos regulatorios, de responsabilidad legal y de integración que no se abordan en este resumen.

¿Te ha gustado este resumen?

Recibe la última investigación sobre longevidad en tu bandeja de entrada cada semana.

Introduce tu correo electrónico para suscribirte: