Oxford alerta sobre riesgos de usar ChatGPT como médico

La investigación revela que la IA no mejora las decisiones clínicas y puede fallar en reconocer urgencias médicas.

La inteligencia artificial se ha convertido en una herramienta habitual para millones de personas que buscan respuestas rápidas sobre casi cualquier tema, incluida la salud. Sin embargo, una investigación reciente de la Universidad de Oxford advierte que confiar en modelos como ChatGPT para obtener orientación médica puede generar errores, confusiones e incluso riesgos para los pacientes.

Imagen ilustrativa generada por IA

El estudio, publicado en la revista científica Nature Medicine, analizó el impacto real de los modelos lingüísticos de gran escala (LLM) cuando son utilizados para interpretar síntomas y orientar decisiones médicas. Aunque estos sistemas suelen destacar en pruebas académicas y benchmarks técnicos, su desempeño cambia cuando interactúan con personas reales en situaciones complejas.

La investigación fue liderada por el Oxford Internet Institute junto al Departamento Nuffield de Ciencias de la Salud de Atención Primaria. También participaron organizaciones internacionales especializadas en evaluación tecnológica. El objetivo fue evaluar si la inteligencia artificial realmente mejora la toma de decisiones médicas frente a métodos tradicionales como búsquedas en internet o el criterio clínico profesional.

Para ello, casi 1.300 médicos participaron en un experimento con escenarios clínicos simulados. Los casos incluían situaciones variadas: dolores de cabeza intensos después de una noche de consumo de alcohol, agotamiento persistente en madres recientes, síntomas ambiguos que podrían asociarse tanto a condiciones leves como graves, entre otros ejemplos cotidianos.

Un grupo de participantes utilizó sistemas de inteligencia artificial para decidir el curso de acción. El otro grupo recurrió a búsquedas convencionales o a su propio juicio profesional sin apoyo de IA.

Los resultados fueron reveladores: el uso de modelos como ChatGPT no produjo decisiones clínicas superiores. En algunos casos, las recomendaciones fueron imprecisas o ambiguas, especialmente cuando el modelo no recibió información suficientemente detallada.

Una de las principales conclusiones del estudio es que existe una brecha significativa entre el rendimiento que muestran los modelos de IA en exámenes estandarizados y su comportamiento en entornos reales. En pruebas técnicas, estos sistemas pueden responder correctamente a preguntas estructuradas. Pero la medicina no es un examen de opción múltiple: requiere interpretación contextual, comprensión emocional, identificación de señales de alarma y evaluación de urgencia.

Imagen ilustrativa generada por IA

Los investigadores detectaron que la inteligencia artificial puede fallar en reconocer cuándo una situación necesita atención médica inmediata. Este punto es especialmente delicado, ya que una recomendación errónea o tardía podría retrasar el tratamiento adecuado.

La doctora Rebecca Payne, médica de cabecera y una de las responsables del estudio, señaló que los modelos actuales no están preparados para sustituir la consulta médica profesional. Según explicó, el riesgo no está solo en que la IA se equivoque, sino en que el usuario interprete su respuesta como un diagnóstico definitivo.

Otro hallazgo importante fue que muchos participantes no sabían qué información específica debían proporcionar al modelo para obtener una respuesta precisa. La calidad de la respuesta depende en gran medida de cómo se formula la pregunta. Cuando los datos ingresados eran incompletos o ambiguos, la IA generaba recomendaciones mezcladas o poco claras.

Esto revela una limitación fundamental: la interacción humano-máquina no siempre es intuitiva. Mientras que un médico puede repreguntar, observar lenguaje corporal o detectar inconsistencias en el relato del paciente, un modelo de lenguaje depende estrictamente del texto que recibe.

Andrew Bean, autor principal del estudio, destacó que los sistemas actuales se evalúan principalmente mediante pruebas de referencia diseñadas para medir precisión técnica, pero no para simular conversaciones reales con usuarios diversos. Según su análisis, es necesario diseñar ensayos más rigurosos que reproduzcan escenarios del mundo real antes de considerar estos sistemas como herramientas seguras en entornos médicos.

Otro de los investigadores, el profesor Adam Mahdi, sostuvo que los estándares de validación para la inteligencia artificial en salud deberían asemejarse a los de los medicamentos o dispositivos médicos. Es decir, someterse a pruebas clínicas exhaustivas antes de su implementación masiva.

El estudio también pone sobre la mesa una cuestión cultural. Muchas personas recurren a internet para buscar síntomas antes de consultar a un profesional. La IA puede parecer una versión más sofisticada de esa práctica, pero su aparente autoridad y coherencia lingüística pueden generar una falsa sensación de seguridad.

Imagen ilustrativa generada por IA

El problema no es que la inteligencia artificial carezca de potencial. De hecho, los investigadores reconocen que puede desempeñar un papel valioso como herramienta de apoyo en la práctica clínica, ayudando a organizar información, resumir datos o asistir en tareas administrativas. Sin embargo, la frontera entre apoyo y sustitución es delicada.

En medicina, el contexto importa. El historial del paciente, las condiciones preexistentes, la interpretación de pruebas físicas y la experiencia clínica no pueden reducirse únicamente a patrones estadísticos aprendidos por un modelo.

El informe concluye que, mientras no existan validaciones más sólidas y ensayos en condiciones reales, los pacientes deberían evitar depender exclusivamente de la inteligencia artificial para resolver dudas médicas. La consulta profesional sigue siendo la vía más segura.

La advertencia de Oxford se suma a un debate global sobre el uso responsable de la inteligencia artificial en sectores sensibles. A medida que estas tecnologías se integran en la vida cotidiana, surge la necesidad de establecer límites claros, estándares de seguridad y mecanismos de supervisión.

La inteligencia artificial puede ofrecer información general y facilitar el acceso al conocimiento, pero no reemplaza la experiencia clínica, la evaluación personalizada ni la responsabilidad ética que implica la práctica médica.

En un entorno donde la tecnología avanza con rapidez, el desafío no es solo innovar, sino hacerlo con prudencia. El entusiasmo por la IA debe ir acompañado de rigor científico y validación empírica.

La conclusión es clara: la inteligencia artificial puede complementar, pero no sustituir, el consejo médico profesional. Al menos, no todavía.