La inteligencia artificial acierta como médicos de élite en algunas cuestiones de salud

Los ingenieros de Google, que han desarrollado la tecnología, no prevén que se usen de forma autónoma o reemplazando a los especialistas

La tecnología ha dado un acceso al autodiagnóstico médico sin precedentesMonika Skolimowska (picture alliance/Getty Images)

En Desmontando a Harry, Woody Allen define la única prioridad de casi todo el mundo que se cree enfermo: “Las palabras más bonitas en inglés no son ¡te quiero!, sino ¡es benigno!”. Desde hace años, ante las dudas de salud, mucha gente acude a Google para diagnosticarse. Con frecuencia, lo que obtienen es más ansiedad con la que después tienen que lidiar sus médicos. Ahora, la compañía, a través de la que muchos se informan, se orientan en las ciudades o reservan para cenar, puede mejorar su ...

Suscríbete para seguir leyendo

Lee sin límites

En Desmontando a Harry, Woody Allen define la única prioridad de casi todo el mundo que se cree enfermo: “Las palabras más bonitas en inglés no son ¡te quiero!, sino ¡es benigno!”. Desde hace años, ante las dudas de salud, mucha gente acude a Google para diagnosticarse. Con frecuencia, lo que obtienen es más ansiedad con la que después tienen que lidiar sus médicos. Ahora, la compañía, a través de la que muchos se informan, se orientan en las ciudades o reservan para cenar, puede mejorar su posición como fuente de información ante estas preguntas existenciales a través de modelos de inteligencia artificial con los que responder de forma precisa a preguntas sobre cuestiones médicas.

En un artículo que se publica hoy en la revista Nature, un equipo de la compañía muestra los resultados de su trabajo con Med-PaLM, un modelo de inteligencia artificial generativa similar a ChatGPT, que se alimenta de grandes bases de datos y logra organizar esa información para dar respuestas con sentido, aunque no siempre verdaderas. La segunda versión de esta tecnología, Med-PaLM 2, ya logra una precisión del 86,5% en exámenes tipo test como los que deben superar los médicos en el MIR, un incremento del 19% comparado con la versión anterior, presentada en este artículo.

En el trabajo aparecido hoy, los autores, miembros en su mayoría de Google Research, prueban sus modelos en grandes bases de datos de preguntas y respuestas médicas que incluyen también más de 3000 de las preguntas más buscadas por usuarios en internet. Según cuenta por correo electrónico Shek Azizi, una de las autoras del artículo, la evolución de los resultados “ha pasado en tres meses de un rendimiento de aprobado raspado a nivel experto” en los tests que miden su capacidad de respuesta a estas cuestiones. Un panel de médicos estimó que el 92,9% de las respuestas de formato largo generadas por Med-PaLM coincidían con el consenso científico, ligeramente por encima del 92,6% de las respuestas dadas por médicos humanos. Cuando se comparó el número de respuestas que pueden provocar resultados dañinos, las máquinas ganaron, con un 5,8% frente al 6,5% de los médicos. Aunque los datos son prometedores, los autores afirman que se necesita más investigación para llevar estos modelos a los centros sanitarios y Azizi dice que no prevén “que estos sistemas se usen de forma autónoma o reemplazando a los médicos”.

Josep Munuera, director de Radiodiagnóstico del Hospital de la Santa Creu i Sant Pau de Barcelona y experto en tecnologías aplicadas a la salud, cree que estos modelos pueden ser útiles, pero advierte de que “el trabajo de los médicos no solo consiste en responder a preguntas” como las que se presentan a estos modelos. “Es necesaria la exploración o atender al lenguaje no verbal para ofrecer un diagnóstico”, apunta. Después, tecnologías como la desarrollada por Google pueden servir para aliviar la carga de trabajo, elaborando un informe comprensible para el paciente o un plan terapéutico. “También puede ser útil como apoyo pasa dar ideas sobre un diagnóstico o ayudando a buscar información científica en grandes bases de datos”, apunta. “Pero después, necesitamos el humano que comprueba lo que propone la IA y también que se haga responsable de la decisión”, concluye. “Lo que hacen los médicos es multifacético, de amplio alcance y profundamente dependiente de la interacción humana. Nuestro objetivo es emplear la IA para aumentar la capacidad de los médicos de proporcionar un mejor tratamiento”, coincide Azizi.

En una entrevista en EL PAÍS, la científica del MIT y experta en IA aplicada a la medicina, Regina Barzilai, advertía de que las máquinas, que aprenden por su cuenta a partir de las pautas que se les ofrecen, pueden superar a los humanos en algunas habilidades y “nuestra capacidad para ver si están haciendo algo mal es mínima”. “Tenemos que aprender a vivir en este mundo en el que la tecnología toma muchas decisiones que no podemos supervisar”, advertía. Cualquiera que haya utilizado ChatGPT habrá comprobado la capacidad de estos sistemas para generar respuestas totalmente verosímiles y salpicadas de falsedades que, precisamente por estar bien expresadas, son más difíciles de detectar. Azizi, como Barzilai, sabe que algunas de las respuestas que nos dan las máquinas pueden ser correctas, pero que no sepamos exactamente de dónde vienen, algo que en asuntos tan delicados como los médicos puede generar inseguridad.

En algunas aplicaciones de esta tecnología, que no incluyan el diagnóstico de enfermedades de pacientes, sino la búsqueda de conocimiento, las alucinaciones, como se conocen los partes inventadas en los textos generados por la IA, pueden no ser un problema. “Las alucinaciones y la creatividad son dos caras de la misma moneda y algunas aplicaciones, como el reposicionamiento de fármacos o el descubrimiento de asociaciones entre genes y enfermedades, necesitan cierto grado de creatividad, que, a su vez, hace posible el proceso de descubrimiento e innovación”, explica Azizi.

José Ibeas, nefrólogo del Hospital Parc Taulí de Sabadel y secretario del Grupo de Big Data e Inteligencia Artificial de la Sociedad Española de Nefrología, considera que este tipo de tecnologías son el futuro y serán muy útiles para mejorar el tratamiento médico, pero cree que aún queda que aprender. “Por ejemplo, sacan la información de fuentes de mucha calidad, pero no todas las publicaciones son iguales y muchas veces faltan publicaciones de datos negativos, de experimentos en los que se prueba algo y no se obtiene el resultado esperado. La IA construye un texto a partir de esos textos, pero no sé qué ingredientes ha tomado de cada tipo de artículo y eso puede provocar sesgos”, apunta Ibeas. “Un mismo tratamiento puede ser útil para un grupo de población con una enfermedad en un entorno concreto y no serlo para otro grupo de población”, ejemplifica.

De momento, para Ibeas, este tipo de modelos pueden ser un recurso para los médicos, pero en el futuro se deberá comprobar su utilidad, como se hace con otros productos médicos antes de la aprobación, “comparando los resultados de los médicos en la práctica habitual con los que utilicen esta tecnología”. El especialista plantea también que se deberá ser cuidadoso con la aplicación de esta tecnología, que se entrene a los médicos en su utilización y que se emplee en los casos en que va a ser útil de verdad y no suceda “como con algunos productos muy buenos en medicina, que por una presión comercial para aplicarlos a todo el mundo se produzcan errores y se acabe perdiendo la posibilidad de utilizar una tecnología muy útil”.

Un último aspecto que tendrá relevancia en el uso de estos modelos generativos del lenguaje será la posibilidad de dar acceso a respuestas de calidad a muchas personas que no tienen acceso a ella. Los propios autores señalan que sus comparaciones, en los que la IA sale ya muy bien parada, se hicieron con expertos de altísimo nivel. Algunos médicos muestran la preocupación porque esta posibilidad suponga una excusa para recortar los recursos dedicados a sanidad, aunque reconozcan la utilidad de modelos como Med-PaLM en estos contextos.

Puedes seguir a EL PAÍS Salud y Bienestar en Facebook, Twitter e Instagram.

Más información

Archivado En