La fragilidad de la información científica en la incierta situación actual
La descentralización de los datos emerge como un elemento crucial en el panorama internacional actual, marcado por la incertidumbre y la volatilidad

En un contexto internacional inestable, la retirada de información de salud pública por los Centros para el Control y la Prevención de Enfermedades de EE.UU (CDC) o la reciente caída de los servidores del Instituto Nacional de Salud (NIH), sin una clara explicación, podrían no sorprender, pero son hechos graves que parecen indicar un cambio drástico en el ecosistema de datos y nos llevan a replantear la como la información biológica y médica está organizada. Esta inquietante situación no se limita a este ámbito. En el área de clima, por ejemplo, los recientes despidos en agencias estadounidenses dedicadas a la monitorización del cambio climático han evidenciado cómo la dependencia de sistemas centralizados pone en riesgo información crucial en dominios que van desde al estudio del clima, la preparación para nuevas pandemias o el avance en el tratamiento de enfermedades.
En biología y biomedicina, el conocimiento acumulado durante décadas está contenido en cientos de miles de publicaciones, bases de datos y repositorios especializados. Los CDC, por ejemplo, albergan información crítica sobre vigilancia de enfermedades, tasas de vacunación, brotes epidemiológicos y directrices de salud pública, incluyendo datos sobre salud femenina y desigualdades en el acceso a la sanidad. Durante la pandemia de COVID-19, los datos proporcionados por los CDC fueron esenciales para rastrear la propagación del virus y guiar las políticas de salud.
Por su parte, PMC/PubMed, producido por la Biblioteca Nacional de Medicina (NLM) del Instituto de Salud americano (NIH), almacena resúmenes y publicaciones científicas indispensables para planear e interpretar nuevos experimentos. Sin embargo, estos recursos únicos, producidos por instituciones gubernamentales, son vulnerables a intervenciones políticas, como hemos visto recientemente.
Un modelo alternativo lo ofrecen bases de datos organizadas en torno a colaboraciones internacionales. UniProt es una base de datos global que recopila y organiza información sobre proteínas, las moléculas que realizan la mayoría de las funciones en nuestros cuerpos, desde digerir alimentos hasta combatir infecciones. Por otro lado, PDB (Protein Data Bank) se especializa en almacenar las estructuras tridimensionales de estas proteínas, lo que permite a los científicos visualizar cómo funcionan a nivel molecular. La información en estas bases de datos es fundamental para desarrollar nuevos medicamentos, como vacunas o tratamientos para el cáncer, e incluso para diseñar proteínas que resuelvan problemas acuciantes, como la descomposición de plásticos
Estas bases de datos no solo son fundamentales para el progreso científico en muchas dimensiones, incluido ser instrumentales para el desarrollo de sistemas inteligencia artificial en biología y medicina. Por ejemplo, los sistemas de IA que ganaron el Premio Nobel de Química en 2021—por predecir con precisión la estructura de las proteínas y como modificarlas—se entrenaron utilizando la información abierta y gratuita proporcionada por UniProt y PDB. Sin estos datos, avances como este no habrían sido posibles.
Más cercano a nosotros, el European Genome-Phenome Archive (EGA), es una base de datos almacena información sobre genomas humanos—por ejemplo, derivados del estudio de miles de casos de cáncer—y es considerada de máximo valor a nivel mundial. EGA es gestionada conjuntamente por el Centro de Regulación Genómica (CRG) y el Laboratorio Europeo de Biología Molecular (EMBL-EBI), con datos almacenados en el Barcelona Supercomputing Center (BSC) y el propio EMBL-EBI.
Un ejemplo más cercano es el European Genome-Phenome Archive (EGA), una base de datos esencial a nivel mundial que almacena información sobre genomas humanos—el conjunto completo de genes que definen nuestras características biológicas. Por ejemplo, EGA contiene datos derivados del estudio de miles de casos de cáncer, lo que permite a los investigadores identificar mutaciones genéticas asociadas con esta enfermedad. Esta base de datos es gestionada de manera colaborativa por el Centro de Regulación Genómica (CRG) y el Laboratorio Europeo de Biología Molecular (EMBL-EBI), con datos almacenados en el Barcelona Supercomputing Center (BSC) y el propio EMBL-EBI. Esta base de datos ocupa 16PB, que es equivalente a unos 3 billones de canciones almacenadas en formato MP3.
Estos ejemplos ilustran una alternativa viable: un modelo basado en la colaboración internacional. Este enfoque no solo garantiza el acceso a la información incluso si uno de los nodos falla, sino que también mejora la resiliencia, fomenta la cooperación global y promueve el acceso abierto a la ciencia. Además, permite que los socios se especialicen en aspectos tecnológicos concretos, mejorando los procesos de acceso a la información sin crear dependencias irreversibles.
La descentralización se revela como un elemento crucial en el panorama internacional actual, marcado por la incertidumbre y la volatilidad. Sin embargo, no está exenta de desafíos. Requiere acuerdos internacionales y marcos de gobernanza robustos para garantizar que los datos sigan siendo accesibles y estén bien gestionados. También exige inversiones sostenidas, que, en cualquier caso, serán menores que el costo de la pérdida de datos que acabe siendo devastador para la investigación biomédica y la salud pública.
Un ejemplo destacado de colaboración internacional es la incorporación esta misma semana de Canadá al consorcio europeo, con España, Finlandia, Alemania, Noruega, Suecia, Polonia y Portugal, que gestiona la versión federada de la base de datos EGA. La versión federada del EGA es un ejemplo de cómo la tecnología puede adaptarse a las normativas de privacidad, como lo que entran en vigor con el nuevo espacio Europeo de datos médicos (European Health Data Space, EHDS). En este sistema, los datos genómicos de cada país se almacenan localmente, sin salir de sus fronteras, pero pueden ser analizados de manera conjunta gracias a un software especializado. Estos sistemas de datos y análisis federado permiten a los investigadores de diferentes países trabajar con los mismos datos de manera simultánea y segura, sin comprometer la privacidad de los individuos cuyos genomas están siendo estudiados. Este enfoque es esencial para el tratamiento de datos sensibles, como los genómicos, clínicos o de imagen médica.
Los acontecimientos recientes demuestran que Europa no puede dar por sentado el acceso a la información científica. Es imperativo completar los sistemas y procesos que eviten dependencias críticas, adoptando tecnologías que permitan la creación de entornos colaborativos y descentralizados. Bases de datos como PDB o EGA federada marcan el camino a seguir para que la ciencia siga siendo libre, abierta y resiliente frente a las circunstancias políticas. Este esfuerzo no solo beneficiará la investigación científica y la salud pública, sino que también impulsará el progreso social.
Alfonso Valencia es Profesor ICREA en el Departamento de Ciencias de la Vida del Barcelona Supercomputing Center.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.