El almacén invisible que guarda datos genómicos de un millón de personas

El Archivo Europeo de Genomas y Fenomas, que dispone de 16 petabytes de datos de salud muy sensibles para investigación científica, está custodiado en el superordenador MareNostrum de Barcelona y en Cambridge

El superordenador MareNostrum, ubicado en las instalaciones del Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS).Carles Ribas

Jessica Mouzo

Barcelona - 23 sept 2022 - 05:20CEST

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

En un cruce de caminos entre dios y la ciencia, bajo los muros de una antigua capilla que hoy cobija uno de los superordenadores más potentes de Europa, se custodian los datos genómicos y de salud de más de un millón de personas de todo el mundo. Es el Archivo Europeo de Genomas y Fenomas (EGA, por sus siglas en inglés), una información extremadamente sensible que permanece guardada, a disposición de la comunidad científica y bajo estrictas medidas de seguridad, en una especie de almacén invisible dentro del superordenador MareNostrum del Barcelona Supercomputing Center. La organización, la custodia y la gestión de esos datos, de los que hay otra copia en Cambridge, han permitido el acceso más eficiente a información sanitaria muy delicada para desarrollar miles de estudios científicos y ensayos clínicos en todo el mundo. Y la rueda no para de girar: siguen sumándose datos, investigaciones y evidencia sin parar.

Ese almacén invisible es inmenso. Ocupa 16 petabytes en el MareNostrum, explica Arcadi Navarro, líder del equipo EGA en el Centro de Regulación Genómica, una de las organizaciones que custodia el acceso a estos datos: “Todos los libros catalogados que se han escrito desde el principio de la humanidad ocupan 500 terabytes. Un petabyte es el doble de eso. Así que este repositorio es más de 30 veces todos esos libros”, ejemplifica. En el Instituto Europeo de Bioinformática EMBL, en Cambridge (Reino Unido), se guarda otra copia de toda esta información, por si acaso. “Lo hacemos por si hay un terremoto en uno de los dos sitios, para que no se pierdan los datos”, bromea Navarro.

Todo comenzó por la necesidad de compartir. La explosión de la investigación genómica desde finales de los años 2000 cristalizó las dificultades de la comunidad científica para reutilizar ese tipo de datos moleculares entre los investigadores, recuerda Navarro: “Los científicos creían que podrían compartir estos datos, pero se dieron cuenta de que no, porque con los datos genómicos se puede identificar fácilmente a los ciudadanos. Con la imagen de una radiografía, por ejemplo, se borra el nombre, y puedes anonimizarla. Pero el genoma, por su propia naturaleza, no es anonimizable”.

De ahí surgió la idea de crear un repositorio para custodiar y compartir, con altos niveles de seguridad, esta clase de información de salud tan sensible. Estados Unidos creó su infraestructura y Europa, por su parte, lo hizo con la EGA, cogestionada por el EMBL y el CRG en Barcelona. La plataforma europea recopila datos genómicos y de salud procedentes de 5.600 trabajos científicos que han ido dejando su información disponible en ese almacén invisible: son datos de secuencias de ADN e información de salud que los investigadores envían al repositorio para poder compartirlos, de forma segura, con otros científicos que los necesiten.

En el EGA, hay, sobre todo, datos de estudios vinculados a temas oncológicos, pero también sobre enfermedades cardiovasculares o inflamatorias. Sus datos han servido para identificar variantes genéticas de enfermedades ultrarraras o la predisposición genética a sufrir determinados tumores. Hay información de más de un millón de personas, 500.000 ya son solo del proyecto UK Biobank (una base de datos con información genética de medio millón de participantes del Reino Unido). A septiembre de 2022, 23.000 científicos de 58 países habían tenido acceso a esta base de datos para sus investigaciones.

Vista de las instalaciones del superordenador MareNostrum.Carles Ribas

El protocolo para solicitar este tipo de información es muy estricto, explica Navarro. “No se lo damos a cualquiera que lo pida desde el garaje de su casa. Damos un acceso controlado. Por ejemplo, si un investigador de Japón contacta con nosotros para pedir unos datos, tenemos que garantizar que cumpla los requisitos que cumplieron los investigadores que crearon esos datos”, concreta. Debe tener una institución científica solvente detrás, garantizar sus fines científicos, tener el aval de un comité de ética… Una vez asegurada la fiabilidad y motivación del demandante de los datos, se le hacen llegar de forma encriptada, sin que nadie por el camino pueda interceptarlos y leerlos.

Navarro define al EGA como un “acelerador de la información”. En lugar de que un científico vaya puerta a puerta de cada centro de investigación para pedirle determinados datos de un estudio, que esa institución valore y verifique la demanda y la solvencia del investigador para compartir los datos, el EGA hace todo ese proceso de forma más eficiente.

Alta seguridad

La clave, además, son los altísimos niveles de seguridad: “Tenemos 300 ciberataques a la hora y nunca hemos tenido ningún problema”, resume Navarro. Alfonso Valencia, director del Departamento de Ciencias de la Vida del Barcelona Supercomputing Center-Centro Nacional de Supercomputación, apunta que estos datos “están mucho más seguros que los datos de un banco. Los datos del EGA están encriptados, tienen un código y necesitas una clave. Aunque alguien hackeara el BSC, que es muy difícil, no vería nada porque toda la información está encriptada”, agrega. Y el contrato con los investigadores recoge que analicen los datos compartidos en un entorno seguro y se deshagan de ellos cuando terminen de utilizarlos, “no se los pueden quedar para emplearlos con otros fines a los solicitados”, explica.

El EGA está entrando ahora en una nueva fase que hará evolucionar la plataforma a una especie de repositorio federado entre varios países. “En la práctica, para compartir datos genómicos, por las leyes de protección de datos de los países, es más lógico que los datos estén en los países de origen y no salgan de ahí”, explica Valencia. Algunos países han empezado a desarrollar programas de medicina personalizada y generar grandes cantidades de datos que, por la gobernanza y la legislación interna de cada país con este tipo de información sensible, el modelo de EGA no permitía aprovechar al máximo esta información. Por eso y para facilitar la transferencia de información entre la comunidad científica en una era de creación ingente de datos de este calibre y sensibilidad, se han puesto en marcha varios nodos en otros países, como Finlandia, Suecia, Noruega o Alemania, para custodiar los datos genómicos que genere cada país y poder compartirlos siguiendo la metodología tradicional de EGA.

Puedes seguir a MATERIA en Facebook, Twitter e Instagram, o apuntarte aquí para recibir nuestra newsletter semanal.

Alta seguridad

Archivado En