Las fascinantes dificultades del genoma humano

Los científicos intentan descifrar la información contenida en la molécula de la herencia

La publicación en febrero de 2001 de las letras del genoma humano fue sólo el principio de la labor. Era un borrador en el que los científicos siguen encontrando errores, quedaba una parte que no había sido secuenciada y faltaba la interpretación de la información. Matemáticas y computadoras, unidas en la bioinformática, ayudan ahora en ese trabajo.

E l análisis de la información contenida en el genoma humano está resultando más difícil de lo que se pensaba. Pero los científicos están encantados con un momento de la investigación biológica que describen como 'fascinante'. Cada etapa del...

Suscríbete para seguir leyendo

Lee sin límites

La publicación en febrero de 2001 de las letras del genoma humano fue sólo el principio de la labor. Era un borrador en el que los científicos siguen encontrando errores, quedaba una parte que no había sido secuenciada y faltaba la interpretación de la información. Matemáticas y computadoras, unidas en la bioinformática, ayudan ahora en ese trabajo.

'No sabemos aún el número de genes, quizás sólo conocemos entre el 70% y el 80%'.

E l análisis de la información contenida en el genoma humano está resultando más difícil de lo que se pensaba. Pero los científicos están encantados con un momento de la investigación biológica que describen como 'fascinante'. Cada etapa del análisis del genoma desvela problemas muy complejos. Y al mismo tiempo se abre la puerta a retos nuevos, como el de desentrañar las decenas de miles de interacciones entre las proteínas en una célula. 'Esto ha sido el sueño de la biología, y por primera vez parece posible', dice Alfonso Valencia, del Centro Nacional de Biotecnología (CNB) y co-organizador del congreso sobre bioinformática celebrado la semana pasada en la Fundación BBVA, en Madrid.

'Una cosa es secuenciar el genoma y otra encontrar las variaciones entre personas; necesitas secuencias de calidad suficiente para distinguir los errores de lo que son realmente variaciones. Luego hay que encontrar los genes, y sus variaciones; y hay que saber qué hace la proteína que sintetiza ese gen, y cómo se relaciona con las demás proteínas. Todo este trabajo se desarrolla en paralelo. Hay grupos trabajando en cada cosa', dice Valencia.

Pavel A. Pevzner (Universidad de California, en San Diego) desarrolla ensambladores, programas informáticos que montan las secuencias de genoma sueltas, como si armaran un rompecabezas. Para explicar el funcionamiento de su ensamblador, llamado Euler, Pevzner hace referencia a problemas matemáticos clásicos como el de los siete puentes o el del viajante. Hoy existen varios ensambladores, pero según Pevzner ninguno es capaz de resolver un 5% del genoma que aún falta por secuenciar. 'Costará mucho más ensamblar este 5% que el 95% restante', dice. Y en algunas de las regiones que faltan se sabe que hay genes relacionados con enfermedades. 'Para ensamblar estas regiones será necesario desarrollar un nuevo algoritmo. Es tan difícil porque son regiones muy repetitivas y no hay puntos de referencia. Pasa con los rompecabezas: los de dibujo variado son fáciles de armar, pero es muy difícil ensamblar un cielo', continúa.

La identificación de genes en la parte secuenciada también 'va más despacio de lo que estimamos al principio', dice Roderic Guigó, del Institut Municipal d'Investigació Mèdica, en Barcelona, y coorganizador del congreso. Aunque se sabe que el número de genes ronda los 33.000, 'no sabemos aún el número preciso, quizás sólo conocemos entre el 70% y el 80%'. Y de ellos, 'sólo de unos 10.000 sabemos cómo son realmente'. La cosa se enrevesa aún más al constatarse la caída de lo que hasta hace poco era un dogma en biología: que a un gen corresponde la síntesis de una única proteína. 'Vemos que la mayor parte de genes codifican para más de una proteína. Y por ahora sólo sabemos para muy pocos genes el patrón completo de proteínas que producen', señala Guigó.

Una vez identificado un gen y la proteína que sintetiza, hay que conocer la estructura de esas proteínas; es decir, los investigadores saben la hilera de aminoácidos que componen las proteínas, pero no cómo se pliegan para que la proteína adquiera su forma tridimensional. Es importante porque la forma de una proteína determina su interacción con otras y por tanto su función. Y el problema está en que no se conoce o no hay una fórmula con la que traducir ristras de aminoácidos en plegamientos. A falta de ella se recurre a estrategias indirectas, como comparar las secuencias huérfanas de estructura con otras de estructura conocida, almacenadas en bases de datos.

También este problema resulta más complejo de lo esperado. Antes se creía que si se resolviera la estructura de 10.000 proteínas distintas se tendría una representación de todas las familias, los grandes tipos, de formas. Pero no. Según Valencia, se cree que hay unas 100.000 proteínas en que la relación entre su secuencia y su estructura no se parece a ninguna otra.

A la hora de determinar la función de las proteínas el problema es similar. 'Estamos viendo que deducir la función a partir de la estructura es muy complicado', dice Valencia. 'Estructuras parecidas pueden hacer cosas muy distintas, y esto complica mucho la predicción'. Su grupo ha calculado cuántos errores se pueden cometer al asumir que estructuras parecidas implican funciones parecidas. Les sale que a más del 40% de similitud de secuencia se conserva sólo el 60% de parecido de función. Otros grupos han hecho el mismo cálculo y el resultado oscila entre conservación del 30% del parecido y el 80%.

Pero el gran tema del momento es el de las interacciones entre proteínas. Porque, de nuevo, una proteína ya no se asocia a una sola función. Una misma proteína puede producir muerte o división celular, según sus interacciones con otras proteínas. Conocer la red de interacciones no será fácil, pero es el sueño de un biólogo y empieza a vislumbrarse la posibilidad de cumplirlo.

Se estima que en una célula de levadura cada proteína interacciona con otras seis o siete, lo que da unas 50.000 interacciones en un ciclo celular. Probablemente serán más en células de seres pluricelulares. Hay ya diversos métodos para desentrañar estas interacciones, y lo primero que muestran es que 'alrededor del 60% de los complejos que encontramos son nuevos, no teníamos ni idea de que esas proteínas estuvieran asociadas', dice Valencia.

Son métodos nuevos que cometen errores, pero bastan para deducir que lo que se sabe hoy sobre las rutas bioquímicas en una célula es una fracción ínfima de lo que ocurre realmente. 'Pero lo vamos a conocer. Ahora cada técnica cubre una parte pequeña de las interacciones, pero entre todas pensamos que cubren el mapa completo. Es lo que se llama biología de sistemas: tenemos el mapa de interacciones y se trata de ver cómo funciona en marcha, cómo se mueve. Es un problema nuevo, fascinante y complejo', explica Valencia. Ya hay una gran base de datos de interacciones de proteínas propiedad de un consorcio público canadiense, y otras dos bases más pequeñas en EE UU y en Italia. El grupo de Valencia participa en un proyecto europeo para crear otra.

Guigó comparte el entusiasmo, pero advierte: 'Ser capaz de reproducir interacciones celulares de una célula eucariota no es cosa de años, sino de décadas. Es la biología de todo un siglo'.

Sentados, de izquierda a derecha, Roderic Guigó, Pavel Peuzner y Temple Smith. De pie, Alfonso Valencia.CLAUDIO ÁLVAREZ

Un sector económico cambiante

La complejidad del análisis del genoma, ¿está teniendo repercusiones económicas en un sector en crecimiento explosivo hace dos años? 'Las empresas de genómica se inflaron a finales de los noventa porque hubo un boom respecto al provecho que las farmacéuticas obtendrían a partir de la información del genoma en un plazo razonable', responde Alfonso Valencia. 'Quizá no fuera realista, pero eso no quiere decir que no estemos en la época más apasionante, económica y científicamente, de la biología. Las farmacéuticas siguen invirtiendo muchísimo en genómica'. El propio Valencia y su colega Roderic Guigó han creado una empresa de bioinformática en España, lo mismo que otros de sus colegas. Según Valencia, la gran mayoría de los asistentes al congreso investigan y tienen o participan en empresas. Pero según Pavel A. Pevzner y Temple Smith, también es cierto que las empresas pioneras en genómica, como Celera e Incyte, han tenido que reorientar su negocio. 'La base de datos de Incyte no contiene muchas diferencias respecto a la base de datos pública, de acceso gratuito. Hizo mucho dinero al principio, pero ni esta compañía ni ninguna de las que han tratado de hacer dinero sólo con los datos o con el software han tenido éxito', dice Smith. 'Incyte ha tenido algunos problemas ahora; Celera se dedica a la búsqueda de nuevos fármacos; Double Quest acaba de salir del mercado. Lo que pasa es que en un sector que cambia tan rápido no es bueno invertir sólo en software. Microsoft ha hecho dinero porque Word no ha cambiado mucho, pero en genómica se desarrollan ensambladores nuevos con estrategias nuevas de modo rapidísimo'.

Archivado En