800 ordenadores aceleraron la recta final

Deprisa, deprisa. Si en algo se ha distinguido PE Celera Genomics desde que hiciera su aparición en el aún confuso mundo de la genómica, es en dar sentido al nombre escogido para la compañía. "Los descubrimentos no pueden esperar", es el lema, a modo de reto, de la empresa que dirige Craig Venter. Un desafío que sólo puede entenderse por su afán por ser el primero en llegar a la meta. Y para ello, nada mejor que el más moderno y veloz de los bólidos de la era informática.La apuesta de Venter para lograr ser el primero en secuenciar el genoma humano se basó en un diseño abierto en el que ha jugado un papel esencial un entramado de secuenciadores robotizados, potentes ordenadores trabajando en paralelo y enormes bases de datos, algo así como un gigantesco almacén informático sobre el que construir su base de negocios futuros, además de una red de telecomunicaciones para dar salida a sus logros.

A este diseño "acorde con los nuevos tiempos", según el propio Venter, Celera sumó una aproximación al genoma similar en la forma, pero distinta en el fondo, a la empleada por el consorcio público Proyecto Genoma Humano. Poseedores de una potencia tecnológica que se resume en cerca de 300 kilómetros de fibra óptica y otros tantos de cable de cobre convencional que interconectan a casi 800 ordenadores, los científicos de Celera optaron por trocear la larga cadena de DNA en tantos fragmentos como sus máquinas fueran capaces de leer. El método, denominado gráficamente shotgun, permitió leer la friolera de unos tres millones de fragmentos de ADN.

Recomposición

La crítica no se hizo esperar. ¿Cómo recomponer tantos fragmentos en su orden exacto? La respuesta la dio Venter con Drosophila melanogaster, la popular mosca del vinagre. En un tiempo récord, y acompañado esta vez de investigadores de centros públicos de todo el mundo, publicaba en la revista Science el pasado mes de abril la secuencia completa del genoma de la mosca, su ensamblado y la predicción de los poco más de 19.000 genes que lo componen. Empleó el mismo método y el grado de confianza otorgado a los resultados mereció el aplauso de la comunidad científica a pesar de los 1.200 agujeros que dejó por rellenar.

La secuenciación de los tres millones de fragmentos en que habían convertido el genoma humano también se realizó en tiempo récord. Según datos de la compañía, los secuenciadores robotizados empleados en el proceso tienen capacidad para efectuar 300.000 reacciones químicas con las que generar 150 millones de pares de bases. A esta velocidad, bastaron siete meses para leer los algo más de 3.000 millones de pares de bases que forman el genoma humano o, en términos de tecnologías de la información, un larguísimo código compuesto por nada menos que 6.000 millones de letras. La lectura de esas letras fue posible gracias al uso de unos 600 ordenadores facilitados por la empresa informática Compaq dotados con dos procesadores Alfa cada uno. Todos ellos trabajando en paralelo para lograr un conjunto que alcanza una potencia de cálculo de 1,4 teraflops (1,4 billones de operaciones de coma flotante), la mayor hasta la fecha en el campo de la genómica y entre las mayores en el ámbito de las aplicaciones civiles.

Pero esas letras, las cuatro bases que dan forma al código genético (G, C, A y T, las iniciales de guanina, citosina, adenina y timina), responden a unas reglas del juego muy precisas. Primero, se agrupan en pares, siempre los mismos; cada tres pares se combinan para codificar cada uno de los 20 aminoácidos que existen en un organismo como el humano; y unos cuantos cientos de aminoácidos son lo que acaban formando una proteína, la cual no es otra cosa que la expresión de un gen. Para identificar las decenas de miles de genes que forman el genoma humano es preciso ordenar correctamente todas las letras. Es lo que técnicamente recibe el nombre de secuenciación y ensamblaje.

Para el ensamblaje hay que superar al menos dos escollos. Por una parte, los muchos agujeros que quedan por rellenar. En el genoma de Celera ni más ni menos que 40.000. Entre ellos, no obstante, se duda que pueda haber información relevante para sus intereses. Más allá de los agujeros, queda por ver hasta qué punto la recomposición de fragmentos va a ser fiable. Para que las secuencias ensambladas se den como seguras se ha considerado hasta ahora, y así se defiende desde el consorcio público, que a cada fragmento deben superponérsele otros diez. Dicho de otro modo, debe haberse fragmentado y secuenciado el genoma unas diez veces de promedio y luego superponer los fragmentos para comprobar si coinciden las secuencias obtenidas.

Celera Genomics considera que una superposición de cinco veces, la mitad, es suficiente. Para ello cuenta con un novedoso algoritmo diseñado por Eugene Myers que complementa los programas utilizados desde el otro bando, el consorcio público, que son fundamentalmente, PHRET, PHRAP y GAP, el software más extendido entre los grupos de secuenciación y ensamblaje de genomas, y a los que, según afirma el propio Myers, se ha logrado superar en eficacia.

Logrado el ensamblaje, queda un tercer trabajo pendiente, para la gran mayoría el más importante. Lo que realmente cuenta en opinión de los expertos es qué hacer con la secuencia, es decir, cómo traducir los 6.000 millones de G, T, C y A en genes y determinar posteriormente su función. Y, hacerlo rápido para que las multimillonarias inversiones efectuadas hasta la fecha tengan sentido.

El primer límite para predecir genes, explica Roderic Guigó, investigador del Instituto Municipal de Investigaciones Médicas (IMIM) de Barcelona y experto en bioinformática, es localizar la pequeña franja codificante del genoma, estimada entre un 2% y un 5%. Quiere ello decir que entre un gen y otro hay largas secuencias intergénicas que no se traducen de ninguna forma y cuya función es por ahora irrelevante o desconocida. Y dentro de cada gen hay que distinguir todavía entre dos áreas: los exones, que reunidos determinan la expresión de una proteína, y los intrones, pequeñas secuencias de valor igualmente nulo o desconocido.

"Los programas predictores pretenden ver cómo se traducen las secuencias de exones en proteínas", continúa. Por tanto, deben identificar primero las secuencias que definen a los genes y descartar el resto, prácticamente el 95%. En el mercado, señala el experto, existen una veintena de programas predictores, cada uno de los cuales se basa en una aproximación distinta. Todos ellos emplean tres fuentes de información básicas. La primera consiste en emular los pasos que da la célula en su proceso de expresión del DNA. "La célula sabe leer la secuencia" explica Guigó, y lo hace a partir de una serie de señales que determinan cuándo un gen debe o no activarse. Estas señales, añade, se encuentran en los límites de exones e intrones. Una segunda fuente es la periodicidad de determinadas secuencias. "En las regiones que no codifican, la secuencia es más aleatoria", indica. Finalmente, se recurre a bases de datos que contienen regiones ya identificadas.

Los programas combinan las tres fuentes empleando para ello sistemas de reglas, redes neuronales, inteligencia artificial, modelos estadísticos y, más recientemente, métodos lingüísticos. En todos los casos de lo que se trata es, a partir de miles de millones de letras - G, T, C y A-, componer primero sílabas, los 20 aminoácidos que, combinados, darán palabras y frases, los genes y su expresión en forma de proteínas.

Archivado En