La búsqueda para recuperar al mamut ha dado un paso más recientemente con el desarrollo de un nuevo ratón.

Detrás del logro revolucionario de Colossal Biosciences se encuentra una creciente infraestructura informática que apunta a llevar el ADN al mundo digital.

Esta semana, la empresa de biotecnología anunció que había creado una nueva especie, el ratón lanudo, modificando genéticamente óvulos fertilizados de ratón y células madre embrionarias de ratón para imitar los rasgos de un mamut lanudo.

Woolly mammoth model at the Royal BC Museum in Victoria
– Thomas Quine

Esta exitosa prueba es parte de un primer paso hacia la recreación del mamut, o al menos de un híbrido entre elefante asiático y mamut lanudo, cuya primera cría se espera para finales de 2028.

"No estamos introduciendo secuencias de ADN gigantescas en ratones", explica Beth Shapiro, directora científica de Colossal Biosciences, a DCD. "Hay 200 millones de años de distancia evolutiva entre ellos, así que no tiene mucho sentido hacerlo así".

En cambio, buscamos variantes donde sabemos que un cambio particular en el genoma del ratón da lugar a un ratón sano y feliz, con un rasgo particular que nos interesa. Y luego combinamos todo eso y creamos estos ratones ultralanudos basándonos en una variación existente en ratones.

La nueva creación tiene pelo lanudo y células grasas más adecuadas para las frías tundras que alguna vez sirvieron de hogar al mamut.

Clonar el mamut es imposible. Lo que queda del mamífero gigante se encuentra en fragmentos, ecos del pasado. En lugar de una réplica completa, Colossal busca reconstruir el ADN de otros animales junto con lo que queda, creando criaturas completamente nuevas.

La idea es editar el ADN para incluir rasgos de otras especies, creando así un ser parecido a un mamut.

La compañía está adoptando un enfoque similar en su esfuerzo por resucitar al tilacino, más comúnmente conocido como tigre de Tasmania.

Aunque este marsupial carnívoro se parece superficialmente a los perros y a los zorros, su pariente vivo más cercano es en realidad el dunnart de cola gruesa, un pequeño marsupial parecido a un ratón que vive en el sur de Australia.

"El tilacino tiene 70 millones de años de divergencia genética con respecto a su pariente vivo más cercano", afirma Ben Lamm, cofundador y director ejecutivo de Colossal. La empresa podría, en cambio, tomar prestada información de una familia completamente diferente para ayudar a cubrir las lagunas.

Lo interesante es que, si observas el cráneo de un tilacino y el de un lobo, se ven prácticamente iguales. A menos que sepas exactamente qué buscas, si solo observas el cráneo, se ven casi idénticos, salvo por estos detalles mínimos. Y eso se debe a un proceso que conocemos en la ciencia como evolución convergente.

Colossal espera aprovechar el ADN del lobo, editándolo para eliminar esas diferencias y acercarlo a lo que era antes. "No pretendemos clonar estas especies, pero a medida que realizamos modificaciones en nuestro mamut, nuestro tilacino y nuestro dodo, queremos realizar cada vez más secuenciación y genómica comparativa", afirma Lamm.

"Hemos construido este macrogenoma en caninos y lobos para poder comprender las modificaciones de la morfología craneofacial que ya estamos realizando en nuestros tilacinos".

El proceso de genómica comparativa puede requerir cientos de miles de ediciones, explica Lamm, por lo que la empresa espera ampliar su comprensión de los macrogenomas a través de fenotipos similares en otras especies. "Eso requiere aún más recursos computacionales", añade.

Diría que cuanto mejor seamos en el análisis computacional, cuanto más hagamos y cuanto más dinero gastemos, menos ediciones tendremos que hacer. Por lo tanto, en ese ejemplo craneofacial, ahora tenemos una lista de unas 450 ediciones que creemos que impulsan el hipercarnivorismo craneofacial fundamental, lo que resultará en un fenotipo similar al del tilacino.

Los fenotipos son la forma en que los genotipos (ADN) se expresan en el mundo real, una vez que un ser se expone a su entorno. «Queremos comprender plenamente la expresión genotipo-fenotipo», afirma Lamm.

Esto significa que la empresa no solo analiza los remanentes de especies extintas y sus parientes vivos más cercanos, sino que "profundiza y amplía mucho más este tema", afirma. "El siguiente paso es preguntarse: '¿Qué otras especies, a pesar de tener grandes distancias de divergencia genética en el árbol filogenético, tenían características similares? ¿Podemos construir macrogenomas a partir de ellas y luego realizar este trabajo comparativo de genomas?'"

A medida que la empresa incrementa su recopilación de ADN y otros datos genéticos, las necesidades de almacenamiento se han disparado. Colossal almacena actualmente alrededor de 3,8 petabytes de datos, y se prevé que esta capacidad aumente significativamente a medida que se añadan más especies. Además, se acumulan muchos datos inútiles durante el proceso.

"Almacenamos una gran cantidad de datos que quizá no sean necesarios", afirma Shapiro. "Pero mapear genomas es increíblemente difícil: si secuencio miles de millones de fragmentos de ADN de un hueso de mamut, y cada uno de ellos son cadenas de datos, muchos de ellos no serán elementos que realmente nos interesen".

En ese mismo hueso se encuentra ADN de microbios, hongos y bacterias, junto con otros datos no relacionados. «Tenemos que guardar un genoma en la memoria y luego mapear cada uno de estos elementos a ese genoma y ver qué sucede. Y creamos una serie de archivos intermedios para realizar estas tareas. Eso supone una gran cantidad de datos».

Thylacinus.width-358
– EJ Keller Baker

Gestionar todos estos datos y convertirlos en algo utilizable no habría sido posible con la automatización y el aprendizaje automático, afirma Lamm. «Ahora estamos desarrollando proyectos que tardarán entre tres y cinco años, pero que, sin este cómputo, tardarían 50 años o nunca».

La empresa ha desarrollado herramientas de diseño de guías de asistencia y otros modelos de aprendizaje automático, pero actualmente no utiliza mucho la IA generativa. «George Church [cofundador y genetista principal] y yo hemos estado conversando mucho sobre la IA generativa en biología», afirma Lamm, «pero algunas de las afirmaciones que han surgido... no sé si las acepto, porque la biología y el software funcionan de forma muy diferente a la simulación».

Para su propio trabajo de simulación y almacenamiento, Colossal utiliza actualmente Google Cloud, Amazon Web Services y algunos recursos de computación internos. Pero a medida que sus ambiciones crezcan, también lo harán sus necesidades de alojamiento de datos.

Además de la desextinción, la empresa espera involucrarse en la conservación, construyendo Arcas de Noé con datos genéticos sobre los animales que están en riesgo de desaparecer.

"Ahora estamos trabajando en un proceso modelo para determinar cómo creemos que es mejor optimizar el almacenamiento para múltiples especies en peligro crítico de extinción, y realizando un estudio de genética poblacional para que podamos contar con todo ese análisis y comprender la diversidad genética y la deriva genética dentro de una especie de microcosmos de la población", dice Lamm.

La empresa planea construir bóvedas biológicas que "combinarán software real, almacenamiento en la nube y almacenamiento en húmedo, de modo que sean accesibles para los investigadores". Además, debido a la cantidad de datos que tendremos, también incluirán almacenamiento en frío, para no tener que llegar a un billón de petabytes.

Eso implicaría operar su propio servicio en la nube para investigadores y ampliar su capacidad de computación. "Tendremos que construir esos centros de datos específicos", afirma Lamm. "Creo que tendremos que participar en esa negociación de compra".

Los avances computacionales previstos de las GPU y aceleradores más recientes acelerarán el trabajo de la empresa. «Una computación más rápida y potente acortará nuestros plazos al permitir más iteraciones de diseño en silicio antes de pasar al trabajo de laboratorio», afirma Lamm.

Esto abarca desde el ensamblaje del genoma (en particular, del ADN antiguo, donde los fragmentos de ADN preservados son extremadamente cortos), donde chips más avanzados permitirían reconstrucciones más precisas e iteraciones más rápidas, hasta la guía del diseño para la edición genética mediante simulaciones más complejas que predicen efectos no deseados y resultados fenotípicos. Nuestra investigación sobre el desarrollo de úteros y embriones artificiales también se beneficiaría de un mejor modelado de la biología del desarrollo y de la IA adaptativa.

La empresa podría beneficiarse de otros avances menos seguros. «Cada dos años, todos oímos hablar de la mítica computación cuántica», afirma Lamm. «No creo que lleguemos a ese punto [pronto], pero con el tiempo lo lograremos. Y creo que el acceso a la computación simultánea a esa escala también cambiará drásticamente los costos».

De igual forma, la empresa podría seguir el ejemplo de otros usuarios de computación a gran escala con necesidades muy específicas y fabricar su propio hardware. «Hemos tenido muchas conversaciones sobre ensamblaje y diseño de chips, en particular sobre la síntesis de ADN, pero existen numerosos problemas», explica Lamm. «Que el ADN frágil sobreviva y se ensamble es una cosa, pero que sea preciso es otra».

Mientras conversamos, Lamm enumera los múltiples desafíos técnicos del proceso tecnológico, así como las limitaciones fundamentales de los diferentes socios que trabajan en distintos aspectos del mecanismo de entrega. «Hay muchas innovaciones que deben surgir en ese ámbito», afirma.

La semana pasada, Lamm asistió a una reunión sobre diseño de arquitectura de chips específicamente para la síntesis de ADN, revela. "Creo que, para todo lo que tengamos que ejecutar a largo plazo, probablemente usaremos productos estándar, o alguna versión modificada de estos o de la nube, a menos que decidamos profundizar en el enfoque de la síntesis de ADN para el mundo de la ingeniería".

Hay pocas empresas en este sector, afirma. "Todas tienen aproximadamente la misma escala y el mismo estándar en cuanto a su capacidad de producción. Así que la pregunta es: ¿Compramos una de ellas? ¿Trabajamos con ellas o nos dedicamos a la arquitectura nosotros mismos? Quiero esperar a ver cómo se calma la situación el próximo año".

De manera similar, en cuanto al almacenamiento, DCD postuló que la experiencia de la compañía con el ADN podría hacerla más abierta a usarlo como medio de almacenamiento, como lo proponen compañías como Catalog y Biomemory.

"Sin duda, me intriga la idea de readaptar un sistema de almacenamiento de información con miles de millones de años de antigüedad para nuestras necesidades digitales modernas", afirma Lamm. "El almacenamiento de datos de ADN ofrece una densidad y durabilidad teóricas notables, lo que lo hace atractivo para fines de archivo, pero aún no hemos llegado a ese punto.

Somos excelentes leyendo ADN, pero el proceso de escritura aún es propenso a errores, aunque sigue mejorando. También me preocupa un poco la velocidad de codificación/decodificación, por lo que creo que es más prometedora para aplicaciones especializadas de archivo a largo plazo que para el almacenamiento informático general.

Por ahora, sin embargo, estas ideas siguen siendo preocupaciones futuras, ya que la compañía ya está centrada en su propia tarea colosal. "No queremos realizar experimentos con elefantes si podemos evitarlo", dice Shapiro. "Cuando empecemos a trabajar con elefantes, queremos tener la mayor cantidad de información posible antes de comenzar cualquier trabajo de ese tipo. Además, los elefantes tienen una gestación de 22 meses, por lo que no sería un proceso rápido probar estas hipótesis".

Así que nos fijamos en un pariente del elefante: el ratón. Y así fue como obtuvimos al ratón lanudo.