A busca para trazer de volta o mamute ficou mais perto esse mês com o desenvolvimento de um novo rato.

Por trás da conquista revolucionária da Colossal Biosciences está uma crescente infraestrutura de computação que visa trazer o DNA para o mundo digital.

No começo de março a empresa de biotecnologia anunciou que havia criado uma nova espécie, o rato peludo, com a empresa modificando geneticamente óvulos de camundongos fertilizados e células-tronco embrionárias de camundongos para imitar características de um mamute lanoso.

O bem-sucedido teste é parte de um primeiro passo para recriar o mamute, ou pelo menos um mamute peludo híbrido de elefante asiático, com o primeiro filhote esperado para o final de 2028.

"Não estamos colocando sequências de DNA de mamute em camundongos", disse Beth Shapiro, diretora científica da Colossal Biosciences, à DCD. "Há 200 milhões de anos de distância evolutiva entre eles, então não faz muito sentido fazer dessa maneira.

"Em vez disso, estamos procurando variantes em que sabemos que uma mudança específica no genoma do camundongo leva a um camundongo saudável e feliz que tem uma característica específica na qual estamos interessados. E então combinamos tudo isso e criamos esses camundongos ultra peludos com base em uma variação que existe em camundongos.

A nova criação tem pelo comprido e células de gordura mais adequadas para as tundras frias que antes serviam de lar para o mamute.

Clonar o mamute é impossível. O que resta do mamífero gigante encontra-se em fragmentos, ecos do passado. Em vez de uma réplica completa, a Colossal pretende juntar o DNA de outros animais junto com o que resta, criando novas criaturas por inteiro.

A ideia é editar o DNA para incluir características de outras espécies, construindo um projeto para um ser parecido com um mamute.

Woolly_mammoth_mice.width-358
Três ratos peludos – Colossal Biosciences

A empresa está adotando uma abordagem semelhante em seu esforço para ressuscitar o tilacino, mais comumente conhecido como lobo-da-Tasmânia.

Enquanto o marsupial carnívoro superficialmente se assemelha a cães e raposas, seu parente vivo mais próximo é na verdade o dunnart de cauda gorda parecido com um rato, um pequeno marsupial que vive no sul da Austrália.

"O lobo-da-tasmânia tem 70 milhões de anos de divergência genética entre seu parente vivo mais próximo", diz Ben Lamm, cofundador e CEO da Colossal. Em vez disso, a empresa pode pedir emprestado a uma família totalmente diferente para ajudar a preencher as lacunas.

"O que é interessante é que, se você olhar para um crânio de lobo-da-tasmânia e olhar para um crânio de lobo, eles parecem praticamente iguais. A menos que você saiba exatamente o que está procurando, se estiver apenas olhando para o crânio, eles parecem quase idênticos, exceto por essas coisas muito, muito pequenas. E isso se deve a um processo que conhecemos na ciência chamado evolução convergente”.

A Colossal espera desenvolver o DNA do lobo, editando-o para remover essas diferenças e se aproximar do que já foi. "Não estamos tentando clonar essas espécies, mas à medida que fazemos edições para nosso mamute, nosso tilacino e nosso dodô, queremos fazer continuamente mais e mais sequenciamento e genômica comparativa", diz Lamm.

"Construímos esse macrogenoma em caninos e lobos para que possamos entender as edições da morfologia facial craniana que já estamos fazendo em nossos tilacinos".

O processo de genômica comparativa pode levar "centenas de milhares de edições", explica Lamm, então a empresa espera construir sua compreensão dos macrogenomas em fenótipos semelhantes em outras espécies. "Isso requer ainda mais computação", acrescenta.

"Eu diria que quanto melhor formos em análise computacional, e quanto mais fizermos, e quanto mais dinheiro gastarmos, menos edições teremos que fazer. E assim, nesse exemplo craniano facial, agora temos uma lista de cerca de 450 edições que acreditamos impulsionar o hipercarnismo craniano central, o que resultará em um fenótipo semelhante ao de um tilacino”.

Os fenótipos são como os genótipos (DNA) realmente se expressam no mundo real, uma vez que um ser foi exposto ao seu ambiente. "Queremos realmente entender a expressão do genótipo para o fenótipo", diz Lamm.

Isso significa que a empresa não está apenas analisando os remanescentes de espécies extintas e seus parentes vivos mais próximos, mas "indo muito mais fundo e mais amplo nisso", diz ele. "O próximo passo é dizer: 'que outras espécies, embora tenham grandes distâncias de divergência genética na árvore filogenética, tinham características semelhantes? E podemos construir macrogenomas entre eles e depois fazer esse genoma comparativo funcionar?'".

À medida que a empresa aumenta sua coleta de DNA e outros dados genéticos, as necessidades de armazenamento aumentam. Atualmente, a Colossal armazena cerca de 3,8 petabytes de dados, com a expectativa de que isso se expanda significativamente à medida que mais espécies forem adicionadas. Há também muitos dados inúteis que são aspirados como parte do processo.

"Estamos armazenando muitos dados que talvez não sejam necessários", diz Shapiro. "Mas mapear genomas é incrivelmente desafiador - se eu sequenciar bilhões de fragmentos de DNA de um osso de mamute, e cada um deles for uma sequência de dados, muitos deles não serão coisas nas quais estamos realmente interessados".

Nesse mesmo osso está o DNA de micróbios, fungos e bactérias, juntamente com outros dados não relacionados. "Temos que manter um genoma na memória e, em seguida, mapear cada uma dessas coisas para esse genoma e ver o que está acontecendo. E criamos vários arquivos intermediários fazendo essas coisas. Isso é uma tonelada de dados".

Thylacinus.width-358
– EJ Keller Baker

Gerenciar todos esses dados e transformá-los em algo utilizável não teria sido possível com automação e aprendizado de máquina, diz Lamm. "Agora estamos produzindo projetos que levarão de três a cinco anos, mas levariam 50 anos ou nunca sem essa computação".

A empresa desenvolveu ferramentas de design de guia assistiva e outros modelos de aprendizado de máquina, mas atualmente não está usando muita IA generativa. "[O cofundador e geneticista-chefe] George Church e eu temos conversado muito sobre IA generativa em biologia", diz Lamm, "mas algumas das alegações que surgiram ... Não sei se compro isso, porque a biologia e o wetware funcionam de maneira muito diferente das coisas apenas em uma simulação”.

Para seu próprio trabalho de simulação e armazenamento, a Colossal atualmente usa o Google Cloud, Amazon Web Services e alguns computadores internos. Mas, à medida que suas ambições crescem, também aumentam suas necessidades de hospedagem de dados.

Juntamente com a reversão da extinção, a empresa espera se envolver na conservação, construindo Arcas de Noé com dados genéticos sobre os animais que correm o risco de desaparecer.

"Agora estamos trabalhando em um processo de modelo l de como achamos que é melhor otimizar o armazenamento de várias espécies criticamente ameaçadas e fazendo um estudo de genética populacional para que possamos ter toda essa análise, para entender a diversidade genética e a deriva genética dentro de uma espécie de microcosmo da população", diz Lamm.

A empresa planeja construir cofres biológicos que "terão uma combinação de wetware real e armazenamento úmido e armazenamento baseado em nuvem, e para que sejam acessíveis aos pesquisadores". Além disso, por causa da "quantidade de dados que teremos, ele também terá um componente de armazenamento a frio, para que não tenhamos um trilhão de petabytes".

Isso significaria operar seu próprio serviço de nuvem para pesquisadores e expandir sua própria computação. "Teremos que construir esses data centers específicos", diz Lamm, "acho que teremos que estar nessa conversa de compra".

Os avanços de computação esperados das GPUs e aceleradores mais recentes estão definidos apenas para acelerar o trabalho da empresa. "A computação mais rápida e poderosa comprimirá nossa linha do tempo, permitindo mais iterações de design em silício antes de passar para o trabalho de laboratório úmido", diz Lamm.

"Isso se estende desde a montagem do genoma (em particular para DNA antigo, onde os fragmentos de DNA preservados são super curtos), onde chips melhores permitiriam reconstruções mais precisas e iterações mais rápidas, para orientar o design para edição de genes por meio de simulações mais complexas que preveem efeitos fora do alvo e resultados fenotípicos. Nossa pesquisa de desenvolvimento de útero artificial e embrião também se beneficiaria de uma modelagem aprimorada da biologia do desenvolvimento e da IA adaptativa”.

A empresa poderia se beneficiar de outros avanços menos certos. "A cada dois anos, todos nós ouvimos sobre a mítica computação quântica", diz Lamm. "Não acho que chegaremos lá [em breve], mas eventualmente chegaremos lá. E acho que o acesso à computação simultânea nessa escala também mudará drasticamente os custos".

Da mesma forma, a empresa poderia seguir o caminho de outros usuários de computação em larga escala com necessidades muito específicas e fazer seu próprio hardware. "Tivemos muitas conversas sobre montagem e design de chips, especificamente em torno da síntese de DNA, mas há muitos problemas", explica Lamm. "Ter DNA frágil sobrevivendo e montado é uma coisa, mas também tê-lo preciso é outra".

Enquanto conversamos, Lamm lista vários desafios técnicos e esotéricos do processo tecnológico, bem como as restrições fundamentais de diferentes parceiros que trabalham em diferentes aspectos do mecanismo de entrega. "Há muitas inovações que precisam vir nessa área", diz ele.

No final de fevereiro, Lamm participou de uma reunião sobre design de arquitetura de chip especificamente para síntese de DNA, revela ele. "Acho que muito provavelmente, para tudo o que teremos que executar a longo prazo, usaremos apenas a prateleira, ou alguma versão modificada na prateleira ou na nuvem, a menos que decidamos ir muito mais longe na abordagem de síntese de DNA para um mundo de engenharia".

Existem apenas algumas empresas neste espaço, diz ele. "Eles estão todos aproximadamente na mesma escala e estão aproximadamente no mesmo padrão em termos do que podem produzir. Então a questão é: compramos um deles? Nós apenas trabalhamos com eles ou entramos na arquitetura nós mesmos? Quero esperar e ver onde parte desse tipo de poeira assenta no próximo ano".

Da mesma forma, no lado do armazenamento, a DCD postulou que a experiência da empresa com o DNA poderia torná-la mais aberta a usá-lo como meio de armazenamento, conforme proposto por empresas como a Catalog e a Biomemory.

"Certamente estou intrigado com a ideia de redirecionar um sistema de armazenamento de informações de bilhões de anos para nossas necessidades digitais modernas", diz Lamm. "O armazenamento de dados de DNA oferece notável densidade e durabilidade teórica de dados, tornando-o atraente para fins de arquivamento, mas ainda não chegamos lá”.

"Somos ótimos em ler DNA, mas o processo de escrita ainda é muito propenso a erros, embora continue a melhorar. Também me preocupo um pouco com a velocidade de codificação/decodificação, e é por isso que acho que é mais promissor para aplicativos de arquivamento especializados de longo prazo, em vez de armazenamento de computação geral".

Por enquanto, no entanto, essas ideias continuam sendo preocupações futuras, com a empresa já focada em sua própria tarefa gigantesca. "Não queremos fazer nenhum experimento com elefantes se pudermos evitá-lo", diz Shapiro. "Quando começamos a trabalhar com elefantes, queremos ter o máximo de informações possível antes de começarmos a fazer qualquer trabalho como esse. Além disso, os elefantes têm uma gestação de 22 meses, então não seria um processo rápido testar essas hipóteses”.

"Então, olhamos para um parente do elefante - o rato. E foi assim que conseguimos o rato peludo”.