Esta característica durará 10.000 años. A los habitantes del año 12024 les deseamos que haya quedado algo más de nuestro tiempo que un solo artículo sobre centros de datos.
El futuro del pasado comienza en un sótano de Cambridge, Reino Unido. Robots con forma de cangrejo se desplazan a gran velocidad por raíles y se detienen de repente para recoger con cuidado pequeños platos con conocimientos grabados con láser, listos para llevarlos de vuelta a cámaras asistidas por IA.
Pero, a pesar de toda la maquinaria moderna, en el núcleo de esta biblioteca se encuentra una tecnología descubierta por primera vez hace unos 3.500 años, cuando los artesanos de las orillas del Tigris comenzaron a mezclar arena, soda y cal: el vidrio.
A lo largo de los siglos, el vidrio ha evolucionado para usarse como expresión de creatividad artística, ha traído luz a los hogares a través de ventanas y bombillas y, más recientemente, ha formado la columna vertebral de Internet en forma de fibra.
Ahora, podría tener otro uso: almacenar el conocimiento del mundo.
En un momento en el que producimos más datos que nunca, los centros de datos del planeta luchan por mantener el ritmo. Incluso si pudiéramos fabricar suficientes discos duros, unidades flash y cintas para almacenar todo, pronto necesitaríamos volver a trasladar los datos a medida que los equipos envejecen y comienzan a fallar.
Los discos duros suelen vivir entre tres y cinco años, los SSD tienen suerte si llegan a los 10, y la cinta se vende con promesas de entre 15 y 30 años, pero sólo mientras se controlen cuidadosamente la temperatura y la humedad.
En esta era, la más registrada, los datos se perderán porque las empresas y los gobiernos deciden no almacenarlos debido al costo o simplemente no hacen la transición cuando sus dispositivos envejecen.
En busca del tiempo capturado
Hace más de una década, y a unos cien kilómetros al suroeste del sótano de cristal, los investigadores de la Universidad de Southampton descubrieron una propiedad del vidrio hasta entonces desconocida: el uso de pulsos de una longitud de femtosegundos podía dejar deformaciones precisas, y cambiar la polarización del láser cambiaría la orientación de estas huellas.
Esto podría ser "leído" luego por un microscopio, interpretando las cicatrices en el vidrio como datos. La universidad demostró por primera vez un sistema de almacenamiento de vidrio de 300 KB en 2013, y desde entonces ha postulado un posible disco de 360 TB que duraría miles de millones de años.
Cuando se publicó por primera vez la investigación sobre la deformación del vidrio, Richard Black estaba intentando mejorar el almacenamiento en discos duros. "Estábamos trabajando en un sistema llamado Pelican, básicamente intentando conseguir el almacenamiento en discos duros más económico que se pueda imaginar", recuerda mientras almorzamos en la cafetería de Microsoft en Cambridge. "En aquel momento, había unos 24 discos duros en una instalación de 4U, y logramos colocar 1.152 discos duros de 3,5” en 52U".
El equipo de Black se centró en mantener bajos los costos, incluido el uso de energía: "Manteníamos las unidades funcionando lo más bajo posible y solo teníamos un ventilador para enfriar todo el sistema", dice.
“Fue un proyecto divertido y tuvo cierto impacto, pero nos dimos cuenta de que el problema estaba en el medio”.
Los discos duros cuestan demasiado, su vida útil es demasiado corta, “y una tasa de fallos anual del 3-5 por ciento significa que los discos duros fallan a un ritmo de uno por semana sólo en ese único rack”, afirma.
“Nos dimos cuenta de que, en el ámbito de los archivos, necesitábamos un medio mejor. Y luego, casi simultáneamente, Southampton publicó este artículo que decía: 'El cristal de vidrio modificado es inmutable'”.
Microsoft se asoció con Southampton para la primera iteración de lo que se conocería como Proyecto Silica, pero desde entonces ha seguido adelante por su cuenta.
Después de años en el laboratorio, la empresa se encuentra en las primeras etapas de pensar en implementar el producto a través de su nube Azure, en una medida que podría tener un profundo impacto en el almacenamiento de archivos, el diseño de centros de datos de almacenamiento en frío y cómo elegimos qué conservar para el futuro.
El bibliotecario
Black no deja de hablar. Estamos retrasados en nuestra visita al laboratorio de investigación del Proyecto Silica, ya que pasa de hablar de óptica y dispersión Rayleigh a almacenamiento RAID y a los costos de los láseres de femtosegundos.
"Siempre es emocionante hablar de tecnología", dice Black, sosteniendo suavemente en sus manos una versión más antigua del vidrio de cuarzo Silica, que a su vez contenía una copia completa de Microsoft Flight Simulator.
Pero, a pesar de toda la transparencia del medio y de la visita, Black no quiso revelar algunos detalles cruciales sobre la última versión de Silica, como su densidad, las velocidades actuales de lectura y escritura o incluso su tamaño exacto final. "Hemos tenido una serie de avances en los últimos años que no queremos que la gente conozca todavía", bromea.
Microsoft aceptó almacenar este artículo en Silica (junto con el resto del texto histórico de DCD y la publicación de revistas), pero nuevamente lo hizo en una versión anterior de la tecnología. La empresa no tiene la aprobación para copiar esta función.
Black nos dio unos 100 GB para jugar (Microsoft ya confirmó versiones de 4 TB y 7 TB), pero preguntar hasta dónde pueden llegar es la pregunta equivocada, afirma.
"Aumentamos mucho la densidad. Al final, la división de Azure nos pidió que paráramos", afirma.
Todo el mundo se centra en la densidad debido a tres factores, cree él: 1) Cuando la gente tiene que llevar un dispositivo consigo, piensa en cuánto puede caber en sus bolsillos, lo que no es una preocupación para los archivos; 2) A medida que los medios eventualmente mueren, cuando la gente los reemplaza quiere uno más grande; y 3) El coste.
Ese tercer punto es una parte fundamental del discurso de ventas que respalda el esfuerzo de investigación de Silica. Con discos duros, flash o incluso cintas, el medio es caro, y aún más costoso a largo plazo, cuando debe reemplazarse repetidamente.
Por otro lado, el vidrio es increíblemente barato y duradero. El sílice puede sobrevivir sin problemas a la cocción en un horno, al microondas, a la inundación, al fregado, a la desmagnetización o a la exposición a la humedad, y lo hará durante al menos 10.000 años. En esos plazos más largos, esto significa que puede sobrevivir a muchas posibles amenazas.
De manera más inmediata, esto también significa que no necesita ningún aire acondicionado costoso y de alto consumo de energía ni deshumidificadores para evitar que se pudra. Una vez que se han grabado los datos, el costo de Silica es "básicamente el espacio de almacenamiento", dice Black.
"Somos competitivos con Linear Tape-Open (LTO) en términos de densidad, y es por eso que Azure nos dijo: 'dejen de impulsar la densidad, impulsen otros aspectos del proyecto'".
Al igual que las cintas, pero a diferencia de los discos duros y los SSD, Silica también es un verdadero almacenamiento en frío. No requiere energía para mantenerlo en su estado de reposo. “Con el tiempo, cuando llegue el momento, sabremos cómo reciclar el vidrio”, afirma Black.
El principal costo sigue siendo el de los láseres de femtosegundos, que deben ser capaces de enviar pulsos de 10 a 15 segundos de duración, lo que genera nanoexplosiones inducidas por plasma que dejan burbujas microscópicas en el vidrio. Microsoft tiene la esperanza de que la tecnología siga la trayectoria de los láseres de nanosegundos y picosegundos y que su precio baje a medida que madure y se utilice más.
Incluso si el costo no disminuye drásticamente, la economía de la nube favorece a Silica. Black señala que Azure actualmente no vende almacenamiento por tipo de tecnología sino por "nivel".
La empresa podría simplemente vender el nivel de archivo, y Microsoft tendría "control total sobre cuándo realmente lo movemos de [almacenamiento más tradicional] a vidrio", dice Black, lo que permitiría a la empresa "programar eso de una manera que nos permita hacer funcionar a nuestros escritores a toda máquina", maximizando el uso de los costosos láseres.
Black nos lleva a ver una de las estaciones de escritura de datos basadas en láser. Está desplegada sobre una gran mesa; lentes y espejos sobresalen en diferentes ángulos, mientras que abundan las cámaras y los sensores. Por razones de seguridad, el láser no está funcionando mientras Black toca diferentes componentes (también es por eso que la tecnología nunca estará disponible para los consumidores).
La versión de producción será mucho más pequeña. Muchos de los sensores son solo para investigación y el sistema ha sido diseñado para que pueda actualizarse y modificarse rápidamente sobre la marcha.
“Cuando vi por primera vez HoloLens, era mucho más grande que esto”, dice Black, haciendo referencia al esfuerzo de la empresa por lanzar cascos de realidad mixta. “Microsoft tiene una unidad de negocios que se siente cómoda con la óptica”, agrega, sugiriendo que el equipo de HoloLens puede ayudar con la comercialización del equipo de Silica.
Si Black encendiera el láser, el rayo se dividiría en siete partes (este número difiere en la versión que no pudimos ver) que simultáneamente imprimirían datos en el cristal.
“Tenemos una cosa aquí llamada polígono”, explica. “En lugar de intentar hacer girar un trozo de vidrio, lo que hacemos en realidad es hacer girar la luz a través de él, un poco como un escáner de código de barras en la caja de un supermercado”.
El proceso comienza desde la base del plato, “de modo que siempre estás escribiendo a través de un cristal impecable y no captas ningún ruido”, dice Black. “Es como verter capas de cemento que se van llenando capa por capa hasta llegar a la parte superior”.
Cada pequeña burbuja es un vóxel que representa datos, y el láser tiene 180 grados de libertad para desarrollar espacios vacíos en diferentes orientaciones. “Si puedes diferenciar entre cuatro símbolos, puedes almacenar dos bits en un símbolo”, dice Black. “Si puedes diferenciar entre ocho símbolos diferentes, puedes almacenar tres bits en un símbolo”.
Southampton consiguió llegar a siete bits en un solo vóxel, “pero eso requiere una enorme cantidad de pulsos del láser y deja un gran brillo en el vidrio”, lo que reduce la velocidad de escritura y limita la cantidad de espacios vacíos que pueden caber en el plato.
“Entre dos y tres partes es donde queremos que queden esos pequeños y suaves moretones”, dice. “Se necesita solo una pequeña cantidad de energía para hacer cada uno, y puedes usar toda esa otra energía para hacer cientos de ellos simultáneamente, comprimiéndolos todos juntos”.
En una sala contigua, podemos ver esos vóxeles de cerca. Es otra gran mesa repleta de lentes, cables y aparatos exóticos. En el medio hay un cuadrado de vidrio, vigilado de cerca por una cámara situada al final de una serie de lentes y espejos.
“En esos dos milímetros de vidrio hay cientos de capas de datos”, explica Black. “Lo que hacemos es pasar el vidrio por el plano focal del microscopio. De esta manera, cuando se enfoca, se toman fotografías de los datos”.
La demostración se hace a menor velocidad para que nuestros ojos humanos puedan seguirla. El plato se mueve de modo que el sector correcto de datos esté en el campo de visión de la cámara y luego toma una foto tras otra de las diferentes capas de vóxeles.
Entendiendo la sílice
Esas imágenes son el primer paso para reconvertir los datos analógicos a sistemas digitales.
“Desde el comienzo del proyecto, vimos una oportunidad de aprovechar el aprendizaje profundo en la comprensión de imágenes y el procesamiento de señales”, nos dice Ioan Stefanovici, gerente principal de investigación del grupo de infraestructura en la nube.
“Descubrimos que el aprendizaje automático superaba sistemáticamente a todos los enfoques tradicionales de procesamiento de señales y obtenía resultados más rápidamente”.
Stefanovici añade que el uso de la inteligencia artificial acelerará el sistema final y permitirá iteraciones más rápidas durante la investigación. Y lo que es más importante, ayudará a la empresa a incluir más cosas en un solo disco, “porque es necesario escribir menos correcciones de errores, ya que la tasa de errores será menor”.
Entrenar a la IA fue, hasta cierto punto, fácil. Mientras que los modelos más grandes de hoy están poniendo a prueba los límites del conocimiento registrado para construir sus sistemas, el equipo de Silica tenía la envidiable posición de poder crear datos siempre que los necesitaba.
Si querían más imágenes de vóxeles en vidrio, simplemente tomarían otro plato con láser y lo colocarían en el microscopio. "Estamos en la posición única de poder crear tantos datos de entrenamiento como queramos", dice Stefanovici.
Todavía está por decidir dónde se ejecutará esa IA y si será en un ASIC personalizado o en algún otro lugar, pero el equipo quiere asegurarse de que cualquier IA futura pueda sobrevivir tanto como el propio vidrio.
“Con cada pieza de vidrio que escribimos, ponemos suficientes datos de entrenamiento para poder reconstruir el modelo si es necesario”, dice Black. “Se necesita una cantidad minúscula de datos adicionales. Y significa que, solo a partir de ese trozo de vidrio, puedes reconstruir tu modelo y realizar una decodificación”.
Stefanovici añade: “Cada pieza de vidrio se describe por sí sola, por lo que puedes empezar desde cero y recuperar tus datos de todas formas”.
Stefanovici se marcha para seguir trabajando en la IA y Black quiere destacar que no son los únicos creadores de esta tecnología. La empresa, dice, se ha apoyado en varias divisiones y especialidades diferentes para llevar a Silica hasta este punto.
Quizás no haya nada que muestre mejor las diferentes disciplinas en juego que los robots en el sótano.
Lo primero que llama la atención de ellos es su velocidad. Lo segundo que llama la atención es su forma.
Entre los biólogos evolucionistas existe un chiste que dice que, con el tiempo, todo se convierte en cangrejo. El zoólogo inglés Lancelot Alexander Borradaile fue el primero en advertir el proceso de carcinización, acuñando el término en 1916.
En al menos cinco casos diferentes, especies distintas han evolucionado por separado hasta convertirse en criaturas parecidas a cangrejos. Con estos robots, tenemos un sexto caso.
Bots por bits
Hay varios de ellos.
Corren a lo largo de raíles, con las piernas en forma de gancho colgando de un raíl arriba y abajo. Uno se detiene, con una pinza en su lado derecho extendiéndose con cuidado para recuperar suavemente un plato de sílice para llevarlo a una unidad de lectura basada en microscopio.
Luego se suelta del riel que tiene encima y sus pies con ruedas se extienden hacia el aire. Todo el sistema da un vuelco. Ha bajado un peldaño y lo que eran sus pies inferiores ahora están en lo alto.
Esto permite que un pequeño número de robots sirvan filas y filas de platos de sílice, subiendo y bajando por los estantes en busca del trozo de vidrio adecuado. Si un robot falla, otro puede reemplazarlo con relativa facilidad.
Al igual que con los medios tradicionales, Microsoft utiliza códigos de borrado, como RAID (matriz redundante de discos independientes) para almacenar datos duplicados en la biblioteca, de modo que los datos no queden abandonados detrás de robots averiados. Esto difiere de una biblioteca de cintas, que suele recibir mantenimiento de un gran brazo robótico que puede interrumpir todo el sistema si se rompe.
Cada robot funciona con baterías y es autónomo, una decisión de diseño fundamental, afirma Black. “Queríamos que los robots lanzadera no tuvieran ataduras y que los estantes de almacenamiento no tuvieran alimentación eléctrica. Si se conecta la alimentación, se tienen todos estos componentes electrónicos que tienen una vida útil y necesitan supervisión”.
Todo ese equipo tiene una vida útil finita que podría dejar obsoleto el proyecto antes de que muera el propio medio. En el caso de Silica, la vida útil del sistema es la vida útil del propio estante, o del edificio en el que se almacena.
“Básicamente, ¿qué se desgasta primero, las estanterías, el vidrio, el edificio?”, dice Black. “Probablemente el edificio: una vez que se llega a ese punto, ya sean 1000 o 10 000 años, ya no sirve de mucho”.
Los robots también pueden tener un impacto más inmediato en el sector de los centros de datos: la investigadora Andromachi Chatziefletheriou confirmó que Microsoft Research está "empezando a pensar en cómo podemos usar robots para las operaciones de los centros de datos", mientras revisaba una tela que cubría prototipos de robots que no eran de sílice y que no se nos permitió ver.
En octubre pasado, DCD informó en exclusiva que la empresa estaba contratando a un equipo para investigar la automatización y la robótica de los centros de datos. En LinkedIn, los contratados dicen que están trabajando en "centros de datos sin intervención humana".
Microsoft también tiene un esfuerzo más amplio en robótica, dirigido por el ex director del programa DARPA, Dr. Timothy Chung, quien anteriormente dirigió el programa OFFensive Swarm-Enabled Tactics y el DARPA Subterranean (SubT) Challenge.
Para estos robots cangrejo, su velocidad es un factor importante a la hora de reducir el tiempo que tardan en acceder a los datos de Silica. Cuanto antes puedan enviar un disco a una cámara, más rápido podrá empezar a procesarlo. Aquí es donde las cosas se ralentizan, aunque Microsoft no ha dicho cuánto tiempo espera que tarde la lectura.
"Sin duda, sigue apuntando al espacio de archivo", afirma Black. "En ese espacio, hoy en día, el estándar son 15 horas". Aunque la lectura de una cinta es más rápida, eso solo ocurre una vez que se ha llegado a la parte correcta de la cinta; en realidad, el sistema tiene que recorrer un kilómetro de cinta para encontrar los datos y luego volver a enrollarlos.
"Si quieres milisegundos, usa un disco duro", dice Black.
En el caso de los archivos, esto forma parte del atractivo comercial. La tecnología es de "escritura única, lectura múltiple" (WORM), por lo que quienes buscan reescribir el historial no pueden modificarla después, ni corren el riesgo de sufrir ataques de ransomware.
Retroceder un poco
Para entender qué podría significar una tecnología como Silica para los archiveros, recurrimos a John Sheridan de los Archivos Nacionales, el archivo oficial del gobierno del Reino Unido.
Él quiere hablar de ovejas.
"La Inglaterra medieval tenía una economía basada en las ovejas; basta con mirar las iglesias de la lana en el este", dice, haciendo referencia a las enormes iglesias financiadas por piadosos magnates de la lana que salpican la nación.
"Como había muchas ovejas, era fácil conseguir pergamino de piel de oveja", continúa Sheridan, cada vez más animado. "Y, en consecuencia, la Inglaterra medieval está particularmente bien documentada porque el pergamino tiene propiedades de conservación asombrosas".
En el siglo XVII, la piel de oveja volvió a cobrar vida. Los abogados descubrieron que las capas de carne actuaban como un registro inmutable, "de modo que si intentas alterar el registro, se nota en la piel".
Sheridan añade: "Existe una relación de larga data entre el coste de transacción de registrar información y el coste de conservarla, que tiene una gran influencia en lo que se registra y lo que se conserva. El almacenamiento a largo plazo no es algo nuevo; tenemos un edificio lleno de pergaminos".
Lo novedoso es el nivel de densidad que una tecnología moderna como Silica podría proporcionar. Los 1.200 millones de ovejas del mundo podrían registrar sólo una fracción de lo que cabría en un solo depósito de Silica.
Nuestra comprensión del pasado está intrínsecamente vinculada a las elecciones de los individuos contemporáneos y al medio que utilizaron. “La mayoría de las civilizaciones escribieron sobre materiales orgánicos perecederos y degradables: madera, hojas de bambú, textiles, papel, pergamino”, nos dice Curtis Runnels, profesor de arqueología, antropología y estudios clásicos en la Universidad de Boston.
“Esto significa que la mayor parte de todos los textos escritos han desaparecido para siempre”.
No sabemos cuánto hemos perdido, lo mejor que podemos hacer es hacer conjeturas a partir de lo que queda. “Los antiguos mesopotámicos y los hititas escribían en tablillas de arcilla que horneaban para preservarlas; el archivo hitita cuenta con más de 25.000 tablillas de este tipo”, dice el profesor Runnels.
“Es una excepción muy rara. Si tenemos en cuenta que la Biblioteca del Congreso o la Biblioteca Británica tienen cada una más de 100 millones de textos, podemos hacernos una idea de la magnitud de la pérdida de los imperios antiguos.
“Casi todos los pensamientos de los seres humanos que han existido alguna vez se han perdido. Una pequeña parte del pensamiento y la experiencia humana se ha deslizado a través del agujero de la memoria. ¿Cómo mediríamos la pérdida si las escrituras antiguas (como la Torá, el Nuevo Testamento o el Bhagavad Gita), los poemas (la Ilíada, la Odisea, la Eneida, el Mahabharata), la filosofía (Lao Tzu, Buda, Platón, Aristóteles) y la ciencia (Arquímedes, Euclides) [se perdieran]? Sin embargo, solo representan el 0,001 por ciento del acervo acumulado de conocimiento humano”.
Y añade: “Pero lo que tenemos no tiene precio”.
Le preguntamos a Runnels, que no conocía el sílice, qué podríamos hacer para garantizar que los textos actuales no se perdieran. “Inscribir el texto en múltiples escrituras y una clave para descifrarlo (como un gráfico/código de correspondencia de sonido/microchip) dentro de algún material como el vidrio, por ejemplo en un bloque de vidrio”, dice.
“Luego se hacen muchas copias y se distribuyen por todo el mundo (varios cientos de miles por continente), cada bloque marcado con enormes estructuras o monumentos como torres”.
Un mensaje a través del tiempo
El tiempo está en la mente de Jonathon Keats. El artista conceptual y filósofo experimental lleva mucho tiempo creando proyectos centrados en explorar nuestra época y lo que vendrá después.
Su último trabajo se centra en dos cámaras: una que dura 100 años y otra que dura 1.000. La primera, la Century Camera, es un sistema estenopeico de bajo coste desarrollado en colaboración con la UNESCO, en el que se anima a los particulares a esconder cientos de ellas en todo el mundo.
"La mayoría de ellos van a fallar, pero son lo suficientemente baratos como para que podamos tener redundancia", dice.
La cámara Millenium es más cara y solo se instalará en unos pocos lugares específicos, incluidos los próximos despliegues en Los Ángeles y los Alpes suizos.
Mientras hablamos, el sol brilla sobre la colina Tumamoc, con vistas a Tucson. Unos pocos fotones de luz solar se abren paso a través de un pequeño orificio en una fina lámina de oro de 24 quilates alojada en un pequeño cilindro de cobre colocado sobre un poste de acero.
Fiel a su naturaleza temporal, la tecnología detrás de esta cámara es antigua. “Es un concepto de hace unos 500 años”, dice Keats. “Básicamente, se frota el cobre con piedra pómez y luego se frota con ajo; nadie sabe ni siquiera por qué se frota con ajo, pero ayuda a unir el aceite”.
Ese aceite, una tecnología que se remonta al menos a los antiguos egipcios, se esmalta después para dejar una exposición de milenios en la parte posterior del cilindro de cobre. “Hay innumerables razones por las que es probable que esto falle”, dice Keats.
“Lo primero y más importante es que estamos en fase beta, nadie lo ha hecho antes, no tengo forma de iterarlos, ya que no me quedan 1.000 años de vida para poder crear mi primer prototipo”.
En eso reside uno de los desafíos fundamentales de cualquier señal hacia el futuro. Con el Protocolo de Control de Transmisión de Internet, o TCP, un acuse de recibo (o señal de retorno) es una parte fundamental de cualquier comunicación que se envíe de un sistema a otro.
“Ahí está el quid de la cuestión”, dice el archivista Sheridan. “Si estás enviando mensajes a través del tiempo, el futuro no puede enviarte el acuse de recibo de un ‘mensaje recibido’. Tienes que repartir las apuestas, tienes que tener redundancia”.
Símbolos sin significado
Aunque nuestro mensaje sobreviva a través de milenios desconocidos, tampoco está claro que nuestras palabras encerradas en cristal puedan siquiera ser entendidas.
"No es una posibilidad sino más bien una certeza que cualquier lengua dada habrá evolucionado considerablemente dentro de 10.000 años", dice Filippo Batisti, investigador postdoctoral en filosofía del lenguaje y la mente en la Universidad Católica de Portugal en Braga y cofundador del Seminario Veneciano de Cognición, Lenguaje, Acción y Sensibilidad (CLAVeS) en Italia.
"Pequeños cambios ocurren todo el tiempo ante nuestros ojos y su suma a lo largo de décadas da como resultado que los nietos hablen y escriban de manera un poco diferente a sus abuelos".
A lo largo de un par de generaciones, la inteligibilidad mutua puede conservarse en gran medida, pero a medida que pasa el tiempo, ese vínculo comienza a desgastarse. "La intercomprensión lingüística se convertirá en la primera preocupación", advierte Batisti.
"Gutenberg y la escritura informática están separados por un mero intervalo de cinco siglos y medio: aquí estamos hablando de diecisiete veces esta diferencia en un mundo donde el progreso tecnológico es mucho más rápido".
No es inconcebible que una civilización futura recurra a la IA para ayudar a descifrar cualquier texto descubierto, o que la civilización sea simplemente una IA.
Ya podemos ver cómo nuestra tecnología primitiva puede resucitar lenguas muertas y olvidadas. Solo el año pasado, se produjeron “dos avances maravillosos, uno con la escritura kushan y el otro con los rollos de papiro de Herculano”, dice el arqueólogo Runnels, y la IA ayudó a descubrir nuevos conocimientos sobre la vida en Asia central y a comprender mejor una ciudad destruida por la erupción del Vesubio.
“La IA ha demostrado ser muy buena para descifrar escrituras desconocidas y, cuando se combina con la tomografía computarizada y otras tecnologías, puede leer fragmentos carbonizados o ilegibles de libros antiguos. Creo que veremos descifradas todas las escrituras no descifradas (y hay muchas) en los próximos cinco años como máximo”.
Por supuesto, aún sufrimos la falta de un contexto que nos ayude a comprender plenamente los textos. “Puedo tener todas las traducciones de mis palabras por parte de la IA, pero nuestra falta de comprensión no es solo lingüística, sino que no comprenden el marco conceptual y cultural que me hace tener esa necesidad particular”, afirma Batisti.
“Se trata más de un problema de interpretación que de una mera traducción lingüística. La traducción asistida por inteligencia artificial no será de ninguna ayuda por sí sola. Por cierto, esta es también una muy buena razón para defender el valor y la utilidad de las humanidades frente a las utopías hipercientíficas en auge”.
Perdido en la traducción
Incluso si una civilización futura se basa en un lenguaje similar al nuestro y es capaz de traducir textos de su época, "el problema podría ser que conjuntos enteros de palabras individuales resultarían tener referentes vacíos: conceptos enteros, tomados de forma aislada, se perderían", dice Batisti.
"Cuanto mayor sea la distancia, más cambiarán los elementos de la vida (como la cultura material, las normas sociales o los modos de conocimiento y creencias) asociados a las palabras. Para entonces, nuestra comprensión de la física o incluso de la medicina será diferente, y también su significado social. Incluso las palabras o conceptos que se refieren a nuestro propio cuerpo y a nuestras características biológicas podrían interpretarse de manera muy diferente. Eso ya sucede hoy en día en diferentes culturas de todo el mundo".
Los arqueólogos de hoy no se basan únicamente en textos: buscan viviendas, estatuas, ciudades perdidas y otros restos de civilizaciones que les ayuden a pintar un cuadro del pasado. Por suerte para los historiadores del futuro, pero por desgracia para todos los demás, estamos dejando un mensaje mucho más importante a nuestros descendientes.
El cambio climático, la pérdida de biodiversidad y los desechos plásticos son solo algunas de las cicatrices antropogénicas que dejaremos en nuestra cronología. Con o sin las grabaciones de Silica, una civilización sucesora podría descifrar nuestros valores y prioridades a partir de nuestras acciones.
El artista Keats espera que su trabajo, y el de otros, ayude a la gente a pensar en escalas de tiempo más largas para comprender los efectos combinados de la pérdida y el cambio.
“Es esencial que seamos capaces de situarnos en relación con el pasado profundo y con el futuro”, afirma Keats. “En virtud del hecho de que lo que hacemos persistirá durante mucho tiempo, somos responsables ante el futuro”.
Dicho esto, advierte que este punto de vista también puede utilizarse para justificar cualquier cosa en el presente. “Habrá muchas más generaciones después de nosotros que antes”, afirma. “Y si pensamos en el sufrimiento y adoptamos una forma utilitarista de considerarlo, entonces el futuro lejano en su conjunto es mucho más importante que el presente”, un concepto que puede dar lugar a peligrosas afirmaciones morales.
“Estamos en el presente y necesitamos vivirlo plenamente para poder tomar las decisiones que realmente tendrán un impacto positivo en el futuro. Es un equilibrio delicado”.
Ese presente está cada vez más dominado por la IA.
La IA generativa, en particular, se ha convertido en la tecnología de nuestra era (o, al menos, se ha promocionado como tal). Las mayores empresas de nube a gran escala, entre ellas Microsoft y sus competidores, han anunciado inversiones récord en centros de datos y servidores, mientras se preparan para un gran salto en las capacidades computacionales de nuestra especie.
Este momento también representa otro equilibrio delicado para los archivistas y otras personas interesadas en registrar el mundo, uno de grandes oportunidades y de riesgos aún mayores.
Una audiencia de IA
Los modelos generativos están hambrientos. Los enfoques actuales han hecho que las empresas eludan las leyes de derechos de autor para absorber la mayor parte de Internet y una enorme cantidad de textos del mundo y ayudar a que los modelos se vuelvan mucho más inteligentes durante el año pasado.
Esta característica, una vez publicada, pronto será extraída y añadida a la gran cantidad de datos que se están incorporando a la siguiente oleada de modelos. Pero no es suficiente. Para seguir creciendo, los modelos necesitan cada vez más datos, y se están agotando.
Una forma de evitarlo ha sido que las empresas introduzcan datos sintéticos en sus modelos (consciente o inconscientemente), lo que les permite crear los datos que necesitan. Pero esto puede provocar el colapso del modelo, ya que el sistema se aleja cada vez más de la realidad de referencia.
Otro enfoque podría ser digitalizar el tesoro de datos que tenemos del pasado, algo que sería más posible si redujéramos el costo del almacenamiento mediante Silica u otras tecnologías.
"Me pregunto si esto abre nuevas oportunidades y nuevos modelos para digitalizar colecciones analógicas, porque tenemos cientos de kilómetros de registros de la humanidad y menos del 10 por ciento de ellos ha sido digitalizado", dice Sheridan, director de los esfuerzos de digitalización de los Archivos Nacionales.
"He trabajado mucho tiempo en la digitalización de material, pero quizá la cuestión económica de digitalizar los registros analógicos de la humanidad (que son bastante numerosos) cambie de una forma muy profunda e interesante".
Señal a través del ruido
Los modelos que construimos extrayendo nuestros archivos también corren el riesgo de contaminarlos.
“Lo que tenemos ahora es un pasado que nunca existió”, dice Andrew Hoskins, profesor de investigación interdisciplinaria de la Universidad de Glasgow y editor jefe fundador de la revista Memory Studies .
“Los grandes modelos lingüísticos están regurgitando algo que nunca existió”.
No hay forma de demostrar que este artículo fue escrito por un ser humano. Su extensión y, con suerte, su claridad ofrecen algunas pistas, mientras que, si uno se tomara el tiempo de verificar los hechos, la falta de alucinaciones y citas inventadas ofrecería otra pista.
Pero eso ya es bastante difícil hoy en día. Para un historiador del futuro, que tal vez tenga que examinar incontables registros de contenido multimedia generado por modelos de IA durante la próxima década, sin poder encontrar fuentes y sin pistas contextuales que puedan hablar del origen humano, ¿qué podría hacer con este texto?
Estamos creando una gran cantidad de ruido que podría ensordecer la realidad grabada, dejando espejismos e ilusiones de nosotros mismos junto a vídeos y textos reales.
El yo grabado
Incluso sin IA generativa, la cantidad de datos que producimos está aumentando a un ritmo dramático.
A principios de siglo, cuando se hizo evidente el poder de la tecnología digital para registrar nuestras vidas, "surgió una obsesión por la memoria total", recuerda Hoskins.
Las empresas de la época promocionaban productos que podían registrar tu vida al completo: “Era una publicidad extraña, del tipo: ‘nunca te perderás tu primer beso, puedes volver a verlo en cualquier momento’”. La tecnología era cara, poco práctica y torpe, y nunca despegó del todo.
“Y luego, en los últimos dos años, empezó a convertirse en realidad”.
Como cultura, registrar y compartir cada vez más aspectos de nuestra vida se ha convertido en la norma. Incluso si intentas limitar lo que compartes, interactuar con la sociedad moderna significa que tus datos inevitablemente se almacenarán.
A principios de este año, un informe encargado por el Director de Inteligencia Nacional de Estados Unidos dijo que las agencias miembros de la comunidad de inteligencia (CI) "esperan mantener cantidades de datos a una escala comparable a la de una gran corporación como Meta o Amazon", y planteó preocupaciones sobre su capacidad para mantener todos estos datos vigilados.
"Los IC tienen el potencial de ser uno de los mayores clientes de almacenamiento de datos fríos debido a su amplia necesidad de información", dice el informe, exponiendo los problemas de las plataformas de almacenamiento de corta duración: el crecimiento de la densidad de los discos duros se está desacelerando, los SSD no duran lo suficiente y la cinta probablemente alcanzará los límites del efecto superparamagnético para finales de la década, lo que limitará las mejoras de densidad.
El informe concluyó que Silica de Microsoft y el almacenamiento cerámico de su rival Cerabyte eran las únicas dos tecnologías que se esperaba que fueran capaces de almacenar la próxima ola de datos de circuitos integrados en el corto plazo.
Lo que debemos olvidar
Si bien la comunidad de inteligencia argumentará que la vigilancia generalizada es clave para la seguridad nacional, sigue siendo un atolladero ético que las democracias no han logrado debatir ni abordar plenamente.
La escala de los registros que proporcionamos de nosotros mismos, y que las corporaciones y los gobiernos conservan, no se parece a nada que hayamos mantenido hasta ahora. Un empleado de nivel básico en un tranquilo pueblo apartado tendrá más registros conservados sobre él que reyes y emperadores del pasado lejano.
A veces, perder datos tiene valor, argumenta Hoskins.
“Olvidar no siempre es malo, las sociedades necesitan olvidar lo suficiente para poder seguir adelante”, afirma. “Mi adolescencia no quedó registrada, nadie sabe de todas las cosas malas que hice”.
Más allá de sus propias debilidades juveniles, Hoskins se pregunta qué más debería relegarse al basurero de la historia. "Tradicionalmente, los medios que transmiten la memoria -papel, fotografías, etc.- amarillean, se descoloran y se descomponen de manera natural. Así es como las sociedades olvidan, es una época de decadencia.
"Es natural que los recuerdos desaparezcan. La era digital, por supuesto, lo ha trastocado por completo".
Lo que podríamos olvidar accidentalmente
Al mismo tiempo, las grabaciones modernas padecen un defecto preocupante: a menudo requieren tecnologías complejas para comprenderlas, incluidas capas de software propietario o servidores siempre en línea.
Por ejemplo, en “un software tan extendido como Microsoft Word, lo que está codificado en el archivo y lo que Word calcula cuando se abre el archivo no es obvio, incluso para la mayoría de los usuarios de Word”, dice el archivista Sheridan.
“Nuestros sistemas se han vuelto tan complejos que no tenemos idea de cómo funcionan porque tienen muchas, muchas capas de software interconectado”.
Esto representa un verdadero “desafío para la conservación a largo plazo, ya que los sistemas que necesitamos utilizar para procesar información a lo largo del tiempo se vuelven más complejos y la capacidad de conservar infraestructuras enteras no parece económica”.
Incluso si se resuelven los problemas económicos, el software de código cerrado y los problemas de propiedad intelectual pueden limitar lo que los archivistas pueden conservar.
“Creemos que es muy importante que existan instituciones que se ocupen de resolver este problema”, afirma Sheridan. “Es aún más importante porque las cosas digitales no se conservan solas, a diferencia del pergamino”.
La biblioteca del mundo
Con Silica, Microsoft podría almacenar todos estos mundos dispares en sus salas: las representaciones de los mundos reales, los digitales, los intencionalmente falsos y los alucinados.
Más allá de las leyes de propiedad intelectual y las amplias directrices de los términos de servicio de Microsoft Azure, no será tarea de Microsoft vigilar y mantener lo que se introduce en el cristal. Tampoco queremos necesariamente que esa responsabilidad recaiga en la empresa pública más valiosa del mundo.
La empresa será propietaria de la tecnología, aunque otras están trabajando en enfoques alternativos, y probablemente ofrecerá Silica únicamente como servicio en la nube. Pero es probable que no sea un guardián demasiado agresivo en lo que respecta a lo que se almacena en el vidrio, más allá de quién esté dispuesto a pagar y no infrinja la ley.
En cambio, eso dependerá de todos nosotros y de lo que elijamos crear y registrar. Los archivistas estarán en la primera línea de la lucha para transmitir el conocimiento a las generaciones futuras.
Reducir el costo del almacenamiento y el riesgo de pérdida es sólo el comienzo de lo que significa almacenar los datos del mundo. “El almacenamiento a largo plazo, de bajo costo y comercializado como producto básico brinda a los archivos digitales la oportunidad de dedicar más esfuerzos a las cuestiones que no están tan bien resueltas”, afirma Sheridan.
“Si esto es así, es fantástico, porque significa que podemos poner más esfuerzo y energía en todas las demás partes del rompecabezas”.
El ahorro de costes a largo plazo será el factor que “impulsará el cambio social”, cree Black, de Microsoft. “Tanto si se trata de hospitales que conservan datos médicos como de industrias extractivas que conservan detalles precisos sobre lo que hicieron en el terreno, cuando se trasladan a Silica, ese coste adicional simplemente desaparece”.
Se espera ver un cambio en el modo en que las personas tratan los datos y que las regulaciones también cambien para aumentar el tiempo que los diferentes sectores tienen para conservar la información ahora que no hay limitaciones tecnológicas o temporales para el almacenamiento indefinido.
"Si la gente internaliza lo que realmente significa, creo que va a ser un cambio total en cómo la gente piensa sobre la preservación de datos", agrega su colega Stefanovici, mencionando cómo muchos datos científicos de experimentos actualmente no se almacenan y cómo los datos históricos simplemente ya no existen.
“No necesitamos tener tantas pérdidas”.